思考深度学习的泛化能力

article/2025/10/13 20:22:10

      • 神经网络通过记忆学习
        • 传统观点
        • 论文观点
        • 论文实验
      • 神经网络 不 通过记忆学习
      • 参考资料

深度神经网络往往带有大量的参数,但依然表现出很强的泛化能力(指训练好的模型在未见过的数据上的表现)。

深度神经网络为何会拥有如此强的泛化能力?最近,两篇论文引起了广泛思考。


神经网络通过记忆学习

《Understanding deep learning requires rethinking generalization》一文通过实验得出初步结论

神经网络极易记忆训练数据,其良好的泛化能力很可能与此记忆有关。

传统观点

传统方法认为模型对训练数据的记忆是导致泛化能力差的重要原因,因此往往通过各种各样的正则化手段使得模型“简约”,从而打破这种记忆。

论文观点

深度神经网络极易记忆数据,常用的正则化手段对于模型泛化能力的提高不是必要的而且也不足以控制泛化误差。深度神经网络发挥作用时可能很好的利用了其记忆能力。

论文实验

论文通过大量试验挑战了传统机器学习的观点。

实验一:如下图

这里写图片描述

上图的实验结果是:哪怕是随机的label、随机的噪声,神经网络也能获得零训练误差。虽然训练时间变长,测试误差也变高。因此,作者得出了结论:神经网络极易记忆数据,其泛化能力很可能与记忆有关。

我的看法: 作者试验中保证网络参数量大于数据量的2倍,如此巨大的网络能够记忆训练数据似乎一点也不让人惊奇。作者用零训练误差来表示网络记忆了数据,但对于正确label和随机label而言,同样的零训练误差可能代表完全不同形式的“记忆”,因此不能简单就说明神经网络的能力和记忆有关。

实验二:如下表

这里写图片描述

上表试图比较说明三种类型的显式正则化:data augmentation, weight decay and dropout的效果。 结论是:这些正则化手段虽然有助于减小泛化误差,但即使没用这些手段,模型依然可以比较好的泛华。即正则化不是模型泛化的根本原因。


神经网络 不 通过记忆学习

《DEEP NETS DON’T LEARN VIA MEMORIZATION》

文章结论:深度神经网络的性能并非来自“记忆”, 而是源于在有限数据上学习简单的、切合的可用假设。

实验一:如下图

这里写图片描述

实验现象:对于真实数据,网络可以用较少的参数获得较好的性能;对于噪声,则需要增加网络容量。

结论: 这暗示网络是在学习某种“模式”,而不是简单的暴力记忆。

实验二:如下图

这里写图片描述

实验现象:减小网络容量或者增加数据集的大小会使网络收敛速度变慢,但这一现象对真实数据并不明显。

结论: 这暗示网络是在学习某种“模式”,而不是简单的暴力记忆。(否则的话,样本增多,训练速度应该变慢很多。)

未完待续:

参考资料

[1] 新智元文章:【Bengio vs 谷歌】深度学习兄弟对决,神经网络泛化本质之争:http://it.sohu.com/20170219/n481116059.shtml

[2] Reddit评论: https://www.reddit.com/r/MachineLearning/comments/5cw3lr/r_161103530_understanding_deep_learning_requires/

[3] ICLR 论文公开评审:https://openreview.net/pdf?id=rJv6ZgHYg


http://chatgpt.dhexx.cn/article/ry7nryVW.shtml

相关文章

SQL提升(一)

Sql不常见关键字提升 一、前言 Sql是最重要的关系数据库操作语言,现在基本上任何与数据库相关的操作都离不开sql。所以说sql功能是很强大的。 我们常用的sql关键字不外乎 group by;in; where; from; update……等,这些关键字有时组成sql的基础。 但是…

越大的数据集训练,网络泛化能力越强

虽然这个直观很好理解,但我想找这个论点的论文支持,如果再能找张图就好了,下面是过程 首先是On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima这篇经典文章,里面的这张flat minima和sharp minim…

浅谈深度学习泛化能力

谷歌最近出品的82页论文《ON THE GENERALIZATION MYSTERY IN DEEP LEARNING》,在此我简单归纳下论文的思想,有兴趣的看看原论文。论文链接:github.com/aialgorithm/Blog 一、DNN泛化能力的问题 论文主要探讨的是, 为什么过参数的…

深入理解泛化

文章目录 1.引言2.泛化的定义3.数据集分类4.泛化能力分类5.从训练过程来理解泛化参考资料 1.引言 什么是泛化呢? 先举个栗子: 小明和小李都上了高三。小明头脑机灵,一边刷着五年高考三年模拟一边总结做题规律,而小李一门心思刷题…

机器学习-泛化能力

目录 1.什么是泛化能力 2.什么是好的机器学习模型的提出 3.泛化误差 4.模型泛化能力的评价标准 4.提高泛化能力 5.举例 6.相关引用文献 1.什么是泛化能力 百度百科解释:机器学习算法对新鲜样本的适应能力。 更加具体的解释:学习到的模型对未知…

机器学习中的泛化能力

模型的泛化能力:指机器学习算法对新鲜样本的适应能力。 学习的目的:学到隐含在数据背后的规律,对具有同一规律的学习集以外的数据,经过训练的网络也能给出合适的输出,该能力称为泛化能力。 由此可见,经训练…

神经网络泛化的能力因素,神经网络泛化的能力差

1、BP神经网络当中 所提到的泛化能力是指什么? 就是外推的能力。 很多时候训练的网络对于训练的数据能很好的拟合,但是对于不在训练集内的数据拟合就很差强人意了。这种情况就叫泛化能力----差。也就是说可能你的网络存在过拟合的现象。 谷歌人工智能写…

【深度学习】常见的提高模型泛化能力的方法

前言 模型的泛化能力是其是否能良好地应用的标准,因此如何通过有限的数据训练泛化能力更好的模型也是深度学习研究的重要问题。仅在数据集上高度拟合而无法对之外的数据进行正确的预测显然是不行的。本文将不断总结相关的一些方法。 一、模型角度 Dropout 首先随…

TCP/IP报文格式

1、IP报文格式    IP协议是TCP/IP协议族中最为核心的协议。它提供不可靠、无连接的服务,也即依赖其他层的协议进行差错控制。在局域网环境,IP协议往往被封装在以太网帧(见本章1.3节)中传送。而所有的TCP、UDP、ICMP、IGMP数据…

TCP首部报文段格式

最近《计算机网络》这本书看到了传输层的 TCP 协议,因为TCP 的全部功能都体现在它的首部中,因此觉得有必要将这些知识梳理一下。 首先TCP 是面向字节流的。这个流指的是流入到进程或从进程流出的字节序列。面向字节流的含义是:应用程序与 TC…

ARP报文格式详解

ARP 协议包(ARP 报文)主要分为 ARP 请求包和 ARP 响应包,本节将介绍 ARP 协议包的格式。 ARP 报文格式 ARP 协议是通过报文进行工作的,ARP 报文格式如图所示。 ARP 报文总长度为 28 字节,MAC 地址长度为 6 字节&…

CAN的报文格式

CAN的报文格式 在总线中传送的报文,每帧由7部分组成。CAN协议支持两种报文格式,其唯一的不同是标识符(ID)长度不同,标准格式为11位,扩展格式为29位。 在标准格式中,报文的起始位称为帧起始&am…

IPv4报文格式详解和报文示例

目录 一,IP数据报文的组成 二,IP报文格式 三,IPv4报文示例 作者:柒烨带你飞 一,IP数据报文的组成 一个IP数据报文都是由首部和数据两部分组成。 每个 IP 数据报都以一个 IP 报头开始。IP 报头中包含大量信息&#…

ICMP报文格式解析

ICMP报文的格式类型总共分为三大类: 1、差错报文 2、控制报文 3、查询报文 上图是ICMP报文的基本格式,上面提到的三种ICMP报文均有“类型,代码和校验和”三个字段,后面还有4个字节是根据不同的报文类型而有不同的格式&#xff…

常见网络报文数据包格式

当我们应用程序用TCP传输数据的时候,数据被送入协议栈中,然后逐个通过每一层,知道最后到物理层数据转换成比特流,送入网络。而再这个过程中,每一层都会对要发送的数据加一些首部信息。整个过程如下图。 以太网帧格式 以…

网络中的常见的各种协议--报文格式总结学习

网络中的各种协议总结学习 以太网帧结构IP报文格式ARP协议ICMP协议UDP用户数据包协议DNS TCP协议FTP协议HTTP协议SMTP协议POP协议SSH协议 以太网帧结构 注: 当LLC-PDU中携带的是数据的时候,那么左侧的2字节表示的就是长度;当然,以…

网络基础知识之报文格式介绍

1.以太网数据帧头部 DMAC:目的MAC地址,长度6个字节。 SMAC:源MAC地址,长度6个字节。 TYPE:类型字段,表明上层是哪种协议,IP协议是0x800,ARP协议是0x0806。 DATA:数据字…

计算机网络11种协议报文格式

文章目录 TCPUDPIPIPV6IPSec以太网帧结构802.1Q以太网帧结构802.11无线链路帧SSL记录RTP实时传输协议OpenFlow流表参考 TCP 源端口号和目的端口号: 用16bit表示所以端口号范围为0~65535,用来标识源主机和目的主机上的进程,用于运输层的多路复用和多路分解…

EndNote X8使用总结

本文记录在使用EndNote X8(Word2013)过程中遇到的一些问题,持续更新。 1.插入参考文献序号与文本的缩进问题 问题描述:在Word中使用EndNote插入参考文献后,在文末的参考文献出现文献序号与文本内容相距较大的情况&am…

EndNote20 安装方法

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言一、Endnote是什么?二、安装步骤 1.安装库2.中文版总结 前言 管理文献工具是科研入门的一个必要学习方面。随着写作论文的增多,以及学习…