您的位置：首页 > 其它

【深度学习】ICLR-17 最佳论文详解：理解深度学习要重新思考泛化

2017-11-22 00:00 597 查看

来源：The Morning Paper

作者：Adrian Colyer

编译：闻菲

【编者按：有关《理解深度学习需要重新思考泛化》论文介绍见文末；灰色加粗字体代表引自论文；红色加粗是新智元编辑加的】

（文／Adrion Colyer）这篇论文有很多优点：结果简单易懂，还有些出乎意料，会让你在接下来很长一段时间思考这一切可能意味着什么！

作者一开始提出的问题是：

“泛化好的神经网络和泛化不好的神经网络有什么区别？对这一问题做出满意的回答，不仅有助于更好地理解神经网络，还可能带来更正确（principled）可靠的模型架构设计。”

作者说“泛化好”的意思，就是简单指“是什么原因导致在训练数据上表现很好的网络，在（没有接触过的）测试数据上表现也很好？”（与迁移学习不同，迁移学习做的是将一个训练好的网络用于另外一个相关但不同的问题）。

花点时间想一下，这个问题基本可以归结为：“为什么神经网络效果这么好？”至于泛化，一个是只记住部分训练数据而后将其重复出来，一个则是真正对可以用来进行预测的数据集产生一些有意义的发现（intuition），这两者的区别就是泛化。

所以，要是我们对“为什么神经网络表现（泛化）这么好？”给出的回答是：“我们真的不知道！”——事情就有些尴尬了。

[b][b][b][b]不可思议的随机标签案例[/b][/b][/b][/b]

故事从一个熟悉的地方开始——CIFAR 10（含有 5 万幅训练图像，分为 10 个类，1 万幅验证图像）和 ILSVRC（ImageNet）2012（1,281,167 训练数据，5 万幅验证图像，1000 个类别）数据集和 Inception 网络架构的变体。

使用训练数据训练网络，然后在“训练数据集”上错误为 0，这没什么好奇怪的。这充分说明了过拟合——记住训练样本，而不是学习对特征进行真正的预测。我们可以使用正则化技术应对过拟合，设计出泛化性能更好的网络。这个话题我们稍后再说。

仍然使用相同的训练数据，但这次将标签打乱（使标签和图像中的内容不再具有真正的对应关系）。使用这些标签随机的数据训练网络，会得到什么？训练错误还是 0！

“在这种情况下，实例和分类标签之间不再有任何关系。因此，学习是不可能发生的。直觉告诉我们，这种不可能会在训练过程中很清楚地表现出来，比如训练不收敛，或者收敛速度大幅减慢。让我们感到意外的是，有多个标准架构的训练过程的好些属性，在很大程度上都没有受这种标签转换的影响。”

正如作者所言，“深度神经网络很容易拟合随机标签”。从第一个实验中可以看出以下 3 个关键点：

神经网络的有效容量足以记住整个数据集；

对标签随机的数据进行优化很容易。事实上，与标签正确的训练过程相比，随机标签的训练时间也只增加一个小的常数因子；

将标签打乱仅仅是做了一个数据转换，其他所有关于学习问题的属性都没有改变。

不过，如果你把使用随机标签训练的网络在测试数据集上跑一遍，结果当然不会好，因为网络实际上并没有从数据集中学到什么。用专业一点的话说，就是网络的泛化误差很高。

综上可得：

“……通过将标签随机化，我们可以强制模型不受改变、保持同样大小、超参数或优化器的情况下，大幅提升网络的泛化误差。我们在 CIFAR 10 和 ImageNet 分类基准上训练了好几种不同标准架构，证实了这一点。”

换句话说：模型本身、模型大小、超参数和优化器都不能解释当前最好的神经网络的泛化性能。因为在其他条件都不变的情况下，唯独泛化误差产生大幅变动，只能得出这一个答案。

[b][b][b][b]更加不可思议的随机图像案例[/b][/b][/b][/b]

不仅仅打乱标签，把图像本身也打乱，会发生什么呢？或者，干脆用随机噪声代替真实图像？？

论文给出的图中，将这一实验标记为“高斯”实验，因为作者为每幅图像生成随机像素的方法，是使用了匹配原始图像数据集均值和方差的高斯分布。

结果，网络的训练错误依然为 0，而且所用的时间还比随机标签更少！对此，一种假说是，随机标签图像都属于一个类别，但由于交换了标签，不得不作为不同类别的图像数据进行学习，而随机像素图像彼此之间更分散。

作者团队做了多次实验，将一系列不同程度和类型的随机性加入数据集：

真实标签（原始数据集，没做修改）

部分损坏的标签（将其中一部分标签打乱了）

随机标签（把所有标签都打乱）

shuffle 像素（选择一个像素排列，然后将其统一［uniformly］用于所有图像）

随机像素（对每幅图像单独做一个不同的随机排列）

高斯方法（如上文所述，给每幅图像增加随机生成的像素）

一路下来，网络仍然能够完美地拟合训练数据。

“此外，我们进一步改变了随机性的数量，在无噪声和完全噪声的情况下平滑地插入数据集。这样一来，标签还是保有某种程度的信号，从而会造成一系列间接的学习问题。随着噪声水平的提高，我们观察到泛化误差呈现出稳定的恶化。这表明神经网络能够理解数据中的剩余信号，同时用暴力计算适应噪声部分。”

对我而言，最后一句话是关键。我们在设计模型架构的过程中，某些决定显然会影响模型的泛化能力。当数据中没有其他真实信号时，世界上泛化性能最好的网络也不得不退回去诉诸于记忆。

所以，也许我们需要一种方法，将数据集真正的泛化潜力梳理清楚，同时弄明白给定模型架构获取这种潜力效果如何。对此，一个简单的方法是在同一个数据集上训练不同的架构！——当然，我们一直都在这么做。但这对于我们初衷——理解为什么一些模型比其他模型泛化得更好——仍然没什么用处。

[b][b][b][b]正则化方法救场？[/b][/b][/b][/b]

模型架构本身显然不足以作为一个合格的正则化函数（不能防止过拟合/记忆）。但是，常用的正则化技术呢？

“我们表明，显式正则化方法，如权重衰减、dropout 和数据增强，都不能充分解释神经网络的泛化误差：显式正则化确实可以提高泛化性能，但其本身既没必要也不足以控制泛化误差。”

显式正则化更像是做调整参数，有助于改善泛化能力，但不使用显示正则化方法也不一定意味着会产生泛化错误。并不是所有拟合训练数据的模型都能够很好地泛化。这篇论文中一个有趣的分析表明，通过使用梯度下降也能获取一定量的正则化：

“我们分析了作为隐式正则化函数的随机梯度下降（SGD）的表现。对于线性模型，SGD 总是收敛到一个小正态（norm）的解决方案。因此，算法本身将解决方案隐性地正则化了……尽管这并不能解释为什么某些架构比其他架构泛化得更好，但它确实表明，要准确理解使用 SGD 训练的模型继承了哪些属性，还需要更多的调查。”

[b][b][b][b]机器学习模型的有效容量[/b][/b][/b][/b]

假设有个神经网络，训练样本是有限数的 n。如果网络有 p 个参数（p＞n），那么即使是简单到只有两层的神经网络也可以对输入样本的任何函数进行表征。论文作者（在附录中）证明以下定理：

“存在一个激活函数为 ReLU 的两层神经网络，权重为 2n + d，可以对维度为 d 大小为 n 的样本的任何函数进行表征。”

就连线性大小的 2 层深网络也可以表征训练数据的任何标签！

[b][b][b][b]结论：需要新的衡量模型复杂度的方法[/b][/b][/b][/b]

“这种情况对统计学习理论构成了一个概念上的挑战，因为衡量模型复杂度量的传统方法不能很好地解释大规模人工神经网络的泛化能力。我们认为，我们目前还没有发现一个精确的正式衡量方法，在这个衡量方法下，这些庞大的模型都很简单。从我们的实验得出的另一个见解是，即使最终的模型不能泛化，在实际操作中优化还是很容易的。这也表明了为什么实践中容易做优化的原因与神经网络泛化能力的原因是不同的。”

[b][b][b][b]论文及 ICLR-17 公开评审简介[/b][/b][/b][/b]

摘要

尽管体积巨大，成功的深度人工神经网络在训练和测试性能之间可以展现出非常小的差异。过去一般将其归功于泛化误差小，无论是对模型谱系的特点还是对于训练中使用的正则技术来说。

通过广泛的系统的实验，我们展示了传统方法无法解释为什么大规模神经网络在实践中泛化表现好。具体来说，我们的实验证明了用随机梯度方法训练的、用于图像分类的最先进的卷积网络很容易拟合训练数据的随机标记。这种现象本质上不受显式正则化影响，即使我们通过完全非结构化随机噪声来替换真实图像，也会发生这种现象。我们用一个理论结构证实了这些实验结果，表明只要参数的数量超过实践中通常的数据点的数量，简单两层深的神经网络就已经具有完美的有限样本表达性（finite
sample expressivity）。我们通过与传统模型进行比较来解释我们的实验结果。

【一句话总结】通过深入系统的实验，我们指出传统方式无法解释为什么大规模神经网络在实践中泛化表现良好，同时指出我们为何需要重新思考泛化问题。

【ICLR 评委会最终决定】作者提供了深度神经网络拟合随机标注数据能力的迷人研究结果。调查深入，有启发性，鼓舞人心。作者提出了a）一个理论实例，显示具有大量参数和足够大的 wrt 样本的简单浅层网络产生了完美的有限样本表达性；b）系统广泛的实验评价，以支持研究结果和论点。实验评价的考虑非常周全。

论文地址：https://openreview.net/forum?id=Sy8gdB9xx¬eId=Sy8gdB9xx

Adrian 原文：https://blog.acolyer.org/2017/05/11/understanding-deep-learning-requires-re-thinking-generalization/

人工智能赛博物理操作系统

AI-CPS OS
“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS
OS”：云计算+大数据+物联网+区块链+人工智能）分支用来的今天，企业领导者必须了解如何将“技术”全面渗入整个公司、产品等“商业”场景中，利用AI-CPS
OS形成数字化+智能化力量，实现行业的重新布局、企业的重新构建和自我的焕然新生。

AI-CPS OS的真正价值并不来自构成技术或功能，而是要以一种传递独特竞争优势的方式将自动化+信息化、智造+产品+服务和数据+分析一体化，这种整合方式能够释放新的业务和运营模式。如果不能实现跨功能的更大规模融合，没有颠覆现状的意愿，这些将不可能实现。

领导者无法依靠某种单一战略方法来应对多维度的数字化变革。面对新一代技术+商业操作系统AI-CPS
OS颠覆性的数字化+智能化力量，领导者必须在行业、企业与个人这三个层面都保持领先地位：

重新行业布局：你的世界观要怎样改变才算足够？你必须对行业典范进行怎样的反思？

重新构建企业：你的企业需要做出什么样的变化？你准备如何重新定义你的公司？

重新打造自己：你需要成为怎样的人？要重塑自己并在数字化+智能化时代保有领先地位，你必须如何去做？

AI-CPS OS是数字化智能化创新平台，设计思路是将大数据、物联网、区块链和人工智能等无缝整合在云端，可以帮助企业将创新成果融入自身业务体系，实现各个前沿技术在云端的优势协同。AI-CPS
OS形成的数字化+智能化力量与行业、企业及个人三个层面的交叉，形成了领导力模式，使数字化融入到领导者所在企业与领导方式的核心位置：

精细：这种力量能够使人在更加真实、细致的层面观察与感知现实世界和数字化世界正在发生的一切，进而理解和更加精细地进行产品个性化控制、微观业务场景事件和结果控制。

智能：模型随着时间（数据）的变化而变化，整个系统就具备了智能（自学习）的能力。

高效：企业需要建立实时或者准实时的数据采集传输、模型预测和响应决策能力，这样智能就从批量性、阶段性的行为变成一个可以实时触达的行为。

不确定性：数字化变更颠覆和改变了领导者曾经仰仗的思维方式、结构和实践经验，其结果就是形成了复合不确定性这种颠覆性力量。主要的不确定性蕴含于三个领域：技术、文化、制度。

边界模糊：数字世界与现实世界的不断融合成CPS不仅让人们所知行业的核心产品、经济学定理和可能性都产生了变化，还模糊了不同行业间的界限。这种效应正在向生态系统、企业、客户、产品快速蔓延。

AI-CPS
OS形成的数字化+智能化力量通过三个方式激发经济增长：

创造虚拟劳动力，承担需要适应性和敏捷性的复杂任务，即“智能自动化”，以区别于传统的自动化解决方案；

对现有劳动力和实物资产进行有利的补充和提升，提高资本效率；

人工智能的普及，将推动多行业的相关创新，开辟崭新的经济增长空间。

给决策制定者和商业领袖的建议：

超越自动化，开启新创新模式：利用具有自主学习和自我控制能力的动态机器智能，为企业创造新商机；

迎接新一代信息技术，迎接人工智能：无缝整合人类智慧与机器智能，重新
评估未来的知识和技能类型；

制定道德规范：切实为人工智能生态系统制定道德准则，并在智能机器的开
发过程中确定更加明晰的标准和最佳实践；

重视再分配效应：对人工智能可能带来的冲击做好准备，制定战略帮助面临
较高失业风险的人群；

开发数字化+智能化企业所需新能力：员工团队需要积极掌握判断、沟通及想象力和创造力等人类所特有的重要能力。对于中国企业来说，创造兼具包容性和多样性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《论语·子路》云计算、大数据、物联网、区块链和
人工智能，像君子一般融合，一起体现科技就是生产力。

如果说上一次哥伦布地理大发现，拓展的是人类的物理空间。那么这一次地理大发现，拓展的就是人们的数字空间。在数学空间，建立新的商业文明，从而发现新的创富模式，为人类社会带来新的财富空间。云计算，大数据、物联网和区块链，是进入这个数字空间的船，而人工智能就是那船上的帆，哥伦布之帆！

新一代技术+商业的人工智能赛博物理操作系统AI-CPS
OS作为新一轮产业变革的核心驱动力，将进一步释放历次科技革命和产业变革积蓄的巨大能量，并创造新的强大引擎。重构生产、分配、交换、消费等经济活动各环节，形成从宏观到微观各领域的智能化新需求，催生新技术、新产品、新产业、新业态、新模式。引发经济结构重大变革，深刻改变人类生产生活方式和思维模式，实现社会生产力的整体跃升。

产业智能官 AI-CPS

用“人工智能赛博物理操作系统”（新一代技术+商业操作系统“AI-CPS
OS”：云计算+大数据+物联网+区块链+人工智能），在场景中构建状态感知-实时分析-自主决策-精准执行-学习提升的认知计算和机器智能；实现产业转型升级、DT驱动业务、价值创新创造的产业互联生态链。

长按上方二维码关注微信公众号： AI-CPS，更多信息回复：

新技术：“云计算”、“大数据”、“物联网”、“区块链”、“人工智能”；新产业：“智能制造”、“智能农业”、“智能金融”、“智能零售”、“智能城市”[b]、“智能驾驶”[/b]；新模式：“财富空间”、“特色小镇”、“赛博物理”、“供应链金融”。

点击“阅读原文”，访问AI-CPS
OS官网

本文系“产业智能官”（公众号ID：AI-CPS）收集整理，转载请注明出处！

版权声明：由产业智能官（公众号ID：AI-CPS）推荐的文章，除非确实无法确认，我们都会注明作者和来源。部分文章推送时未能与原作者取得联系。若涉及版权问题，烦请原作者联系我们，与您共同协商解决。联系、投稿邮箱：erp_vip@hotmail.com

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航