Quoc V.Le、何恺明等新论文;用进化算法设计炉石

机器之心整理

参与:杜伟、一鸣

本周较为重要的研究有 Quoc V. Le 和何恺明各自在 ImageNet 上的新研究。同时 Keras 之父 Fran ois Chollet 针对智能水平的评价方法提出了自己的定义和基准。此外还有一些有趣的研究,如在股票预测任务上对比神经网络性能,以及使用进化算法设计炉石传说游戏等。

目录:

Self-training with Noisy Student improves ImageNet classification

A Comparative Analysis of XGBoost

Momentum Contrast for Unsupervised Visual Representation Learning

Deep Learning for Stock Selection Based on High Frequency Price-Volume Data

Evolving the Hearthstone Meta

The Measure of Intelligence

Emerging Cross-lingual Structure in Pretrained Language Models

论文 1:Self-training with Noisy Student improves ImageNet classification

作者:Qizhe Xie、Eduard Hovy、Minh-Thang Luong、Quoc V. Le

论文链接:https://arxiv.org/pdf/1911.04252.pdf

摘要:在本文中,研究者首先在标注的 ImageNet 图像上训练了一个 EfficientNet 模型,然后用这个模型作为老师在 3 亿无标签图像上生成伪标签。然后研究者训练了一个更大的 EfficientNet 作为学生模型,使用的数据则是正确标注图像和伪标注图像的混合数据。这一过程不断迭代,每个新的学生模型作为下一轮的老师模型,在生成伪标签的过程中,教师模型不会被噪声干扰,所以生成的伪标注会尽可能逼真。但是在学生模型训练的过程中,研究者对数据加入了噪声,使用了诸如数据增强、dropout、随机深度等方法,使得学生模型在从伪标签训练的过程中更加艰难。这一自训练模型,能够在 ImageNet 上达到 87.4% 的 top-1 精确度,这一结果比当前的 SOTA 模型表现提高了一个点。除此之外,该模型在 ImageNet 鲁棒性测试集上有更好的效果,它相比之前的 SOTA 模型能应对更多特殊情况。

表 1:Noisy Student 方法和之前 SOTA 模型指标的对比结果。

表 2:Noisy Student 与之前 SOTA 模型在 ImageNet 上的 Top-1 与 Top-5 准确率,带有 Noisy Student 的 EfficientNet 能在准确率与模型大小上取得更好的权衡。

推荐:ImageNet 上的图像分类模型似乎已经成熟,要达到新的 SOTA 已经非常难。但是,Quoc Le 等在本文中提出的 Noisy Student 方法在这一数据集上再次提高了 SOTA 性能一个点,而且这一方法让模型在鲁棒性上也有很大的提升。

论文 2:A Comparative Analysis of XGBoost

作者:Candice Bentéjac、Anna Cs rg 、Gonzalo Martínez-Mu oz

论文链接:https://arxiv.org/pdf/1911.01914v1.pdf

摘要:XGBoost 是一项基于梯度提升可扩展集合技术,在解决机器学习难题方面是可靠和有效的。在本文中,研究者对这项新颖的技术如何在训练速度、泛化性能和参数设置方面发挥作用进行了实证分析。此外,通过精心调整模型和默认设置,研究者还对 XGBoost、随机森林和梯度提升展开了综合比较。结果表明,XGBoost 在所有情况下并不总是最佳选择。最后,他们还对 XGBoost 的参数调整过程进行了扩展分析。

图 1:随机森林、梯度提升和 XGBoost 的正常网格搜索中的默认值以及每个参数的可能值。

表 2:默认和参数调整设置下随机森林、梯度提升和 XGBoost 的平均准确度和标准偏差。

推荐:通过对随机森林、梯度提升和 XGBoost 的综合比较,来自法国波尔多大学、匈牙利帕兹曼尼·彼得天主教大学以及马德里自治大学的三位研究者得出结论:从调查问题的数量看,梯度提升是最好的分类器,但默认参数设置下 XGBoost 和随机森林在平均排名(average rank)方面的差异不具备统计显著性。

论文 3:Momentum Contrast for Unsupervised Visual Representation Learning

作者:Kaiming He、Haoqi Fan、Yuxin Wu、Saining Xie、Ross Girshick

论文链接:https://arxiv.org/pdf/1911.05722.pdf

摘要:在无监督的视觉表征学习上,近来的一些研究通过使用对比损失(constrative loss)的方法取得了不错的效果。这些方法都可以被认为和动态词典(dynamic dictionary)相关。在词典中,键(token)是通过从数据(如图像等)中进行采样得到的,然后使用一个编码器网络转换为表征。无监督学习则训练编码器,用于词典的查找工作,即一个编码的「查询(query)」应该和与之匹配的键相似,与其他键不相似。这样的一个学习过程可以被构建为减少对比损失。在本次研究中,何恺明等研究者提出了一种名为动量对比(Momentum Contrast,简称 MoCo)的方法。这种方法旨在通过对比损失为无监督学习建立大型、一致的词典(如下图 1 所示)。研究者将词典维护为一个数据样本队列:当前 mini-batch 编码表征将进入队列,而最老的将退出队列。该队列将词典大小与 mini-batch 大小解耦,从而允许词典变大。此外,由于词典键来自前面的几个 mini-batch,因此研究者提出使用一个缓慢前进的键编码器,作为基于动量的查询编码器的移动平均值,以保持一致性。

图 1.MoCo 通过使用对比损失将一个已编码的查询 q 与一个已编码的键词典进行匹配来训练一个视觉表征编码器。词典键 是由一组数据样本动态定义的。

表 1:在 ImageNet 数据集上,MoCo 与其他方法在线性分类评价标准下的对比结果。

推荐:Facebook AI 研究团队的何恺明等人提出了一种名为动量对比(MoCo)的无监督训练方法。在 7 个与检测和分割相关的下游任务中,MoCo 可以超越在 ImageNet 上的监督学习结果,在某些情况下其表现甚至大大超越后者。作者在摘要中写道:「这表明,在许多视觉任务中,无监督和监督表征学习之间的差距已经在很大程度上被消除了。」

论文 4:Deep Learning for Stock Selection Based on High Frequency Price-Volume Data

作者:Junming Yang、Yaoqi Li、Xuanyu Chen、Jiahang Cao、Kangkang Jiang

论文链接:https://arxiv.org/pdf/1911.02502v1.pdf

摘要:为股票选择训练一个实用和有效的模型已经成为人工智能领域广受关注的问题。由于金融市场本身的不稳定性和敏感性,重大事件、社会经济状况或者政治动乱等诸多因素都可能对股价造成影响。很多学者已经尝试运用不同的机器学习方法,以找到拟合具有非线性、不连续性和高频多项式组件的股价时序数据的模型。为了处理这些复杂的组件并做出精准预测,大量的学者选择使用机器学习来创建模型。在本文中,研究者运用深度学习神经网络来构建长短期记忆(LSTM)和卷积神经网络(CNN)模型,以预测当日股票的预期收益率并通过采用适当策略来最大化总收益。

推荐:研究者详细分析了 LSTM 和 CNN 模型的性能,并验证了它们在预测股价方面的有效性和合理性。他们得出了以下结论:虽然这两种模型克服了股价预测中的一些难题,但在避免不必要的交易费用等方面依然有提升空间。

论文 5:Evolving the Hearthstone Meta

作者:Fernando de Mesentier Silva、Rodrigo Canaan、Scott Lee 等

论文链接:https://arxiv.org/pdf/1907.01623v1.pdf

摘要:在《炉石传说》这样的高复杂性策略游戏中,保持角色的平衡是一项困难的任务。游戏中策略的多样化和定制化将衍生微妙复杂的游戏系统。在不破坏当前环境的情况下通过调整 2000 多张卡片来达到预期游戏效果非常困难。在本文中,来自纽约大学游戏创新实验室(Game Innovation Lab)、新泽西理工学院吴鹰计算机学院以及其他几位独立研究者探讨了《炉石传说》中现有卡牌的变换对游戏策略的影响。在这项研究中,研究者们分析了不同策略下不同牌组之间互相攻防的胜率,然后提出对发生变换之前和之后的表现进行比较,从而提升或削弱不同的卡牌。之后,借助于进化算法,研究者探索牌组之间胜率同为 50% 时卡牌属性出现哪些组合变换。因此,他们接着将使用的进化算法扩展到多目标解决方案,同时对现有卡牌做出最小程度的变换,从而尽可能不影响游戏整体。最后,他们提出并评估了一些指标,从而得出哪些卡牌实现了预期的平衡变换。

炉石传说的游戏界面。

12 个牌组在一万场对决中的比赛结果。

推荐:游戏的角色设计是一大学问,我们希望不同角色各有特色,但总体又是平衡的。但之前炉石等游戏,总会有玩家能钻游戏设计的空子,他们能找到强于其它组合的阵容,并发展成一套简单高效的策略。现在,进化算法也能用来评估角色属性的平衡了,用 AI 来设计游戏,说不定能大大提升可玩性。

论文 6:The Measure of Intelligence

作者:Fran ois Chollet

论文链接:https://arxiv.org/abs/1911.01547

摘要:为了推动智能和类人人工系统的研究,本文作者认为,我们需要遵循一种合适的反馈信号:相关研究需要能够定义并评价智能——以和人类对比智能水平的方式对比两种系统。在过去一百年里,已经有许多相关的尝试和研究,包括心理学和人工智能方面的。作者在本文中总结并批判性地评价了这些方法,并说清楚了历史上已经在引导研究的两种概念。作者表示,在实践中,当前的 AI 社区依然沉溺于对比基准智能水平——即通过对比 AI 和人类在特定任务上的表现来衡量智能水平。本文研究者表示,仅仅对给定任务进行单一评价是不能衡量智能水平的。因为技能实际上高度依赖先验知识和经验,而无限制的先验知识或数据仅能够「买到」不稳定的技能水平,同时掩盖了系统本身的泛化能力。

随后,作者在文中构建了一个新的关于智能的定义,基于算法上的信息理论。这一理论将智能定义为一种获得技能的效率,同时关注获得技能的多少、泛化的困难程度、先验知识和经验。通过使用这种定义,作者提出了一系列指导理论,用于说明通用人工智能评价基准应该是什么样的。最后,作者提出了一个符合这一定义的基准,名为 Abstraction and Reasoning Corpus (ARC)。ARC 基准基于一系列清晰的先验知识,这些先验知识设计得足够像人类先验。作者认为,ARC 可以被用来评价类人的通用动态智能系统,同时它可以对人和人工智能系统的智能程度进行公平的评价。

推荐:本文是 Keras 作者的一篇长文。文章批判了当前的评价标准并论证和提出了一个新的基准。这一针对类人人工智能的评价体系也许可以直到更为泛化的 AI 系统设计和测试工作。

论文 7:Emerging Cross-lingual Structure in Pretrained Language Models

作者:Shijie Wu、Alexis Conneau、Haoran Li、Luke Zettlemoyer、Veselin Stoyanov

论文链接:https://arxiv.org/pdf/1911.01464.pdf

摘要:在本文中,研究者探究了多语掩模语言建模,即在多语言串联文本中训练单个模型,并且详细研究了影响这些模型对跨语言迁移发挥有效作用的几个因素。研究表明,与先前做出的假设不同,即使语料库之间不存在相同的词汇或者文本领域截然不同,这种跨语言迁移依然是可能实现的。唯一的要求是顶层多语言编码器中有一些共享的参数。为了更好地理解这个结果,研究者还证明了不同语言中独立训练模型的表征可以实现高效地对齐,这强烈说明了正如非上下文词汇嵌入一样,学习到的嵌入空间中存在普遍的潜在对称性。对于多语掩码语言建模而言,这些对称性似乎可以在联合训练过程中自动发现和对齐。

推荐:这篇来自约翰·霍普金斯大学和 Facebook AI 的论文说明了不同语言在潜在语义表征结构上具有相似性的特点。同时,它也说明了多语言的预训练语言模型可以在迁移学习发挥作用的原理。这篇论文对于发掘通用语言表征的研究具有参考价值。