颜水成、黄亮等新论文;目标检测最新SOTA;NLP全面综述

机器之心整理

参与:一鸣、杜伟

本周论文有:颜水成团队的「PSGAN 一键上妆」,黄亮团队在同传任务的集束搜索上进行了一些改进,同时还有 NLP 相关综述、目标检测最新 SOTA 成果、数字在词嵌入中的处理研究等。

目录

A Survey of the Usages of Deep Learning in Natural Language Processing

CBNet: A Novel Composite Backbone Network Architecture for Object Detection

A Comparative Study on Transformer vs RNN in Speech Applications

Do NLP Models Know Numbers? Probing Numeracy in Embeddings

HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

PSGAN: Pose-Robust Spatial-Aware GAN for Customizable Makeup Transfer

Speculative Beam Search for Simultaneous Translation

论文 1:A Survey of the Usages of Deep Learning in Natural Language Processing

作者

Daniel W. Otter、Julian R. Medina、Jugal K. Kalita

论文链接

https://arxiv.org/pdf/1807.10854v2

摘要:过去数年,深度学习模型的爆炸式使用推动了自然语言处理领域的发展。在本文中,研究者简要介绍了自然语言处理领域的基本情况,并概述了深度学习架构和方法。然后,他们对近来的研究进行了筛选,对大量相关的文献展开总结。除了诸多计算机语言学的应用之外,研究者还分析研究了语言处理方面的几个核心问题。最后他们讨论了当前 SOTA 技术和方法并对该领域未来的研究提出了建议。

论文中总结的 Transformer 架构。a)有四个编码器和四个解码器的 Transformer 块;b)编码器的架构,包括一个自注意力层(黄色)和一个前馈网络(绿色);c)解码器架构,包括自注意力层(黄色)、注意力编码-解码层(紫色)和前馈网络(绿色)。

推荐:自然语言处理进展到哪一步了?本文全面综述了当前自然语言处理领域的研究进展,并探讨了不同 NLP 任务下的研究情况、SOTA 技术,并讨论了未来的研究方向。

论文 2:CBNet: A Novel Composite Backbone Network Architecture for Object Detection

作者:Yudong Liu、Yongtao Wang、Siwei Wang、TingTing Liang、Qijie Zhao、Zhi Tang、Haibin Ling

论文链接:https://arxiv.org/pdf/1909.03625v1.pdf

摘要:在现有的 CNN 检测器中,主干网络是特征提取的重要组件,检测器的性能很大程度上依赖于主干网络。近日,来自北京大学王选计算机研究所和纽约州立大学石溪分校的研究者发表了一篇论文:基于现有主干网络(如 ResNet 和 ResNeXt)构建更加强大的新型主干网络,从而实现更好的检测性能。具体而言,研究者提出一种集成多个同样主干网络的新策略,即通过邻近主干网络之间的组合连接(composite connection)构建一个更强大的主干网络——Composite Backbone Network (CBNet)。CBNet 迭代地将前一个主干网络的输出特征(即高级特征)输入到下一个主干网络中,逐步进行一直到最后一个主干网络(Lead Backbone)的特征图,然后使用该特征图进行目标检测。研究表明,CBNet 可以轻松整合到当前最优的检测器,并大幅提升性能。例如,它将 FPN、Mask R-CNN 和 Cascade R-CNN 在 COCO 数据集上的 mAP 提升了 1.5%-3.0%。同时,实验结果证明,CBNet 还可以提升实例分割结果:简单地将 CBNet 集成到基线检测器 Cascade Mask R-CNN,即可实现单个模型在 COCO 数据集上的新 SOTA 结果(mAP 达到 53.3),这表明 CBNet 架构非常有效。

CBNet 架构图示。

推荐:目标检测已经是一个非常成熟的领域了,而能够在这一任务上刷新 SOTA 成果非常不易。这篇来自北大和纽约大学石溪分校的论文说明,整合多个主干网络便能刷新最佳效果。

论文 3:AComparative Study on Transformer vs RNN in Speech Applications

作者:Shigeki Karita、Nanxin Chen、Tomoki Hayashi、Takaaki Hori、Hirofumi Inaguma 等

论文链接:https://arxiv.org/pdf/1909.06317v1.pdf

摘要:Seq2seq 模型已广泛应用于自动语音识别(ASR)、语音转换(ST)以及文字转语音(TTS)等端到端语音处理中。本文着重讲述序列到序列模型 Transformer,它在神经机器翻译(NMT)和其他自然语音处理应用中实现了当前 SOTA 性能。研究者深入研究并在 15 个 ASR、1 个多语言 ASR、1 个 ST 和 2 个 TTS 基准上分析比较了 Transformer 和循环神经网络(RNN)。实验揭示了每项任务上利用 Transformer 获得的不同训练技巧和显著的性能优势,其中包括第 13 个 ASR 基准上 Transformer 所表现出来的巨大优越性。通过使用开放资源和公开可用的数据集,研究者还准备推出 Kaldi 风格的可复现方法,以应用于所有的 ASR、ST 和 TTS 任务,使得社区可以延续他们的研究成果。

推荐:语音识别领域一直在应用最新的 Seq2seq 模型,但是哪一种架构是最好的呢?本文对比了 Transformer 和 RNN 两大在语音识别领域的应用广泛的架构,并得出了最终的结论。本文适合入门语音识别领域的读者了解序列模型的应用。

论文 4:Do NLP Models Know Numbers? Probing Numeracy in Embeddings

作者:Eric Wallace、Yizhong Wang、Sujian Li、Sameer Singh、Matt Gardner

论文链接:https://arxiv.org/pdf/1909.07940.pdf

摘要:理解和处理数字(识数)的能力对于很多复杂的推理任务来说至关重要。目前,大多数自然语言处理模型处理文本中数字的方式与其他 token 一样,将这些数字作为分布式向量嵌入。这种处理方法足以捕捉数字吗?在本文中,研究者首先研究了 DROP 数据集上 SOTA 问答模型的数字推理能力,发现该模型擅长处理需要数字推理的问题,也就是说它已经能够捕捉数字。为了解这种能力是如何获取的,研究者在综合列表最大值(synthetic list maximum)、数字解码和 jiafa 任务上对 token 嵌入方法(如 BERT、GloVe 等)进行测试。例如,GloVe 和 word2vec 可以准确编码多达 1000 个数字。字符级嵌入甚至更加准确,其中在所有预训练方法中,ELMo 的数字捕捉能力最强大,而使用字词单元的 BERT 模型准确性不如 ELMo。

研究者训练了一个 probing model,基于词嵌入对 [-500, 500] 区间内随机 80% 的整数进行数字解码,如「71」 71.0。

推荐:一直不知道词嵌入是怎么处理数字的?这篇论文使用因果推理任务还原了数字字符在词嵌入模型中的被处理的方法,说明词嵌入对于数字的处理同样可行,不论是整数还是浮点数。

论文 5:HYPE: A Benchmark for Human eYe Perceptual Evaluation of Generative Models

作者:Sharon Zhou、Mitchell L. Gordon、Ranjay Krishna、Austin Narcomey、Li Fei-Fei、Michael S. Bernstein

论文链接:https://arxiv.org/pdf/1904.01121.pdf

摘要:生成模型通常利用人工测评来衡量其输出结果的感知质量。自动度量是伴有噪声的间接代理,因为这些度量依托启发式或预训练嵌入。但直到现在,直接的人工测评策略都是针对特定领域,既没有实现标准化,也没有经过验证。来自斯坦福大学的研究者们为生成实时性(generative realism)构建了一个通用的人工测评基准,将其命名为人眼感知评价(human eye perception evaluation,HYPE),具有以下特征:(1)基于感知的心理物理学研究,(2)对同一模型随机采样输出的不同集合均表现出可靠性,(3)能够分离模型性能,(4)节省成本和时间。此外,他们提出了两种变体:一种是在自适应时间约束下测量视觉感知,以确定模型输入显示为真实时的阈值;另一种是成本较低的变体,其能够在无时间约束的情况下测量真假图像上的人为误差率。通过使用 CelebA、FFHQ、CIFAR-10 和 ImageNet 四个数据集,研究者们围绕有条件和无条件图像生成领域的 6 种当前 SOTA 生成对抗网络和 2 种采样方法对 HYPE 进行测试,发现 HYPE 可以追踪模型之间的相对改进,并通过自助采样法(bootstrp sampling)确定这些测量结果是一致和可复现的。

推荐:来自斯坦福大学研究者的这项成果为人眼评价生成模型效果提出了量化标准,适合相关研究者参考这一评价体系。

论文 6:PSGAN: Pose-Robust Spatial-Aware GAN for Customizable Makeup Transfer

作者:Wentao Jiang、Si Liu、Chen Gao、Jie Cao、Ran He、Jiashi Feng、Shuicheng Yan

论文链接:https://arxiv.org/pdf/1909.06956.pdf

摘要:在迁移学习领域,有一个任务名为妆容迁移(makeup transfer),即将任意参照图像上的妆容迁移到不带妆容的源图像上。很多人像美化应用都需要这种技术。近来的一些妆容迁移方法大都基于生成对抗网络(GAN)。它们通常采用 CycleGAN 的框架,并在两个数据集上进行训练,即无妆容图像和有妆容图像。但是,现有的方法存在一个局限性:只在正面人脸图像上表现良好,没有为处理源图像和参照图像之间的姿态和表情差异专门设计模块。另外,它们也不能在测试阶段直接用于部分妆容迁移,因为它们无法以可感知空间的方式提取妆容特征。为了克服这些问题以更好地服务真实世界场景,颜水成团队提出了一种全新的姿态稳健型可感知空间式生成对抗网络(PSGAN)。这种 PSGAN 主要分为三部分:妆容提炼网络(MDNet)、注意式妆容变形(AMM)模块和卸妆-再化妆网络(DRNet)。研究者认为,这三种新提出的模块能让 PSGAN 具备上述的完美妆容迁移模型所应具备的能力。

PSGAN 的结果。该模型可让用户控制所要迁移的浓浅程度和图像区域。第一行左侧是仅迁移参照图像的部分妆容风格的结果,第二行左侧则是不同浓浅程度的结果。此外,PSGAN 也能应对图像之间不同的姿态和表情,如图右侧所示。

如图展示了 PSGAN 的框架,其可分为三部分:妆容提炼网络(MDNet)、注意式妆容变形(AMM)模块、卸妆-再化妆网络(DRNet)。

推荐:颜水成团队的这篇论文是 GAN 的一种最新的应用,为我们提供了一种迁移化妆的方法。也许以后再也不需要试试才知道化妆效果了,AI 一键生成,效果拔群。

论文 7:Speculative Beam Search for Simultaneous Translation

作者:Renjie Zheng、Mingbo Ma、Baigong Zheng、Liang Huang

论文地址:https://arxiv.org/pdf/1909.05421v1.pdf

摘要:集束搜索是全句翻译任务中广泛使用的技术,但是同声传译领域依然有很多问题。这是因为输出的词总是需要等待语句结束才能确定。特别是最近提出的「wait-k」方法是一个简单而有效的解决方法,在起始等待后,在得到一个输入词的情况下确定一个输出词,但是这样会使得集束搜索变得不可行。为了解决这一问题,研究者提出了一种名为「猜测式集束搜索」的算法,可以隐式地从目标语言模型中提前猜测后几步的结果,用于获得更准确的结果。

推荐:本文作者为百度的黄亮等,在同声传译方面取得了新的进展。