国内唯一ACL最佳论文得主冯洋:冲击最佳论文需要知道的事情

作者 | Mr Bear

编辑 | 青暮

在10月30日CCL2020的学生研讨会中,来自中科院计算所的冯洋研究员进行了《冲击最佳论文需要知道的事情》的报告。

在本次演讲中,冯洋老师分别从读者和审稿人的角度对最佳论文的共性特征进行了总结,介绍了顶会评选最佳论文的评价标准,以及将论文写得逻辑自洽的方法,为有志于冲击最佳论文的研究者给出了撰写最佳论文的指导建议。

冯洋是中科院计算所“新百星人才引进计划”入选者、2019年度“卓越之星”获得者,主要研究方向为自然语言处理、机器翻译和人机对话。

在中科院计算所获得博士学位后,她先后在谢菲尔德大学和南加州大学信息科学研究所(USC/ISI)开展研究工作。担任ACL、EMNLP、COLING等国内外会议领域共同主席。

她在去年获得ACL 2019唯一最佳长文奖,为ACL开办58年来国内唯一获奖,获得世界人工智能大会青年优秀论文奖、CCF自然语言处理专委会 “青年新锐奖”,并入选人工智能学会首批杰出会员(共70人),多次在NIST、CWMT等国内外权威机器翻译评测中获得第一名,作为项目负责人主持国家重点研发计划、国家自然科学基金面上项目等。

本次演讲包含 5 个部分:

(1)论文评审过程。对于投稿人来说,在撰写论文之前需要对审稿的具体操作流程有所了解,才能做到「知己知彼,百战不殆」,从而有的放矢,将精力投入到更重要的环节中;

(2)审稿人和各级会议主席评审论文的标准;

(3)好论文具备的特点;

(4)最佳论文的评选流程。重点讨论最佳论文评选相较于普通论文评审额外的步骤;

(5)最佳论文相较于普通论文所具备的额外特质。

1

从论文撰文到发表的过程

图 3:评审过程

如图 3 所示,一篇论文从刚开始撰写到最终在学术会议上进行报告,需要经历许多的环节。首先,我们需要撰写论文。接着,我们需要在合适的时机提交论文。有学者对提交论文的时机进行过统计,有趣的是,统计结果表明在周末提交的论文往往并不容易被录用。

Track Assignment

在作者将论文提交至投稿系统后,程序委员会主席(PC Chair)会根据以下标准将论文分配到不同的轨道(track)中:

首先,作者在投稿时会选择论文涉及的研究领域,并为这些研究领域分配优先级。系统会根据作者选择的研究领域自动为论文分配 track。此外,还会判断作者提交的论文是否被重复提交至其它会议。实际上,许多知名学术会议之间会共享一个论文提交名单,用于检测论文是否被重复提交至多个会议。甚至,如果作者将论文提交至会议 B 的日期是某月 10 号,而该论文被会议 A 拒稿或撤回的日期是当月 11 日,也是不符合提交规范的。系统还会检查作者填写的利益冲突(conflict of interests)情况,这是为了避免领域主席或相关利益者审阅与自己有关的文章。

Desk Check

在论文被分配之后,会进入到「Desk Check」环节,许多研究者的论文甚至在没有经过仔细的审阅之前,就在 Desk Check 环节中被拒稿了。实际上,Desk Check 环节可能根据以下几点判断是否拒稿:(1)格式是否正确。有的会议对格式要求十分严格,即使对论文页面的宽度进行微小调整也是不允许的。(2)选择的研究领域是否正确。

此外,在 Desk Check 阶段,系统会再次核查作者填写的利益冲突情况,从而将论文在避嫌的情况下分配给高级程序主席或高级领域主席。最后,系统还会核实审稿人的数量是否足够,如果出现审稿人不足的情况,将即时招募新的审稿人。

Bidding

在 Bidding 阶段中,审稿人可以勾选出自己感兴趣、与自己研究领域相关的论文。这一步非常重要,可以防止审稿人审阅自己不熟悉的,或不感兴趣的论文。有时审稿人会由于工作繁忙等原因错过 Bidding 阶段,但最终的审稿任务分配并不会过于偏颇。这是由于系统会要求审稿人事先提交其最近发表的若干篇论文,系统可以根据审稿人的论文发表情况算出每篇待审论文和审稿人的相关度,并以此为依据自动分配审稿任务。

Paper assignment

在 paper assignment 阶段,PC Chair 会将论文发放给领域主席,领域主席可以根据审稿人的研究领域,手动地对系统自动生成的论文分配方案进行调整,将论文分配给研究领域对口的审稿人审阅,从而使审稿过程更加公正。

Paper Review

在审稿任务分配完毕后,论文会进入到审稿阶段。值得注意的是,有的审稿人可能会未能按时提交审稿意见,此时领域主席会亲自审稿或紧急招募新的审稿人进行审稿。因此,某些论文可能有 4 个审稿意见。

Author Response

在 Author response 阶段,作者会对审稿人提出的意见进行回复。Author Response 是否有用取决于很多因素。首先,并不是所有的审稿人都有时间查看作者的回复。值得一提的是,作者在 Author Response 阶段并不能提交新的实验结果,我们只能针对审稿人可能对文章产生的误解进行进一步的解释。在这一过程中,领域主席将发挥至关重要的作用,他们将审稿意见差异较大的论文收集起来,向审稿人发邮件,组织他们重新对这些文章进行讨论。

Meta Review

在 Meta Review 阶段,资深审稿人或领域主席会综合考虑论文的质量、审稿人的评论和论文作者在 Author Response 阶段的回复,判断是否接收该论文,并给出比较简短的意见,供资深领域主席参考。值得注意的是,实质性评审的审稿人有一票否决权,即使所有普通审稿人都认为可以接收某篇论文,实质性评审的审稿人也可以认为论文达不到会议接收所要求的水准,可以在评审意见中给出强烈拒稿的意见。

Paper Ranking

领域主席会根据实质性评审的审稿人给出的意见,对轨道(track)中的所有的论文进行排序。

Accept/Reject Decision

在得到论文的排序之后,程序委员会主席会最终决定是否接收某篇论文。在这一阶段中,程序委员会主席往往会征求领域主席的意见。

Notification&Camera Ready

审稿结果通知下发之后,会进入 Camera Ready 阶段,一般是20天左右。此时,作者需要根据审稿人的意见对论文进行修改(例如,重新组织论文中混乱的部分)。这一修改过程对于提升论文质量十分有用,审稿人从读者的视角对论文内容的组织提出了意见,作者往往需要接受这类意见。然而,有时审稿人还会要求作者补充一些实验。此时,作者需要理性判断,尽量补充必要的实验。当然,文章中的语法错误是需要及时纠正的。一般来说,论文中提出的方法不能有太大的变动,作者只能修改论文中的瑕疵,而不能将原来的方法修改为新的方法。

值得注意的是,有的作者对 Camera Ready 环节并不是特别重视,其实是十分可惜的。对于每一名作者而言,从开始创作论文到最后在学术会议上作报告其实是一个很辛苦的过程,往往需要花费数月的时间。发表论文的目的就是将思路呈献给读者,通过文章与大家交流作者对某种方法的尝试,而论文质量对于最终这种交流的效果至关重要。正所谓「见论文即见其人」,发表论文的过程就是不断塑造作者个人学术形象的过程。

Presentation

最后,在大会上报告论文或展示海报的过程也是十分重要的。作者需要将自己的工作介绍得引人入胜,激发读者的阅读兴趣。值得注意的是,有一些作者往往会陷入一种误区,他们希望在报告中将论文的所有细节都介绍到位。然而,报告的时长可能往往只有 12-15 分钟,想要在如此短的时间内面面俱到地介绍论文是非常困难的,如此密集的信息也可能会使报告的焦点不明。因此,论文报告旨在向听众传递作者的核心思想,对此感兴趣的读者会通过阅读论文进一步了解细节。

2

论文写作

图 4:论文写作的理想情况

从审稿人的角度来看,对于一篇论文而言,理想的情况是论文行文能够遵循「发现问题」、「分析问题」、「解决问题」的过程。我们应该针对研究领域中主流方法存在的痛点,分析引起该痛点的原因,最终给出解决痛点的方法。

审稿人往往希望看到想法新颖的论文,这种创新可以分为 3 类:

新问题老办法:作者发现了以前没有人发现的问题,或者针对已经被发现、但是没有解决方法的问题,提出用现有的方法(可能来自其它领域)来解决此类问题。此类问题应该具有足够大的影响力。

老问题新办法:针对已经存在的问题,提出新的解决方法。此类新方法需要体现出其在模型性能、计算效率等方面的提升。

新问题新办法。

需要注意到的是,当作者针对新问题使用「老办法」时,审稿人可能会认为作者使用了现有的方法,因此创新性不足。

此外,论文需要「引经据典」,在「Related Work」中应该对相关的工作调研充分,尽量列举出重要的相关文献。对于论文中所有结论性的话语,作者都应该通过引用前人论文中已经经过验证的论据或者通过自己的实验对其进行验证。

论文需要提供充分的实验描述,这涉及到以下 3 个方面:

(1)齐全的对比基线。

(2)充分的「消融分析实验」(ablation study)。

(3)为文中结论性的话语提供实验论据支撑。

最后,作者还需要对论文的行文进行精雕细琢。文中不能出现过多的语法错误、逻辑混乱等情况,需要体现出对审稿人足够的尊重。

图 5:论文写作的雷区

然而,理想很丰满,现实很骨感。相较之下,质量较差的论文存在以下 4 种特点:

(1)创新不足:首先,作者可能迫于一定的投稿任务压力,基于还不成熟的研究思路撰文,或者将本来只足以撰写短文的思路用于撰写长文。此外,在针对新问题使用老办法时,作者找到的新问题并不足够重要,也不足够复杂,或者作者使用的解决方案仅仅是将前人提出的各个组件堆砌起来,最终形成了非常长但是创新并不足的处理流程。

(2)调研不够:在写论文的过程中体现出对相关工作的总结与回顾不充分,论文提出的方法可能与前人工作有所重复,对比实验也很有可能不够充分。

(3)实验单薄:缺少某些相关的对比基线的实验结果。更隐蔽的一种情况是,作者没有亲自实现对比基线,而是从他人的论文中直接将实验结果粘贴过来。审稿人往往会认为作者工作量不足。

(4)写作仓促:由于作者写作仓促,无法保证论文写作的质量。对于以英语为母语的审稿人而言,可以很轻易地发现论文中的语法错误、错误拼写、逻辑错误。

3

论文评审

图 6:论文评审的理想情况

在论文评审过程中,作者往往希望审稿人仔细阅读论文并进行反复的推敲。正常情况下,审稿人应该对每篇论文阅读三遍:第一遍了解论文的大体思想;第二遍对论文算法细节进行仔细阅读;第三遍需要审稿人组织全文行文思路,按照自己的理解撰写审稿意见,审稿意见需要总结论文实验分析的内容、作者根据实验得到的结论、论文提出的方法的优缺点等,并且提出审稿人不理解的问题、指出文中存在的错误。

理想情况下,作者希望即使论文内容本身有些模糊,审稿人也能够领会论文的含义,根据上下文的蛛丝马迹推测出论文每一段的意思。甚至有的作者还尝试在论文中埋入一些「梗」,希望审稿人能发现他们。

然而,很不幸,实际的审稿情况并非如此!

图 7:论文评审的实际情况

实际上,审稿人往往有三种类型:高校教师、企业或研究机构的研究人员、学生审稿人,他们的工作往往都非常繁忙。

首先,高校教师每年可能要审阅数十篇论文,他们基本上没有时间按照上述理想状况来审阅论文。也有一些高校教师会让自己的高年级学生帮忙审阅论文,他们会根据学生的审稿意见再查看文章的细节,判断学生对文章创新性、正确性等方面的把握是否正确。

第二,对于没有学生的企业或研究机构的科研人员来说,他们的工作十分繁忙,有时会根据论文的质量来判断每篇论文花费的时间。审稿对于他们来说是一种「义务劳动」,为的是推动学术社区的发展。

最后,学生审稿人通常会非常仔细地审稿。尤其是对于实验部分而言,由于学生自己做过很多实验,他们非常清楚这篇论文的实验配置是否正确,应该做什么实验。因此,老师在将审稿任务分配给学生时,往往会找研究方向对口的学生审稿。当然,学生最后撰写的评审意见可能也带有一定的主观性,这时就需要老师把关。

图 8:评审标准

在审稿时,系统往往会要求审稿人提交「评审表格」(review form),我们根据评审表格的内容提炼出了如图 8 所示的一系列论文评审标准:

(1)正确性。首先,作者需要确保论文研究的问题是确实存在的,论文介绍的现有方法的缺陷是值得研究的。此外,作者引出新方法的理论需要经得起推敲。如果文中提出的方法涉及较多的数学推导,那么数学证明需要十分严谨。此外,作者应该确保论文中的操作流程正确。例如,训练集中不能包含测试集的内容,处理训练集和测试集的数据的方法应该保持一致,对文中提出方法进行测试的设置应该与对比基线使用的设置保持一致,报告的实验结果应该是模型收敛后的结果。总而言之,作者需要确保论文中的叙述与现实情况相符。

(2)创新性。创新性关注于文章是否研究了新的问题、是否提出了新的方法,或者实验是否在新的数据集上进行。对于综述性的文章来说,审稿人还会判断作者是否从一个较高层次的角度,通过新的视角切入,梳理整个研究领域的发展脉络。

(3)重要性。审稿人会判断文中研究的问题是否具有重要意义,文中的研究过程涉及的工作量是否足够。此外,审稿人还会判断论文中介绍的工作将来是否会产生一定的影响力的、该方法是否能够复用的。如果文中提出的方法具有较强的泛化能力,就会体现出较高的重要性。

(4)简明性。从写作上说,论文的行文组织应该合理,文字叙述应该条理清晰,不能存在明显的歧义。对于复杂的方法,文章的描述应该深入浅出。

(5)实验是否充分。作者应该在文中提供自己实现的相关的对比基线,还应该进行充分的「消融分析实验」(ablation study)。文中提出的方法可能包含多个要素,作者需要通过实验说明没有冗余的要素,并且分析每个要素对最终结果的影响程度。此外,作者还应该分析各个要素之间的相互作用(例如,互斥现象)。作者应该通过充分的实验印证文中所有提出的论点,提供充分的实验依据。

(6)资源的影响力。资源包括代码、数据集,甚至是评估方法。面对各种各样新的应用场景,研究人员往往苦于没有针对性的数据集。如果作者能在论文中提供一个新的数据集,就会产生一定的资源影响力;此外,以同声传译为例,许多研究者会在论文中给出一种评估延迟的方法,尽管这种评估方法还不足以单独支撑起一篇论文,但是也可以在一定程度上提升论文的影响力。

(7)引用。对参考文献的引用以及对相关工作的描述也是十分重要的。文章提出的新方法需要与相关工作有足够大的区别。审稿人主要会帮作者检查列出的参考文献是否完备,是否能让读者对论文中研究有比较完整的认识。描述相关工作还有一个作用,即说明文章的创新之处。如果作者在文中用到了前人提出的方法,需要在相关方法后加上引用,这是对前人劳动成果的尊重,也可以用于明确区分出作者在本文中新加入的工作。

(8)可复现性。近年来,审稿人对文章的可复现性越来越重视。审稿人会单独核查论文中提出的数据集是否是公开的,他人是否能够得到该数据集并复现实验。如果作者在文中使用了一些现有的模型,作者需要给出详细的参数配置,方便他人复现实验。对于作者新提出的方法,审稿人会查看该方法的实现代码是否已经公开。当然,审稿人往往也并没有时间亲自复现实验,因此可复现性并不太容易判断。

(9)学术伦理。作者进行的研究实应该是正能量的,让世界变得更加美好,而不应该是引起各种犯罪,不能对社会产生危害。

图 9:约定俗成的评审标准

除了被列举在「评审表格」中的评审标准,还有一些评审标准是审稿人约定俗成的:

(1)论文提出的方法是当前最佳的结果。审稿人往往期望提出的方法的性能优于现有方法。但这种情况也并非是绝对的,如果文中提出的方法与现有方法性能相当,但是模型更为简单或运行速度更快,也是具有科学价值的。新方法达到目前最佳的效果并不是论文被录用的充分条件(例如,通过调整 Drop out 率实现最佳效果),也不是必要条件,但是如果模型确实达到了最佳效果,在一定程度上也可以加大论文被录用的概率。

(2)研究问题是否足够困难。论文中描述的研究工作应该具有一定的意义。此外,审稿人也会关注论文中使用的数据集是否过于简单。论文中提出的方法在一个很简单的数据集上可以得到提升,但并不代表这种方法在现实中复杂的数据集上也能得到性能提升,实验结果无法反映出新方法真实的性能。

(3)文中提出的方法是否出人意料。对于作者提出的研究问题而言,如果研究者们公认该问题是值得研究的,但是作者提出的方法是大多数人都能想到的常规做法,论文就不会为审稿人带来太大惊喜,论文很难获得高分。相反,如果针对文中提出的研究问题,作者的研究视角会让审稿人或读者眼前一亮,发现新方法的玄妙之处,就会大大提升文章被录用的概率。此外,如果文中得到的结论与人们的直觉不同,能够颠覆人们以往的一些认识,也会引起审稿人和读者的阅读兴趣。

(4)工作是否真实。作者验证新方法的场景应该是真实的。例如,现在许多研究者进行强化学习研究的环境是虚拟的,这种虚拟环境有时与现实场景出入较大。如果审稿人认为文中的结论不能代表在现实场景下的真实状况,也有可能拒绝接收论文。

图 10:Eric Jang 的评审标准

然而,除了上述的常见评审标准之外,每个审稿人也可能有自己各不相同的标准。如图 10 所示,谷歌科学家 Eric Jang 个人的审稿标准是这样的:首先,他认为对于一篇论文来说,最重要的是要正确性和创新性。第二,如果论文提出的方法并没有达到目前最佳的性能(SOTA),作者也应该分析该方法没有达到 SOTA 的原因。如果论文提出的方法是合理的、仍然具有进一步提升的潜力,也是具有发表价值的。如今,很多我们经常使用的方法在发表之时其实也没有达到当时 SOTA 的性能。第三,如果论文提出了新的算法,我们期望这种新算法优于现有方法,否则需要分析其弱于现有方法的原因。最后,如果文中提出了某些论点,作者需要在实验部分对此进行验证。

图 11:Julian Togelius 的审稿标准

NeurIPS 领域主席 Julia Douglas 也对外发布了自己的审稿标准。在他看来,论文可能由于以下原因被拒稿:(1)作者使用了错误的对比测试方法,包括错误的对比基线、数据集、评估标准等。(2)不充分的分析实验。(3)遗漏引用相关的工作。此外,他认为所有的工作都是有瑕疵的。正如前文所述,如果论文提出的新方法足够吸引人,研究思路足够「出人意料」,那么就「瑕不掩瑜」。

最后,Julian 认为现在大多数的文章太过保守,存在「Bulletproof」的现象,而这些文章四平八稳,稍显无聊。现在许多审稿人会带着一种先入为主的心态,去寻找论文中存在的瑕疵。除非论文足够引人入胜,给审稿人带来了较大的心理冲击,否则审稿人会因为这些瑕疵对论文拒稿。我们希望一篇好的论文既能够做到「Bulletproof」也能够引人入胜。

4

写论文的心态

在动手撰写一篇论文之前,我们需要明白写出一篇好论文应该具备怎样的心态。

图 12:写出一篇好论文应有的心态

首先,时间安排是十分重要的。正所谓慢工出细活,匆忙赶制的论文往往不如反复仔细打磨出的论文质量高。因此,在时间安排上,作者应该采倒推法。根据论文的截稿日期决定何时动笔、何时应该准备好完备的实验、何时应该确保方法的有效性。总之,作者应该把握好各个时间节点,保证在截稿日期到来时,论文是经过精心准备的。

作者还应该明确论文的定位。古人云:求其上者得其中。在撰写文章之前,最好的心态是立志写一篇具有影响力的好文章。值得一提的是,对于一些新的研究人员来说,他们需要通过投稿熟悉写论文的流程,如果过于追求完美,可能迟迟不敢动手写作,这样也不见得是一种合适的心态。

审稿是一件主观的事。审稿结果与审稿人的「审美」、个人喜好紧密相关。此外,文章类型的曝光度也对审稿人的判断有所影响。如果大量研究者都已经发文讨论某一类工作,同类工作就很难引起审稿人的阅读兴趣。无论如何,作者应该通过看论文建立自己的科研品味,这种科研品味会决定作者自己做出来的工作的质量。

在撰写论文时,作者还应该换位思考,站在读者的角度上思考文章应该如何组织。有很多作者自己熟知的知识,对于读者来说可能是陌生的,作者在行文时就应该充分参考读者的逻辑思维。

5

好论文的特质

图 13:好论文的特质

在立意方面,论文的选题需要具有较为重要的意义,不能够违背学术伦理,工作需要有足够的难度。否则如果任务过于简单,可能其他人实际上在工作中都已经解决了该问题,只不过没有撰写论文。

在论文提出的方法方面,方法要具有新意,要保证正确性,并且新的方法和以往的方法应该具有一定的区分度。

在实验方面,作者应该进行充分的对比实验,并且对实验结果进行透彻的分析,实验结果还要对文中的论点进行完备地论证,最终还需要确保实验的可复现性。

在写作方面,作者需要保证行文简明,易于理解,文章内容需要经过反复打磨。如果作者并非以英语为母语,则最好需要进行 Proof-Read。

6

最佳论文的评审过程

相对于其他论文,最佳论文还有一些额外的评审过程。首先,每位审稿人在审稿时都会面临一个选项,即是否推荐该论文称为最佳论文。领域主席会从其管理的审稿人推荐的论文中选出一部分推荐给程序委员会主席。程序委员会主席会组织一些资深的研究人员组成最佳论文评审委员会,筛选出若干候选的最佳论文(即最佳论文提名奖)。之后,候选论文的作者需要在大会上宣讲论文,而最佳论文委员会的评委将会根据作者在现场宣讲的表现投票,最终产生最佳论文。

7

最佳论文的特点

图 14:最佳论文的特点

首先,在写作方面,读者可以很直观地感受到论文的内容应该是经过反复打磨的。此外,论文的内容应该层次清晰。如果摘要、引言、方法等部分都涉及对论文提出的新方法的描述,作者需要从不同的层次上进行论述,不应该有简单重复的话。众所周知,一篇好的文章应该经过多轮修改,作者应该提前写好论文,经过多轮的自己、同行、老师的修改,才能产出一篇高质量论文。

在实验方面,最佳论文需要保证实验部分具有很明显的性能提升,应该提供广泛的对比实验,并且对实验结果进行完备的分析。

从方法上来说,正所谓大道至简,目前审稿人普遍偏好比较简洁的方法,并且文中提出的新方法应该是正确的,方法的通用型越强越好。

在大会宣讲论文时,作者需要确保演讲内容易懂、重点突出,幻灯片的制作应该精美。此外,作者还需要通过反复的演练,严格控制演讲时长。

8

结语

想要产出一篇好的论文,作者要早做准备,首先要让自己对论文足够满意。此外,论文需要达到逻辑自洽,行文通顺,易于理解。当然,文章的实验必须充分,作者要在平时多做实验,避免最终写论文时时间不足而导致实验不充分。

“CCF-NLP走进高校”是由中国计算机学会自然语言处理专业委员会(CCF-NLP)发起,联合AI研习社及各个知名高校开展的一系列高校NLP研究分享活动。

“CCF-NLP走进高校”第四期将走进“新疆大学”,一起聆听新疆大学NLP的前沿研究分享。本次活动邀请的嘉宾有哈尔滨工业大学(深圳)教授徐睿峰、清华大学计算机系长聘副教授黄民烈、天津大学教授熊德意、复旦大学教授黄萱菁、新疆大学教授汪烈军、西湖大学特聘研究员张岳。敬请期待!