IBM人机辩论第二场:人类辩手胜

AI能有多灵活?

从1997年、2007年IBM Deep Blue击败人类国际象棋手,近年来Alpha Go 连续战胜李世石、柯洁,再到近来Deepmind战胜人类电竞高手,AI的几何化学习速度似乎让大众也闻之生畏。然而,在人类擅长的思想表达和辩论领域,AI仍旧能所向披靡么?

2月11日,此前曾战胜人类辩手的IBM Project Debater重出江湖,对战2016年世界辩论决赛选手、毕业于牛津大学的Harish Natarajan,围绕“政府是否应该资助学前教育(Whether goverment should subsidize pre-schools?)”进行了一场人机辩论,采用传统美式辩论规则:双方在开场15分钟前得知辩题,辩论分为三回合,前两回合每人四分钟,第三回合两分钟结辩陈词;最终结果由现场800位观众投票决定。

这一次,AI战胜人类的神话并未延续,担任反方的Harish凭借更少跑票数获胜。

最终投票结果:在辩论之前,79% 的观众同意学前教育应该得到补贴,13% 的观众不同意。 最后,62% 的人同意,30% 的人不同意。 基于反方得分更多,跑票数更少,Harish获胜。

纵观整场辩论,从技巧层面,机器稍逊风骚:Project Debater主要围绕资助学前教育对社会的意义展开论证,具体观点包括可促进整体教育、提升社会公平、以及降低犯罪率,论证时多旁征博引,从离线数据库、语料库中调用案例和数据进行支持,然而在驳论(Rebuttal)环节和人类差距拉开,仍旧停留在对于既有立论观点的延续佐证,过多铺陈而未有有力反击;反观人类辩手Harish, 在驳论环节表现出色,提出“基于市场现实,补贴将消耗中产家庭的财政资源”,并提出“资助学前教育并不意味着让所有孩子都上学”的精彩观点。

人机辩论现场

尽管如此,Project Debter在没有提前预知辩题情况下,展示出即时且富有逻辑的语言组织能力,令人印象深刻。在圆桌环节,人类辩手Harish这样评价Project Debater:“她可以有效理解信息,并且通过从后台数据库中提取研究材料将这些信息整合在上下文里流畅地表达出来(contexualize the information and pull details from research),如果将这样的技能与人类技能相结合,将会有效提升决策力。”

Project Debater 创立于2012年,从修辞和辩论这一人类特有的思想表达行为入手,旨在训练机器与人类进行直接、有意义的沟通。IBM的科学家们为Project Debater创造了其自有的离线数据库,数据来源为海量书报、杂志期刊等,在辩论中不进行联网,也不可能抄袭Wikipedia等网站的观点。

在每一次辩论开始时,围绕某一辩题,Project Debater将从离线数据库中的100亿句子中挑选具备强相关性的语料整合生成有说服力的观点,并组织成一篇流畅的四分钟陈词;在驳论环节,Project Debater通过吸收人类辩手观点,创造自己的驳论。

与此前的棋类和电竞类的人机对抗不同,辩论作为一项胜负条件模糊,且融合技巧性、思想性、修辞性等综合要求的复杂比赛,对AI系统的要求也更为灵活。在现场,Project Debater首席研究员表示:Project Debater在系统设计中充分考虑了人机理解能力(语音识别、自然语言处理)、数据写作和信息生成能力(自然语言生成),以及反向吸收和模拟人类逻辑的能力。

对于此次人机辩论对抗,IBM研究主管 Dario Gil表示:IBM Project Debater存在的目的不是为了击败人类,而是探究如何通过信息交换和有效交流实现人机合作,提升决策效率和科学性。未来,36氪也将持续关注Project Debater在实际场景中的应用。