人机第二次世纪辩论,AI输了

「创业最前线」旗下「科技最前线」原创出品

作者 | 北行三

战火升级

才半年不见,Project Debater就学坏了。

2019年2月11日,AI和人类冠军辩手在旧金山进行了史上第二次人机辩论赛,第一次的主角也是它,IBM研发的人工智能:Project Debater。

(Project Debater)

很难想象,眼前这块像液晶广告牌一样的东西就是IBM目前在AI领域最新的研发成果,而它最擅长的事,就是跟人类“抬杠”。

去年的6月的人机辩论首战,它的两个对手都是来自以色列的顶级辩论专家,最终战绩1胜1负。

今年在IBM的Think 2019大会上,这位AI“杠精”自然不会缺席,经过了半年的升级和准备,今年它要挑战的人类辩手是哈利什·纳塔拉简(Harish Natarajan)。

相比去年的阵容,今年代表人类出战的小哥来头似乎更大:

2012年欧洲辩论赛冠军,牛津政治、哲学、经济本科,剑桥哲学和国际关系硕士,英国前首相卡梅伦的学弟,现任AKE咨询公司的经济风险主管,得过的世界级辩论奖数不清了,还拥有多项辩论世界纪录。

总之就是学霸+职业辩手双重身份,且每个头衔含金量都非常高,足够资格代表人类。

直击辩论现场

辩论规则很简单,开辩前15分钟现场公布辩题,之前双方都没有预先准备,两位辩手也没有进行过任何交流。

15分钟准备,开始后各有4分钟时间立论,4分钟时间反驳对方观点,最后各有2分钟结辩,基本遵循了传统辩论比赛的规则。

而决定胜负的,是由湾区学校顶尖辩手和100多名记者组成的现场观众评审,在开场前评审根据辩题,投票选择支持正方还是反方,辩论结束后再次投票,支持人数增加的一方获胜。

随着主持人最后一句开场语,May the best debater win,双方辩手出场,辩题公布:

We should subsidize preschool.

我们应该资助幼儿园。

最终持方确定:AI辩手正方,人类代表哈利什持反方。

随后就是场下评委投票的环节,看过辩论赛的朋友都知道,这个环节对比赛最终胜负非常重要,因为胜负的关键是“跑票数”,也就是你能拉到多少票,而投票总人数是固定的。

所以初始票数高的一方,其实更难赢,因为你需要从更少的人里拉到票,还要保证自己的初始票都能留住。

我们再来看这道辩题,从通常角度讲,加大教育经费总归是件好事,而评委最终投票结果也符合这一情况:

79%的人同意资助,13%的人不同意资助。

也就意味着这场比赛对AI来说,好辩,但难赢。这种情况丢到任何一场辩论赛里,都算是大逆风开局!

15分钟准备结束,辩论开始。

今年的AI学坏了,明显使用了非常规套路。

一上场,立论方向不从经济角度或可行性出发,直接抛出资助幼儿园的诸多好处:

可以帮儿童摆脱贫穷,还能帮助发展后续学业,最终还能节约医疗开支、降低儿童犯罪率。

我的转述比较概括,而AI的原话是:补贴学前教育,可以帮助打破贫困循环。

不是跪舔,但这个观点是真的复杂又高级,要让这个“贫困循环”能够前后闭合,需要大量的数据论证和极其严密的逻辑。

这种观点人类一般不敢使用。

AI则发挥了整合资料的特长,除了列举大量相关数据,还先后引用了杜克大学的研究、新泽西州的儿童犯罪案例,甚至还用上了名人名言。

其实选择一个刁钻的角度立论,还算正常的辩论技巧,但最让人震惊的是在驳论环节最后,AI直接将主题升华,说资助幼儿园还事关人类基本尊严...

等会儿,怎么有点耳熟...???

这不就是个AI版本的陈铭么,先上价值,再谈尊严,接下来如果还有时间,就该宇宙中心呼唤爱了。而陈铭正是用这一技巧,在第5季奇葩说辩论比赛里,几乎碾压了所有对手。

也就是说,在15分钟的准备时间里,除掉梳理观点、搜集资料、组织语言等常规行动...AI几乎只用了一瞬的时间,就参透了当下对于人类最具说服力的话术:谈情怀!

我们知道,人类面对机器最大的弱点是感性,它不可预测,也不受理智约束,但凡在谈判或辩论中能击中对方的情感共鸣点,这场博弈几乎就赢了一半。

但剧情却远比这个复杂,可以说AI成也情怀,败也情怀。

AI立论结束,人类辩手哈利什表达观点。后手发言的辩手,因为可以根据对方观点直接反驳,也可以最后做总结陈词给评委留下更深的印象,所以在出手顺序上人类也占了些便宜。

我们找到一段翻译过的现场视频:

在视频中可以看到,哈利什抓住了优势,直接反驳AI“拯救贫困”的观点:

第一,愿望是美好的,但现实很残酷,政府资助了幼儿园实际只是资助了本来就要送孩子上幼儿园的那些人,并不能资助到最贫穷的人。

第二,资助幼儿园带来的各种好处只是AI的推论,而且即使能实现,也不是穷人能享受到的,最终受益人还是本来就有幼儿园上的那些人。

所以“拯救贫困”并不成立,而政府资源也有限,不如把钱用在更实际的地方。

经过20分钟2来2回,双方结辩,最终投票结果正方AI票数从79%降低到62%,AI丢掉了17%的票数,人类获胜。

AI为什么会输?

纵观整场比赛,其实人类代表哈利什赢得并不艰难,抓住漏洞,避开查资料不如机器人的弱项,持续火力攻击,最终获得支持票数。

但AI作为“理智派”代表却使用了一个更感性角度,试图通过人性弱点来说服人类。这个角度很刁钻没错,但AI忽略了很重要的一点:

人类很难与没有情感的机器产生情感共鸣。

情怀由人说出来才叫情怀,由机器说出来,就有点讽刺了。

但本场人机辩论最有意思的地方,也同样是这里,AI的这种感性思维方式,明显是人类才会使用的手段,为什么它可以在提前不知道辩题,不知道对手,也没有人类干预的情况下,用了15分钟琢磨出这种骚套路?

不妨先来看看Project Debater是怎么辩论的。

在刚落幕不就的拉斯维加斯全球消费电子展 CES 2019 上,IBM团队发布的一个关于 Project Debater 的 Demo 就能给我们答案,简单讲它从拿到观点到输出演讲稿,分为5步:

首先,判断观点。当使用者输入一个观点,Projict Debater 根据语义理解,自动判断观点属于正方还是反方。

第二,筛选资料。在IBM为它构建的数据库中,找到所有可以支持这一观点的论据,然后判断论据的说服力。

这个判断标准,就来源于IBM从2014年就开始构建的数据库,这里面除了各种知识文献外,还有一个非常关键的内容,就是观点在社会中的反响。

这其中可能包括专家发言,民意调查,辩论赛数据等等可以反映观点说服力的数据。

这也是为什么 Project Debater 可以在15分钟内想出谈情怀这种套路,因为他只需要几秒就能从数据集中发现用这种方法说服人类,总是奏效的。

找到了最有力的论点,再找到可以支持论点最合适的论据,接下来就是去重、排列组合,最终形成辩论整体逻辑,也就是决定先说哪个,后说哪个,怎么去说,效果更好。

然后就到了最后一步,把这些变成一篇演讲稿,并且要用人说话的方式,比如增加开场白,文中增加转折、过渡语句,在需要的时候再来点俏皮话或者金句,抓住观众注意力。

这里涉及到了自然语言识别,语义理解等AI领域技术,这在几年前几乎没有哪个科技公司能做到,这一步对AI来说也是最艰难的一步,但 Project Debater 很显然已经可以做到。

看到这里其实我们就能发现,做到了这些的AI,几乎不可能辩输。

因为辩论最困难的部分,找论点,找论据,组织更有逻辑甚至更优雅的语言,对 Project Debater 来说都是小菜一碟。但这次比赛之所以会输,抛开持方和先后发言这些因素,我认为更重要的原因是表达者不是活人,而是一块儿液晶显示器。

是不是听起来很荒诞,就像前面说过的,人类的选择总是充满感性色彩。

没有感情,是件坏事吗

《奇葩说》第五季中马东说过一个数据:这档辩论综艺节目办了4年,做过几十场辩论比赛,来过数不清的内地、香港、台湾、新加坡专业辩手,但在收视大数据统计中,收视峰值却来自于一名非专业辩手,欧阳超。

引经据典的专业辩手那么多,而连上场次数都屈指可数的非专业辩手之所以能获得最高收视,正是因为他有一套独特的辩论风格。

这位人民警察几乎每次出场,都能极好地把控现场情绪,用最匪夷所思的语言和动作,让全场沸腾。

换个角度看,有情绪的表达观点是人类的优势,对于辩论这项活动本身来说,这也是一名辩手必不可少的要素。

但对于真理的探究和思考,甚至是决策的讨论来说,理性客观才是最重要的衡量标准。

如果在这场人机辩论赛中,AI的观点换成真人有感情地表达,或者哈利什的观点换成机器发音,再或者让评委通过相同的发音判断观点,是否比赛会有不一样的结果?

(去年的辩论赛现场,Project Debater赢得了一场胜利)

因为 声音“太理性”输掉了比赛,但也是这份理性给了辩论AI存在的意义,这才是IBM研发这个AI的初衷。

会辩论的AI有什么用

作为AI领域的开山鼻祖,IBM从1962年展示了全球第首个语音识别设备Shoebox,到1997年的深蓝系统在国际象棋中战胜人类,再到2001年的沃森系统在美国老牌智力问答节目中赢得100万美元奖金...

直到2014年开始研发辩论AI系统,IBM费这么大功夫搞出Project Debater,可不是为了跟人抬抬杠打打比赛这么简单。

这套辩论AI系统通过强大的语义理解和语言生成能力,最直接的应用领域就是净化网络环境、辅助语言学习,以及彻底改变人机交互方式。

但更重要的意义在于,它能通过不断提升数据处理能力,帮助医生、投资人、律师、甚至执法机关和政府,在做出重要决策时提供最客观、理性、无人性偏颇、无情绪左右的建议!

这其中的价值,可远超一场比赛的胜负。

所以,如果这才是辩论AI真正的“情怀”,那即使未来技术成熟到可以模拟更具情感的声音,相信IBM团队也不会实装,否则就真成了为辩论而生,到辩论为止了。

除此之外,Project Debater 还有一个我认为的“隐藏功能”:模拟人类困境,也就是通过独特的知识图谱来模拟人类即将遇到的矛盾和困境。

再回头看,是不是发现这场比赛中它提出的“资助幼儿园事关人类尊严”,也是模拟人类困境的结果?

至于这套算法更深层的逻辑,或许只有IBM的研发核心成员才知道,但我们至少能明确一点:从处理现有资料到模拟未知的事情,是AI技术进化的关键。

去年的辩论赛上,Project Debater 在谈到“是否应该加大远距离医疗技术的使用”这道辩题时,开场便说:

“今天有许多利害攸关的事情,对我来说尤其如此。”

紧接着它又用很惋惜的口吻说:

“我不能说自己‘热血沸腾’,因为我没有血液。”

这话听起来是不是除了更像人,也更有自己的立场?

(图自:The New York Times)

但现实还是残酷的,我们看到的所有“机器独立意识”,都只是程序员根据人类模拟出的假象,目前人工智能技术的极限还只是“解决特定问题”。

而辩论AI的诞生,代表着IBM在尝试教会机器该如何思考,先模仿人类角度去思考,再尝试从自己的立场去思考。

现在看来已经完成了第一步,但在我们自己都还没搞清楚意识是什么,以及意识存在形式的时候,谈第二步还为时过早。

不过毕竟是IBM,自信如常,他们在 Project Debater 官网底部一直留着这么句话:

辩论,只是一个开始。