还质疑人工智能是噱头？GPT-4.0已通过图灵测试，多数人无法区分

宗熙先生

2024-06-19 13:12发布于湖北

提起“图灵测试”，广大数码科技爱好者朋友肯定都不陌生，在很多与计算机相关的内容中，都经常会提到这个词，但是到底什么是“图灵测试”，很多朋友可能并不清楚。

可能有一部分朋友潜意识里认为“图灵测试”的原理和步骤非常复杂，很难理解，事实并非如此，它的原理和步骤非常简单易懂。

图灵测试是由英国数学家兼计算机科学家艾伦·图灵（图一）在1950年提出的，目的是评估机器是否能够表现出与人类相似的智力行为，被业界公认为是机器、人工智能水平的重要评判指标，深刻影响了后来的人工智能研究与发展。

图灵测试的思路和方法也很简单：有一个裁判、一个人类参与者和一个机器参与者。裁判与二者通过文本交流进行对话，目标是通过他们的回答来判断哪个是人类，哪个是机器，区分二者。

如果机器能以极其接近、类似人类的方式参与交流，以至于裁判无法准确识别其身份，将其和真人正确地区分开来，那么这台机器就可以被视为通过了图灵测试，即具备了“智能”。

尽管图灵测试看似非常简单，但是机器想要能顺利通过这种测试是非常困难的。因为裁判具体会提哪些问题是不确定的，只有机器能够理解复杂的语义和上下文，拥有多方面的知识储备和语言表达能力，才有可能通过这项测试。

综上所述，尽管现阶段图灵测试还存在诸多不完善的地方和争议，但是它目前仍然业界评估人工智能发展水平的重要检测评估方案，一款人工智能类的水平如何，能否通过图灵测试是一项非常关键的评判指标。

毫无疑问，现阶段代表人工智能最高水平的是OpenAI开发的ChatGPT，那么，ChatGPT能否成功通过图灵测试呢？近期美国加州大学圣地亚哥分校的研究人员进行了这一激动人心的测试，图二为论文。

总共有500名志愿者（充当裁判）参加这项测试，与四名包括真人和人工智能在内的对象隔着屏幕聊天。参测的人工智能有多个、且是随机的，其中包括1960年代的人工智能程序ELIZA、GPT-3.5和GPT-4，整个对话聊天测试过程持续五分钟。

测试结束之后，志愿者需要根据自己的认知，来判断、回答与自己聊天的对象到底是真实人类，还是人工智能。

最终测试结果如下：

有22%的志愿者判定ELIZA为真实人类，有50%的志愿者判定GPT-3.5为真实人类，有54%的志愿者判定GPT-4.0为真实人类，有67%的志愿者判定与自己聊天的真实人类是真实人类，请参阅上图。

结果表明，GPT-4.0成功地通过了图灵测试，大部分人无法将它和真实人类区分开来。不过，它和真正的真实人类判定比例67%仍然有较大的差距，还有巨大的提升改进空间，尽管如此，这仍然是一项很了不起的成绩。

GPT-4.0成功通过图灵测试是一个重要的、具有关键性意义的里程碑，这说明人工智能现在真的已经不是噱头，已经越来越接近真实人类，人工智能时代已经真正来临。

另外，业界还有更加乐观、激进的观点：马斯克预言2027年左右人工智能将彻底超过人类。2027年并不遥远，马斯克的预言是否真的能够实现，未来两三年就能看到结果，非常值得期待。

查看原图 134K