姚期智院士大模型新研究：思维图DoT，用数学理论确保AI逻辑一致性

清华大学人工智能国际治理研究院

2024-09-25 22:55发布于北京清华大学人工智能国际治理研究院官方账号

关注我们

姚期智

图灵奖得主、中国科学院院士、清华大学人工智能学院院长、人工智能国际治理研究院学术委员会主席

7月14日，2024国际基础科学大会开幕式及颁奖典礼在清华大学举办。六位科学家获得2024年度基础科学终身成就奖，中国科学院院士、清华大学教授姚期智位列其中。

一个月前的6月12日，姚期智接到总书记习近平给他的回信。信中写道：你回国任教二十年来，将爱国之情化为报国之行，在清华大学潜心耕耘、默默奉献，教书育人、科研创新都取得了丰硕成果，向你表示诚挚问候。

姚期智：他赞许肯定我这二十年的工作，特别提到潜心奉献，默默耕耘。其实不只是我，我感觉到我们清华很多的同事也都是在默默耕耘。

20年前，57岁的姚期智做出了在清华全职任教的选择。当时，他是普林斯顿大学的终身教授，是计算机领域最高奖项——图灵奖创立以来唯一获奖的华裔学者。

姚期智：20年前，当清华联络我，希望能够把我引进清华做全职教授的时候，我想那个时候我就已经了解到，清华有计划想要成为一个世界上一流的研究型的大学，所以我就没有犹豫，就答应了清华的邀请。

姚期智在普林斯顿大学的一位中国博士生提供了20年前的一个细节，当时，他在校园中偶遇姚期智，姚期智告诉他自己将要回到中国时，用了permanently这个词，它的意思是永久地，永远地。一个人如何可以做出如此清晰而肯定的选择？在过往接受媒体的采访中，姚期智有着这样的表达。

姚期智：我在国外的时候，我也接触到非常多的中国学生，我也带过一些中国的研究生，我都觉得他们非常聪明，如果我们能够把我们所知道的、最好的教学方法，最好的教学材料，最好的带领学生的方法如果在中国来实行的话，会不会有一个明显的结果。所以我在2002、2003年的时候，我就帮助清华大学的计算机系成立了一个讲席教授组，召集了10位在国际上、在学术上有成的中国科学家，在计算机方面，我们组织了一个队伍，在中国每个人待个一两个月，我和中国的学生能够交流，感觉到非常兴奋，所以在2004年，当清华大学邀请我全职回中国的时候，我几乎是一点犹豫都没有。

姚期智1946年出生在上海，幼年随父母去往台湾。20岁时，他获得台湾大学物理学士学位；25岁时获得哈佛大学物理博士学位。收获爱情的同时，又发现了自己学术上真正的志趣，就是刚刚兴起的计算机专业。

短短两年后，他获得美国伊利诺伊大学计算机科学博士学位，之后相继在麻省理工学院、斯坦福大学、加州大学伯克利分校、普林斯顿大学等世界顶尖学府任教，成为计算机领域国际顶尖的学者。2000年，基于对计算理论包括伪随机数生成、密码学与通信复杂度的突出贡献，姚期智被授予图灵奖。

姚期智：我在中国台湾成长。我的感觉是像我们这种在一个中国文化环境里面成长的人，不管你人在哪里，不管是什么时候，我们都从来不会忘掉我们是炎黄子孙，我觉得能够在中国培养人才，能够在中国做出一些前沿的科技的突破，这个意义是完全不一样的。

来到清华，原本，姚期智的预期是：在清华尽快构建一个培养博士生的良好机制，打造一支世界一流的研究团队。但回到清华的第二年，他创立了清华学堂计算机科学实验班，也就是这些年来人们津津乐道的姚班，他要从本科生开始，培养具有国际水平的一流计算机科学人才。2006年，“姚班”开班时设置了两个班，分别招收大一和大二的学生。

姚期智：他们共同的一个特点，就是他们都是非常非常聪明，所以我们做老师的，我们教课的时候都要充分准备，因为你只要有一些证明，如果不对的话，这些学生立刻就能够发现，我想在全世界还真的很难找到像这样的班级。

开设姚班，对姚期智来说，意味着他要在纯粹的研究者身份上，添加一个角色：教育的管理者。不仅课程设计、选聘教师，他要亲力亲为，同时，他还要执教课程。“姚班”新生的第一门课是《计算机与人工智能入门》，这门课并非由一位老师上课，而是由国内外知名学者为新生介绍领域前沿，目的是激发兴趣和扩展学生的视野，而面向本科一年级的专业基础课“计算机应用数学”则由姚期智亲自主讲。

姚期智：我们雇用了最优秀的年轻教师，用这些最好的老师，来创造出一个学习的环境，自然而然我们这些非常优秀的学生，他们就很容易以老师为模范，这个是为什么我们本科教育这么成功的原因。

清华校园流传着一个故事，有一次，姚期智在课堂上“悬赏”出题，25分钟内解出者，由他请吃比萨饼。结果，90%的学生在规定时间内做出了正确解答，而姚期智信守承诺，给每个答对的学生叫来了外卖。很多人提到姚期智，都说他行事克己自律，不愿意给别人添麻烦。但他却愿意为了给学生写推荐信而熬夜，还定期和学生聚会，啃着汉堡包，听学生的想法。

姚期智：我常常在我们的本科生，有机会和他们谈话的时候，我说如果我要给你们一个建议，其实就是每一个人只要不断提升自己，你把你的思维的程度不断提高，你今年学习的东西要比去年学习的要更加有深度，要更加广阔，那么即使开始的时候，你有同学比你聪明，但是等你毕业的时候，你可能就已经比他们要更聪明了。所以我说一个人你是能够改变自己的智慧的。我们老师自己要以身作则，就像父母影响小孩子一样，让我们的学生将来也会有这种坚韧不拔的性格，能够发挥他们最大的潜力。

师者春风化雨，最好的酬劳便是学生的成长。2010年8月，清华计算机科学与技术学科进行国际评估，以图灵奖得主、美国康奈尔大学约翰·克罗夫特（John Hopcroft）教授为首的评估专家组一致认为，姚班“拥有最优秀的本科生和最优秀的本科教育”。

姚期智总结了姚班培养拔尖人才的四个主要原则：强调科学基础、及早参加科研、注重理论和实践相结合与学科交叉，以及提供丰富的国际科研机会。截至2024年6月，姚班共有十七届、663名本科毕业生，他们当中有相当比例的人选择继续求学，并最终或是成为AI领域的创业者，或是进入国内外知名高校、研究机构潜心于学术研究。在教导年轻人时，姚期智一直认为，和聪明相比，能让人走得更远的，是个性、品行和态度。

姚期智：我还是比较喜欢一个人他比较谦虚，自己老是觉得学而不足。另外就是，我是希望一个年轻人他能够保持他的赤子之心，不但是在科学的求知上保持天生小孩子都有的好奇心，而且他在这个世界上，能够保持他的品格，最好是一心关注，做他的事业，他的学问，而不是被世俗的一些名利主宰他所做的决定。

直到现在，姚期智仍然坚持为本科生上课。他说，做学问是一件非常有幸福感的事情，因为既有美感，又能收获最幸福的时刻。也因此，有人曾经问过他，是否对自己的选择后悔过，因为回到清华，探索创新人才的培育，意味着要把做学问的精力分配到管理上。姚期智的回答是：我是一个对自己很诚实的人，没有选择那条路，我才会后悔。

2011年，清华大学交叉信息研究院与量子信息中心同期揭牌，交叉信息研究院致力于促进信息科学与物理学、数学、生命科学、社会科学的交叉，量子信息中心的目标直指“建造出世界第一台量子计算机”。姚期智多了一个新的身份——清华大学交叉信息研究院的管理者。和姚班相比，这可以说是他到清华后的第二次创业。

姚期智：开始的时候想要招聘好的老师是不容易的，尤其是从国外引进人才的话，我想全世界能够吸引人才的，它都有一个共同的特点，就是这个环境特别能够使得一个科学家能够发挥他自己的力量。如果你能够保持你的这个环境里面的科研水准，你如果耐心等待，这个情况会变得越来越好。

第二次创业，对姚期智来说，既需要在新的布局中延揽人才，同时，也是一个耕耘多年，开始收获的过程。

姚期智：你需要经过十几年，你才能够完成一个人才链的全链培养。我们刚刚提到姚班，那个是本科生的教育，然后我们引进了很多好的老师，又把这些老师从助理教授一路能够看着他们，能够让他们成长，培养成为正教授。同时，因为你有了好的老师，你就能够培养出一流的研究生。

人才培养和科技创新依赖于生态的打造。2018年11月，姚期智带队赴美国面试优秀青年人才数十人，包括“姚班”毕业生在内的10多人受聘入职。同年，全职引进美国密歇根大学费米讲席教授、斯隆奖得主段路明教授，极大增强了清华量子信息领域的教学科研力量。

姚期智：他做出了非常了不起的一些工作，我们就是差不多一个月以前，他在《Nature》上发表了一篇文章，他实现了世界上规模最大的，有一种离子的量子计算机，这个技术是非常困难的，现在有很多国外的重要的一个中心，他们都想要复制像这样的结果。

2023年，段路明成为交叉信息研究院培养出的第一个院士。近日，段路明带领研究组首次实现基于数百离子量子比特的量子模拟计算，相关成果在《自然》官网在线发表，被《自然》审稿人称为“量子模拟领域的巨大进步”“值得关注的里程碑”。

姚期智：我们交叉信息研究院培养出一位中国科学院的院士，在世界一流的机构里面，你必须要有一部分这样的人，他们在从零到一的创新上在做，有不确定性，但是价值可能很高的一个工作。我很高兴我们这里也具有这些世界顶级机构的特征，我们有老师，他们想真正变成一个不平凡的科学家。

打造引育人才的平台高地，真正着力之处在于创建人才培养的机制。为了引导教师专注于教学和科研，十几年前的交叉信息中心就采用了与国际接轨的聘用方式，年轻教师从助理教授做起，在三到六年中，接受考核，达到标准，才能被续聘。但这并不是机制的全部内容，比筛选更加重要的，是激励和保护。

姚期智：第一点我们想办法能够给他一个比较好的薪水，因为每个人他的家庭，他都还有别的责任在。基本上我们做院长的，就担负起自己的责任，我们要想办法从企业，或者向地方政府，向别的地方去能够找到机会，能够补贴我们这些老师的薪酬。我们院里面的考核，你们能不能够得到长聘，唯一的标准就是你们真正的学术做得怎么样。那么当然，我另外有一点就是，你们还是要做一些你们做一个好公民该做的事。

对科学工作者来说，科普是一种社会责任，等同于好公民的社会责任。

姚期智接受媒体采访的次数并不多，但为了普及人工智能的发展进程，他甚至愿意出现在综艺节目中。节目中，姚期智的任务是挑选一条狗，让人工智能和记忆大师通过狗的步态进行识别。人工智能以及人工智能人才培育是姚期智高度关注的领域。

2019年，姚期智创办了人工智能班，被称为智班。2021年，他创办量子信息班，这是清华大学首个量子信息方向的本科人才培养项目。2022年，三个班又合并为姚班，下设计算机科学与技术、人工智能和量子信息三个专业培养方向。他用应时而变的敏捷，跟踪计算机科学和人工智能领域的趋势，同时不断迭代更新着人才培养的方式。

2024年4月，清华大学人工智能学院正式成立，77岁的姚期智担任首任院长。这将是他在清华的第三次创业。

为了能在人工智能这一竞争激烈、决定未来的领域中掌握主动权，清华大学人工智能学院重点布局“AI核心”与“AI+”两大前沿方向，聚焦基础前沿突破和交叉学科赋能。与姚班面向本科生不同，人工智能学院还将进一步深化AI人才培养，目标是几年后每年培养100名博士生。

姚期智：我们真正想和国外竞争，那么光靠学校是一定不够的，那么你将来一定要跟企业能够合在一起，但是要向国外最高端的，像DeepMind、OpenAI，他们的底气是由于美国有麻省理工、斯坦福、伯克利，他们每年产生数百名尖端的AI核心技术的人才，这些人不断每年都能够加入这样的公司，我们现在这个AI人工智能学院，我们一旦每年能够产生一百个像麻省理工、斯坦福毕业的博士的话，我们就有了底气。

姚期智同时思考的问题还包括创造一种机制，让产学研能更加有机地连接并转化，以响应国家对新质生产力的需要。

姚期智：我们要有一个机制，有技术的，有原创能力的人，让他们和那些企业，有这种需求的人，给他们搭一个桥，让他们能够有机会朝夕相处，可以算是一种市场的机制，让大家为了他们本身的一个优化，他们的一个价值。

2014年，有人请姚期智给自己在清华的第一个10年打分，他给出的是A+。那之后，他继续以自己的学术声誉、学术影响力和兢兢业业的耕作，给学生和教师打造一流的学术平台。2024年，在将要开启在清华的第三个10年时，他要继续登顶，不能停歇。

姚期智：我们现在唯一还要更加努力的，就是我们怎么样能够在最原始的科技创新上，我们能够更上一层楼，能够不但和世界上的其他的国家，能够并驾齐驱，我们现在的情况比20年前已经好了非常多，但是我们的任务其实比以前更加艰巨，就是因为我们现在，确实是我们的竞争是在一种最高端的尖端人才的竞争上。

自从20年前做了回到祖国、任教清华的决定后，姚期智还做另一个重大决定，2014年10月，他放弃了美国国籍，2017年他和杨振宁先生一起转为中国科学院院士。很多人感慨他对人生选择的果断和坚定，跟随他多年的学生给出了解释：姚先生至纯至真，因为纯真，所以无所畏惧。20年潜心耕耘、默默奉献，帮助清华大学成为世界一流的研究型大学、致力于基础科学和前沿科学的突破性研究，这自然是在充分地实现人生价值。也因此，姚期智常常表达的是他的感谢。

姚期智：生逢其时，当不负盛世，这个是我想讲的一句话，这一个时期能够见证我们祖国的一个强大，而且我们大家都是这里面能够有机会做贡献的，所以我有感，我觉得我们何其有幸，能够为我们中华民族的复兴，做我们该做的贡献。

姚期智院士领衔，推出大模型新推理框架，CoT“王冠”戴不住了。

提出思维图（Diagram of Thought），让大模型思考更像人类。

团队更是为这种推理过程提供了数学基础，通过拓扑斯理论（Topos Theory）正式化（formalize）DoT，确保其逻辑一致性和合理性。

相比CoT将推理过程表示为线性序列，DoT更能捕捉人类推理的复杂性。

相比引入分支结构ToT和GoT，DoT不需要依赖外部控制机制或多个模型协作，训练部署更简单。

秘诀就在于，DoT将LLM中的迭代推理建模为在单一模型内构建有向无环图（DAG）。

DAG由代表命题、批评、精炼和验证的节点组成，边表示它们之间的逻辑关系或依赖关系，边都有方向，不存在任何循环路径。

这种无环的特性确保推理过程不受循环依赖的影响，能更真实反映合理的逻辑推导。

9.11和9.8哪个大、strawberry中有几个“r”等问题在DoT的帮助下全都迎刃而解了。

这项研究提出后得到了不小的关注。

网友纷纷表示这是一种正确的路径。

码住，码住，码住

具体来看看DoT长啥样。

大模型复杂推理新框架

如前所述，DoT将逻辑推理过程建模为在单个LLM内构建有向无环图（DAG）。

其框架内部管理三个关键角色：

提议者：生成命题或推理步骤，添加新节点。
批评者：评估命题，识别错误、不一致或逻辑谬误，并添加批评节点。
总结者：将经过验证的命题综合成一个连贯的思维链，有效地执行DAG的拓扑排序（topological sort）以产出最终的推理输出。

这三个角色通过使用特殊token

推理过程始于提议者引入一个命题，向DAG添加一个节点。

然后，由评论者评估验证或提供批评。如果提供了批评，将添加一个新节点，并在该命题和批评之间建立一个边。

基于批评，提议者生成一个精炼改进过的命题，表示为DAG中的一个新节点。

这一过程重复进行，。

一旦建立了足够有效的命题，总结者就会综合这些推理，对DAG进行拓扑排序以产生一个连贯的思维链。

通过让模型接触正确和错误的推理，DoT允许LLM从错误中学习，随着时间的推移不断精炼其推理，这也更像人类解决问题的方式。

这种方法不仅捕捉了推理的非线性和迭代特性，还通过自然语言批评提供了比二元信号更丰富的反馈。

DoT的训练涉及使用格式化为DoT结构的训练样例，包括角色特定token和DAG表示。在推理过程中，模型基于上下文线索和角色特定token生成命题、批评和总结。

这种方法简化了部署，消除了对多LLM协作或外部控制机制的需求，同时与标准LLM训练范式保持一致，便于集成到现有工作流程中。

作者还为DoT框架提供了严格的数学基础，利用对推理过程进行了形式化描述。

在这个框架中，命题被建模为拓扑中终端对象的子对象，逻辑关系和推理步骤表示为态射，批评和改进过程分别对应到子对象分类器的态射和命题间的态射。

通过引入PreNet范畴，他们还成功捕捉了推理过程的动态和并发特性。

这种数学基础不仅确保了推理过程的逻辑一致性和完备性，还为设计下一代专门用于推理的AI模型提供了概念框架。

清华叉院姚期智、袁洋领衔

这篇论文由清华交叉信息研究院姚期智、袁洋领衔，论文第一作者为张伊凡。

张伊凡

张伊凡2021年本科毕业于于北京大学元培学院，现为清华大学交叉信息学院博士研究生，师从袁洋助理教授。

他的主要研究方向为基础模型（大语言模型）的理论和算法、自监督学习、可信人工智能。

袁洋

袁洋是清华大学交叉信息学院助理教授，博士生导师。

2012年毕业于北京大学计算机系；2018年获美国康奈尔大学计算机博士学位；2018-2019年前往麻省理工学院大数据科学学院做博士后。

他的主要研究方向是智能医疗、AI可解释性、AI大系统，在非凸优化理论、神经网络优化理论、机制设计等领域有颇多研究成果。

姚期智

姚期智是中国科学院院士、清华大学交叉信息研究院院长；同时也是“图灵奖”创立以来首位获奖的亚裔学者、迄今为止获此殊荣的唯一华人计算机科学家。

姚期智教授2004年从普林斯顿辞去终身教职回到清华任教；2005年为清华本科生创立了计算机科学实验班“姚班”；2011年创建“清华量子信息中心”与“交叉信息研究院”；2019年再为清华本科生创立了人工智能学堂班，简称“智班”。

如今，他领导的清华大学交叉信息研究院早已声名远播，姚班、智班都隶属交叉信息院。

姚期智教授研究方向有算法、密码学、量子计算等，是这方面的国际先驱和权威。

One More Thing

一年前的差不多同一时间姚期智院士领衔提出了累积推理（Cumulative Reasoning，CR）的方法。

DoT是对CR的进一步深化。

当时CR协调了一个涉及不同专业化大语言模型的迭代过程，由不同模型承担了提议者、验证者和报告者角色。

而DoT直接在单一模型内构建有向无环图，不依赖于外部控制机制或多个模型，训练和部署更简单。

且在DoT中，模型生成的批评反馈是自然语言形式的，而不是像CR那样只给出二值信号。这使得模型可以接收到关于错误的详细解释，有助于更有效地改进命题。

这次DoT还有了强有力的数学基础，阐明了DoT推理过程与范畴逻辑的关系，从理论上确保了推理的一致性和可靠性。

— 完 —

关于我们

清华大学人工智能国际治理研究院（Institute for AI International Governance, Tsinghua University，THU I-AIIG）是2020年4月由清华大学成立的校级科研机构。依托清华大学在人工智能与国际治理方面的已有积累和跨学科优势，研究院面向人工智能国际治理重大理论问题及政策需求开展研究，致力于提升清华在该领域的全球学术影响力和政策引领作用，为中国积极参与人工智能国际治理提供智力支撑。

新浪微博：@清华大学人工智能国际治理研究院

Bilibili：清华大学AIIG

查看原图 20K