朱嘉明新序：AI与人类智能开始“共智”八大趋势 |2024上海书展

文汇

2024-08-19 12:50发布于上海文汇报官方账号

《对话时代：铸造新质生产力的强国之路》作者：朱嘉明、陶虎、沈阳等，北京大学出版社 2024年8月出版，定价78元

【导读】上海书展如火如荼进行着，展馆内外人流如织，各个层面的信息、精神对流着、感染着。

由北京大学出版社出版、文汇讲堂嘉宾们主讲汇集整合而成的新书《对话时代：铸造新质生产力的强国之路》在书展亮相并于8月14日上了长安街读书会8月干部学习新书书单。该书分为人工智能的“涌现”、虚实世界的融合发展、数智技术的基础设施三大篇章，主要聚焦人工智能、大模型、芯片、脑机接口、Web3、卫星互联网、数字生态、元宇宙、AI伦理等主题。

十四场讲座，四十一位专家学者、业界精英，包含朱嘉明、林宝军、王建宇、沈阳、李淼、蔡恒进、卢勇、林龙年，林咏华、陶虎、杨光、危辉、贺樑，季卫东、冯象、江晓原、于海，何静、付长珍、郦全民等在内的讲堂嘉宾，深度解析新一代信息技术、人工智能、航空航天、生物医药、量子科技等领域的科技创新和产业发展，探讨全球人工智能发展的前沿、趋势与挑战以及人工智能伦理治理等问题，有助于读者理解新质生产力的概念、内涵及其在推进中国式现代化发展方面的重要作用。本书体现了科技与人文的对话、技术发展与社会变革的联动，既有前沿高度又能收获新知，有助于理解新质生产力的概念、内涵及其在推进中国式现代化发展方面的重要作用。

尤其值得一提的是，本书的序长达1.7万字，由作者之一、经济学家朱嘉明亲自撰写，聚焦2022年至2024年人工智能发展的前沿、趋势与挑战，其中还详细阐述了人工智能对宏观经济的影响，序里所含的最新信息截至2024年7月初。今选摘该序的AI发展的前沿、趋势与挑战部分。

书展期间，读者可前往位于东一馆E1-07的北大出版社前往购买（六折），也可在当当、京东、淘宝等网络平台订购。

上海书展北京大学出版社现场（东一馆E1-07展位）的《对话时代》

AI与人类智能开始进入“共智”八大趋势

人工智能是新质生产力的重要组成部分。人工智能是涉及思想、科技、经济和社会领域的综合性技术。人工智能技术不同于人类历史上的农业技术、工业技术和信息技术，它发源于自古希腊直至近现代知识精英的一种信仰、一种观念、一种精神，即智能并非仅仅为人类所有，人类所制造的机器也可能产生智能，因为智能最终是可以被计算的。1936年，图灵机的诞生，无疑是人工智能史上里程碑式的事件。80多年以来，对人类社会而言，人工智能已不仅仅意味着某种科学、技术，而且意味着思想、经济和社会的颠覆性变革。经过不断迭代、演化，人工智能已经并将继续证明长期主义和加速主义相互作用的历史意义。本文所讨论的是2022年以来全球人工智能发展的前沿、趋势与挑战。

1.大语言模型（或称大模型）

6月重大突破：可发现和纠正“强化学习”错误

人工智能的发展历史可以分为不同的阶段。2022年11月，OpenAI发布ChatGPT，生成式人工智能（Generative Artificial Intelligence, GenAI）开始蓬勃发展。生成式人工智能是基于模仿人类的神经网络的机器学习技术，通过文本、图像、音乐、视频等形式创造全新内容。

GenAI的集中代表就是大语言模型（Large Language Model，LLM）。所谓大语言模型，就是基于大量文本数据训练的深度学习模型，可以生成自然语言文本或理解语言文本的含义。也可以说，大语言模型是以深度学习为基础，通过模拟人脑处理信息的方式，使用多层神经网络来识别数据中的复杂模式。

在现阶段，人工智能的核心所在就是大语言模型。世界主要国家和主要公司主导了大语言模型的开发，呈现井喷式增长，形成不断膨胀的大语言模型集群。影响大语言模型性能的主要变量是训练数据、模型规模（即参数数量）、生成算法和优化技术。大语言模型的特点包括：（1）参数大。大语言模型的参数数量通常可以达到数十亿甚至数千亿。（2）具有图像识别和预测分析能力。（3）具有数据的理解和泛化能力。能够学习并执行多种复杂的任务，在自然语言处理（NLP）中，实现机器翻译、情感分析和智能问答的精准和高效。

ChatGPT与谷歌的Gopher、LaMDA，以及Meta的Llama是大语言模型的全球代表。其中，2023年，OpenAI发布的GPT-4是一个系列的模型总称，而不是一个单独的模型。2024年5月，OpenAI推出的GPT-4o模型在文本、语音和图像的理解方面，展现出处理数百种语言的卓越能力，且能进行实时语音对话，准确捕捉和表达人类情感。同年6月，Anthropic公司正式推出的Claude 3.5 Sonnet模型，在编码能力、视觉能力和互动新方式方面超越了Claude 3 Opus和GPT-4o。更令人兴奋的是，Claude 3.5 Sonnet引入创新的“Artifacts”功能，允许用户在动态工作空间实时编辑和构建AI生成的内容，将对话式AI转变为一个协作伙伴，无缝集成到用户的项目和工作流程中。特别是Claude 3.5 Sonnet还以其两倍于前代的速度和1/5的成本，重新定义了智能模型的性价比。

同样在这个6月，大语言模型领域出现突破性进展：OpenAI发布基于GPT-4模型的CriticGPT，用于捕捉ChatGPT代码输出中的错误。也就是说，CriticGPT就是一个通过GPT-4查找GPT-4错误的模型，不仅可以撰写使用者对ChatGPT响应结果的评论，而且可以帮助人类训练者更好地理解和满足人类的意图，发现和纠正基于人类反馈的强化学习（Reinforcement Learning with Human Feedback，RLHF）的错误，表明人工智能在评估高级AI系统输出的目标方面迈出关键一步。

2.AI平台

全球有九大平台，趋势是垂直化和专业化

伴随AI覆盖人类生产和生活的方方面面，构建AI平台成为大势所趋。AI平台提供的是全球领先的语音、图像、NLP等多项人工智能的多模态技术,以及开放对话式人工智能系统和生态。目前，全球有谷歌、TensorFlow、微软Azure、OpenAI、英伟达、H2O.ai、亚马逊网络服务（Amazon Web Services，AWS）、DataRobot和Fotor所提供的九大AI平台。其中，英伟达 Omniverse是专为虚拟协作和实时逼真模拟打造的开放式平台，借助GPU和CUDAX AI软件等强大的生态系统，提供业界领先的解决方案，包括机器学习、深度学习和数据分析。

AI平台的发展趋势主要是垂直化和专业化。例如，AI美术平台是通过人工智能技术进行图像处理和创作的平台，帮助艺术家和非专业人员以人工智能绘画形式快速生成有趣、具有美学价值的绘画作品，从中形成创作灵感和艺术体验，给艺术界带来更多的创新和可能性。Midjourney、Stable Diffusion属于影响力不断扩展的AI美术平台。又如，Suno v3.5作为AI音乐生成工具，生成的音乐长度由原来的2分钟变成了4分钟，音乐结构显著优化。AI音乐生成平台对于很难用语言描述清楚的听觉艺术的内行程度，展现出具有超越人类的创作潜力。Suno宣布还将推出一项全新的功能，允许用户用任何声音创作歌曲。这项新功能可以将日常生活中的各种声音转化为音乐，为音乐创作带来了新的可能性。

3.AI堆栈

基础支柱包括：数据、计算和模型

从硬件的角度看，AI堆栈（AI stack）的基础是GPU、CPU和TPU。生成式AI堆栈中最重要的是GPU。但是，AI堆栈还包括AI软件体系，最终构建的AI堆栈是一个系统和生态。

深入分析可知，AI堆栈是一个结构化框架，包含了开发和部署AI系统所需的各种层次和组件。AI堆栈的关键组件包括数据管理、计算资源、机器学习框架和机器学习运维（MLOps）平台。生成式AI的堆栈包含三个层级：顶层、中层和底层。顶层涉及特定领域的知识和专业知识，中层提供可用于构建AI模型的数据和基础设施，底层则是云计算资源和服务。在每个层级中取得进展对于推动AI的发展至关重要。AI堆栈的基础支柱包括：数据、计算和模型。其中，生成式AI需要大量的计算资源和大型数据集，这些资源在高性能数据中心进行处理和存储生成式AI推动了全栈的重塑。

一般来说，基于AI堆栈，可以构建具有快捷搜索、快捷翻译、智能识别、智能操控等特征的人工智能应用程序。

4.物理世界模拟器

第三个是AI物理世界：超越人类时空感知

对于当代人类而言，存在三个世界：现实的经验世界、虚拟世界与超越人类时空感知的物理世界。人工智能直接影响了人类与以上三个世界的关系。在现实的经验世界，人工智能和自然智能的平行和互动，改变了现实世界存在的方式；在虚拟世界，人工智能和现实虚拟技术可以引导人类进入非真实的沉浸式体验状态，元宇宙就是其中的一种方式；在超越人类时空感知的物理世界，人工智能可以帮助人类突破感官的局限性，认知以百亿光年为尺度的宇宙和以纳米为衡量单位的微观场景。在科学实验领域，人工智能技术不再仅仅是工具，而且是前提。

2024年年初，Sora出现的根本意义是：通过自身的物理世界模拟器（world simulator）功能，展现了一个人类可能没有感知的物理世界，一个很可能比人类眼睛看到的更真实的物理世界。人类一旦感知和融入因为AI物理引擎所创造的世界，将会体验更加多样的物理规则。

Sora 在进行视频生成任务时，基于感知、记忆、控制模块的支持，生成的视频一定程度上能够遵循现实世界的物理规律，这使得其模拟现实世界中的人物、动物、环境等，拥有了更广阔的想象空间，基本实现了空间一致性、时间一致性和因果一致性。Sora是一个可读懂世界模型，其现阶段做得如何，并非问题的本质。Open-Sora 1.1发布后，视频生成质量和时长大幅提升。优化后的Causal Video VAE架构极大地提升了Sora的性能和推理效

英伟达的重要贡献之一是完成了Earth-2 数字孪生地球模型。Earth-2结合了生成式AI模型CorrDiff，基于WRF数值模拟进行训练，能以12倍解析度（从25公里范围提高到2公里）精确预测天气信息。Earth-2的下一步是将预测精度从2公里提升到数十米。解析度更高，相比物理模拟的运行速度提高了1000倍，能源效率提高了3000倍，也就是说可以实时预测。

前景是非常清楚的：人类将构造作为感知/记忆/控制综合体、具有构建逼真和物理正确的“世界模型”。正是在这样的意义上，微软科学家塞巴斯蒂安·布贝克（Sébastien Bubeck）提出了“AI物理学”概念和研究方向。英伟达CEO黄仁勋也提出：AI的下一波浪潮将是物理AI。所以，英伟达的数字孪生目标不只是地球，还有整个物理世界。

5.具身智能和智能机器人

最终极应用：让人工智能具象成为“人”

人工智能的发展，必然导致人工智能生态的形成。而具身智能（Embodied Artificial Intelligence, EAI）或者智能机器人就成为人工智能生态中的主体。

具身智能是人工智能在物理世界的进一步延伸，是能够理解、推理并与物理世界互动的智能系统，具有人机交互与自然语言理解的能力，实现思考、感知、行动。进一步说，智能机器人会模拟人的思维路径去学习，作出人类期待的行为反馈，在多模态AI的驱动下，自我学习、感知世界、理解并执行人类指令，完成个性化任务和协作要求，持续进化。即在真实的物理环境下，执行可以被检验和测量的各种各样的任务。简言之，具身智能的特质就是能够以主人公的视角去自主感知物理世界。

至于各种不同形态的智能机器人，是具身智能的物理存在方式，其整体架构由感知层、交互层、运动层组成。特斯拉旗下人形机器人“擎天柱”从一代发展到二代、美国人形机器人初创公司Figure AI今年2月获得巨额投资，以及英伟达2024年全球技术大会（GTC）上展出25款人形机器人，都显示了人形机器人领域的快速发展。

2024年3月，英伟达推出了世界首款人形机器人通用基础模型——Project GR00T。该模型驱动的机器人能够理解自然语言，并通过观察人类行为来模仿动作，用户可以在此基础上教会其快速学习协调各种技能，以适应现实世界并与之互动。Project GR00T的出现预示着真正的机器人时代可能要来了。这也是AI的最终极应用：让人工智能具象成为“人”。

具身智能的兴起，标志着机器人技术从传统的以控制为主，转向了学习、操作的新范式。大模型技术的爆发和硬件成本的降低，使得旨在开发出能与物理世界交互的智能机器人的具身智能企业如雨后春笋般涌现。

2024年5月，作为机器人领域最具影响力的国际学术会议之一的国际机器人与自动化会议（IEEE ICRA）在日本横滨举行。今年的会议主题“CONNECT+”，不仅展示了机器人技术的最新进展，而且是一场“具身智能”和“学习”的革命。从长远看，具身智能对人工智能产业发展意义重大，对通用人工智能（Artificial General Intelligence，AGI）具有不可忽视的价值。

6.空间智能

绝不仅仅是机器版的人眼，以从未想象的角度揭示世界

现在存在两种空间智能（Spatial Intelligence）：一种是自然进化形成的空间智能。大自然花费了数百万年时间，让人类进化出空间智能，眼睛捕捉光线，将2D图像投射到视网膜上，再由大脑将这些数据转换成3D信息。另一种是以人工智能技术为基础的空间智能，即机器模拟人类的复杂视觉推理和行动，在多种传感器辅助的情况下，通过视觉信息直接理解和操作3D世界。

比较自然进化形成的空间智能和以人工智能技术为基础的空间智能，差异是显著的：自然进化形成的空间智能在空间维度上是有限的，突破3D空间是困难的，甚至是不可能的。但是，以人工智能技术为基础的空间智能可以突破空间维度。这样的空间打破了地理界限，处于流动的、无边无际和自由开放状态。不仅如此，这样的空间不再受制于牛顿的时间限制，实现了及时性和时间优化。例如，谷歌研究人员开发出一种算法，只需要一组照片，就能将数据转化为3D形状或场景。

在这方面，斯坦福大学以人为本AI研究院院长（美国工程院院士）李飞飞有过以下深刻的思考：“把视觉敏锐度和百科全书式的知识深度结合，可以带来一种全新的能力。这种新能力是什么尚不可知，但我相信，它绝不仅仅是机器版的人眼。它是一种全新的存在，是一种更深入、更精细的透视，能够从我们从未想象的角度揭示这个世界。”也就是说，建立在人工智能技术基础之上的空间智能将突破自然进化形成的空间智能，展现一个人类无法依赖大脑想象的空间状态。例如，量子力学所描述的量子空间指的是由一些离散的或者连续的态组成的、具有拓扑特征的空间。人类自然进化而来的空间智能没有可能感受和认知量子空间，人工智能技术支持的空间智能则是可能的。

总之，基于人工智能大模型的空间智能引导人类进入“一种全新的存在”，而具身智能很可能是这里的“原住民”。

7.人工智能深层演变

摩尔定律或被突破，元认知导致标度律失效

人工智能正处在深层演变的历史时刻。摩尔定律（Moore’s Law）、标度律（Scaling Law）逐渐发挥着越来越重大的作用。

摩尔定律是英特尔创始人之一戈登·摩尔（Gordon Moore）基于经验所总结的一个规律，即集成电路上可以容纳的晶体管数目在大约每经过18个月到24个月便会增加一倍。换言之，处理器的性能大约每两年翻一倍。问题是当芯片进入28纳米（nm）时，发生了摩尔定律危机。当芯片进入1纳米制程芯片时，意味着到达摩尔定律极限。现在人工智能以芯片为核心的整个硬件基础正面临摩尔定律危机或者摩尔定律极限。2024年6月，在2024台北国际电脑展（Computex 2024）上，英伟达CEO黄仁勋宣布，其GPU架构的更新频率将从两年一次更新加速到一年一次，但算力增长并未停滞，其AI芯片的算力在过去的8年间实现了惊人的1000倍增长，这说明存在突破摩尔定律危机和摩尔定律极限的技术可能性。

标度律主要涉及临界现象的研究，其核心思想是：随着模型参数量大小、数据集大小和用于训练的浮点数计算量的增加，模型的性能会提高。为了获得最佳性能，上述三个因素必须同时放大。当不受其他两个因素的制约时，模型性能与每个单独的因素都有幂律关系。

具体到人工智能领域，GPT-4在具体问题上的性能预测，可以通过比GPT-4小1000倍的模型预测得来。也就是说，GPT-4还没开始训练，它在这个问题上的性能就已经知道了。所以，标度律对于大模型的训练而言很重要。可以说，标度律是人工智能深层演变的又一个潜在规律。

不久之前，比尔·盖茨 (Bill Gates) 在一期The Next Big Idea播客中就标度律发表了比较深刻的看法：“标度律肯定还会接着有效。但与此同时，从今天我们所拥有的简单算法到更像人类的元认知的各种行动将会改变，这是一个更大的前沿。”因为意识可能与元认知相关，而元认知并不是一个可以测量的现象。或者说，元认知导致标度律失效。

8.近中期趋势

通用AI阶段正加速到来，超级AI“曙光”已现

站在2024年的时点上，可以大体看清楚人工智能的近中期趋势：

（1）狭义人工智能（Artificial Narrow Intelligence，ANI）阶段即将结束。在这个阶段，人工智能是能执行特定任务的AI系统，如图像识别或语音识别。这个阶段的高峰是支持生成式人工智能的大模型的出现，以及智能机器走向普及。

（2）通用人工智能阶段正在加速到来。

（3）超级人工智能（Artificial Super Intelligence，ASI）的“曙光”已经出现在地平线上。超级人工智能具有超越“人类心智”，赶上并迅速超越全人类的集体智慧，比人类智能还要强大的人工智能系统。

人工智能已经处于每天刷新人们想象力的历史时期。在这个时期，迄今为止的世界主体和参照系会发生改变，知识体系会被重构，人类智能和人工智能开始进入“共智”（Co-Intelligence）状态，传统经济组织、国家体制和法律体系也会发生变化，未来人类文明甚至会被重组。

朱嘉明

2024年7月6日

（原序中标题和小标题由编辑有所补充和微调）

　　作者：朱嘉明

文：朱嘉明图：朱梅全编辑：李念责任编辑：李念

转载此文请注明出处。

查看原图 178K