未来会发生什么?2024世界人工智能大会,听各界大佬们如何预测

在上海世博中心和上海世博展览馆的路上,一个贴了数个微信群二维码的立牌旁,不少路人扫描入群,一个女士说:“很多群都满了,需要有人拉才行。”
而在另一个微信群里,不时有群主提示,展览馆开放注册了,可以注册进入了。
连日的梅雨之后,上海进入炎热的夏季,正在举行的2024世界人工智能大会,就像当下37、38度的天气一样,无论是场内还是场外,热度都非常高,国内外专家学者和企业家们,都加入到这场AI的最大盛会。
百度创始人李彦宏分享中提到说,上一次参加世界人工智能大会是2022年,当时主题是元宇宙,当时主办方希望他讲元宇宙,李彦宏坚持说讲AI,并把主题定在了AIGC,“我认为AI的技术发展路线,发生了方向性的改变,就是从过去的辨别式人工智能,转向了未来的生成式人工智能。”李彦宏说,讲这话后的5个月,ChatGPT发布,后来的事情大家就更清楚,两年的时间恍若隔世,整个世界都变了,人工智能颠覆了绝大多数人的认知。
阿里云CTO周靖人也是早在2022年就提出了MaaS,也就是模型即服务的概念,“两年前,我们在世界人工智能大会上发布通义大模型系列,当时我们公布,通义核心模型将开源开放。到今天,通义千问已经实现真正意义上的全尺寸、全模态开源,拉平了开源、闭源模型之间的差距。”周靖人在2024世界人工智能大会期间这样说。
确实,在这个AI盛会期间,各路大佬们分享的高密度信息,以及思维和观点的碰撞,夹杂着对未来发展趋势的洞悉和预判,一定程度上,让我们看到未来的一部分。
接下来,我们看看大佬们都说了什么吧!
“通向AGI的必经之路是ABI,即广义人工智能。从学术上我给出了严格的定义:自监督、端对端、从判别式走向生成式。”
周伯文认为,人工智能AGI落地会有一个高价值区域,同时要求模型兼备很强的泛化能力和足够的专业性。这个区域离原点最近的位置,我们把它叫做通专融合的“价值引爆点”。
根据对历史生产力提升的分析,我们认为处在这个点的大模型,在专业能力上应超过90%的专业人类,同时具备强泛化能力,即ABI的能力。谁先进入高价值区域,即意味着谁的能力更强,拥有更多的场景和数据飞轮,并因此更早拥有自我进化迭代的能力。
图片
周伯文认为,强泛化之上的专业能力是AI皇冠上的明珠,通专融合的发展新范式。
如何瞄准构建一个既具有泛化性又具备专业能力的AI系统,以更高效、更好地适应和解决现实世界中的复杂问题?这包括三层重点工作:
基础模型层:专注于更高效地构建通用泛化能力,尤其是其高阶能力,如数理、因果推理等。通过高质量数据的清洗和合成,研发高性能训练框架、高效的模型架构。
融合协同层:采用多路线协同的算法和技术,构建比肩人类优秀水平的专业能力。我们的原创工作包括高密度监督信号的生成、复杂任务规划,以及新的架构来实现系统1(即快速、直觉反应的系统)和系统2(慢速、逻辑分析的系统)之间的交互。通过这些技术,AI能够在复杂环境中做出决策,将复杂任务分解为更易管理的子任务,制定行动计划,并有效地协调多个智能体,以实现群体智能的涌现。
自主进化与交互层:强调AI的自主探索和反馈闭环的重要性。AI系统需要能够在真实或仿真世界中自主地收集数据、学习并适应环境。通过与环境的交互,AI能够获得反馈,这些反馈对于其自我进化至关重要。自主进化与交互层使AI能够进行具身自主学习,最终对世界模型有更深刻的理解并与之交互,完成开放世界任务。
早在1900年,德国数学家大卫·希尔伯特(David Hilbert)提出了著名的“23个问题”,引领了数学很多子领域数百年的发展。
在科学上,提出一个好问题往往比解决问题更重要。希尔伯特还有一句名言,这也是他的墓志铭:“We must know. We will know.”我们必须知道。我们终将知道。
“今天我们踏上通专融合的路线,探索通用人工智能AGI的未来,展望下一代的AI for Science,更可以从这句话中汲取灵感和激励。”周伯文这样说。
图片
在 2024 世界人工智能大会 “长三角协同创新AI新质生产力发展”论坛上,中国工程院院士、清华大学智能产业研究院(AIR)院长张亚勤就大模型和生成式AI的发展趋势等进行了分享。
张亚勤认为大模型和生成式AI有五个大的趋势:
第一个趋势是多模态、跨模态、多尺度,这里面有文字、声音、图像、视频,但是也包括像激光雷达、结构传感器、生物里面DNA、蛋白质、细胞,其实是一种多模态、跨模态的方式。
第二个趋势是走向边缘,现在讲的大模型更多的是基础大模型在云端的,现在更多的智能走向PC、电视、手机、车,走向各种边缘。
第三是智能体的发展,特别是自主规划去完成一个任务,自我升级,包括自我编程、自动试错。
第四是物理智能,现在大模型和物理世界结合起来,包括无人车、无人机、无人系统,包括物理设施、基础设施,走向通用人工智能不仅仅要理解这个世界,要读书,而且要走路。其实物理智能就是我们机器和物理世界交互学到我们这个世界模型。
第五是比较长远,也是最重要的智能,是生物智能,我们把大模型和我们的大脑、器官、生物体连在一块的时候,这时候智能是AI加上HI新的智能。
张亚勤认为,现在行业简单的堆算力、堆数据,一定会有达到一个瓶颈,一定会遇到一个瓶颈,效率十分低,比起人的大脑目前效率可能低3个数量级,现在有860亿个神经元。“每个神经元有一千到一万个连结,但是我们只用20瓦,所以我们的效率是高了很多。”
张亚勤预计,未来五年会出现一个全新的架构,这个框架需要首先要有一个记忆系统,像人类是三层有DNA记忆、短期记忆、海马体记忆,皮层记忆、长期记忆。现在目前的AI大模型是没有真正的支持记忆系统的,没有真正的物理模型,系统推理能力比较差,透明性也比较差。
什么时候可以达到AGI?张亚勤给出一个时间段:15-20年。他把这个时间分成三个阶段:
第一是现在信息智能,多模态智能。
目前的ChatGPT或者GPT4已经通过图灵测试了,视频像Sora等在5年之内预计也能通过图灵测试,是一个新的图灵测试。
第二个是物理智能或者具身智能,这可能需要5年甚至更长的时间。
具身智能第一个就是无人驾驶,无人驾驶可能是最快通过图灵测试的具身智能。然后是机器人,产业的机器人、家庭的机器人等,这个需要可能5-10年的时间。
最后是生物智能,包括脑机接口、植入芯片或者是传感器也好,可能还需要5年、10年。如果5年前问我这个问题我说可能需要50年,过去这几年大模型的发展,我认为是加速了,20年之内可以达到AGI。 
“人工智能有一个非常长的过去,但是有一个非常短的历史。长到什么时候呢?长到其实你可以追溯到一百多年以前。但是短到什么时候呢?短到就是GPT的出来。GPT的潜力,今天事实上还是没有被完整的探索的。”
图片
王坚认为,未来十年将是一个非常激动人心的十年,一定会有新的大公司出现,也一定会有大公司烈火重生
人工智能,是一个非常革命性的东西。它对产业的影响一定是反映在两方面:
第一, 只要是个新的技术,一定会有新的大公司出现。如果一个新的技术出来,没有新的大公司出现,那它是不是颠覆性的技术是要打个问号的。但是我自己相信,在这个时代一定会有新的大公司出来。就像当年的GE一样,这是第一个逻辑来看这件事情。
第二, 一定会有大公司是烈火重生的。就像前几天大家看到苹果这个事情。我觉得苹果这个发布很有意思,不是他拿AI去服务了C端的客户,事实上人工智能技术重新重构了苹果这家公司,这个重构是从重构它的操作系统开始的。所以我自己觉得,因为有了人工智能技术,苹果这家公司不一样,那是不是真的能不一样?但我们要再往下看,但是我想只有不一样,以后他可能才可以市场上活得更好。所以我想对于大公司而言,就是大的企业而言,只有两种可能性。
王坚说,因为数据等,人工智能对大公司会友好一点。但友好并不是说它会对你宽容,你没有创造力,它也不会对你宽容,因为该面临的挑战还是会面临的。
“最后你发现有一个因素容易被忽略,就是人。AI我们这么讲是革命性力量的时候,你发现AI对每个部门都会产生影响,要所有部门的所有人都去拥抱AI这在很多大企业是很难的。我想小企业跟大企业的差别就是,根本上,小企业一定会觉得大企业一定会觉得AI是工具的革命。小企业一定会觉得这是革命的工具,那就是点差别。我想大企业也要意识到这是革命的工具,那这个变化就来了。”
另外,关于能源问题,王坚认为,要放在时间和空间维度动态来看
1980年全世界都担心石油马上没有了,没想到越到现在石油反而更便宜了。”王坚认为,所有的问题都是要在动态过程中解决,你根本不会想到可能十年以后说的算力,跟今天说的算力不是同一个算力。十年以后说的电,可能跟今天说的电也不是同一个概念。“所以我是觉得这个还是要在动态过程解决,一定不能在现在这个时刻的状态来解决十年以后的问题。要拿十年以后的状态来解决十年以后的问题。”
图片
“超级时刻和应用是互相成就的,只有超级时刻带来的认知的变化,最后才能推动这样一个应用。所以倒推回来,如果我们后面用应用来支撑,那么我们现在这个时刻就是超级时刻。”2024世界人工智能大会期间,徐立说,就像IPhone一样,因为是有了这个平台,后面才有iOS上面的App Store生态,应用是决定这个时代是不是人工智能超级时刻的一个关键。
要走向应用,人们在认知上有几个核心的重要的突破点:
一是对高阶的逻辑数据的依赖性来解决人工智能的推理问题,就是它的智慧。
现在的人工智能大模型某种程度上只是记忆器,他只是背下了所有的知识点,它仅有的一点点的智能其实是来自于互联网上的数据背后带有的一个高阶的逻辑思维链。那在在垂直领域里要做一个突破,依赖于人类去构造更加高级的思维链背后的逻辑,甚至是再往上一步,不依赖于人类,也就是通过跟真实世界的交互形成执行的数据,形成知识层、推理层以及执行层。
第二个是实时的交互性能够带来一个流畅的体验,也是带来推动超级时刻以及应用变化的一个核心。
最后很重要的一点是可控性,不管是文本、图像、视频,如果对它没有具备可控性,它作为一个工具,它本身能够带来的效能的提升就非常的有限。
徐立说,如果要推动人工智能超级时刻的到来,需要大模型可以展现出卓越的深度思考的能力。首先合成的人工数据,特别是高级思维的数据往往是非常重要的,所以越是有应用的场景,才能形成更好的高质量的数据的一些核心。
第二自然的没有延迟的交互。所以端侧其实也是一个非常重要的突破点,今年商汤科技着重推动模型的端侧优化,实时的交互变化更加的流畅。用好端和云两部分的计算机资源,才能够成为一种全自然的交互模式。
第三就是所有的生成都要可控,你不需要做得很好,但你需要知道你哪里做得不好,并且说做哪里进行一些修改,有了这样的一个边界,那么实际上才能做到真正的可控技术以及可持续的技术发展。
图片
2024世界人工智能大会期间,李彦宏的分享不仅回应了关于开源还是闭源的问题,也提到了是否发展超级应用等问题。
李彦宏认为,在大多数的应用场景,开源模型并不合适,当你处在一个激烈竞争的市场环境当中的时候,你需要是让自己业务的效率比你的同行更高,成本比你的同行更低,这个时候商业化的闭源模型是最能打的。
李彦宏说,有些外行甚至混淆了模型开源和代码开源这两个概念,模型开源你拿到的是一大堆的参数,你还是要去做SFT(监督微调),还是要去做安全对齐,你不知道这些参数是怎么来的。你是无法做到众人拾柴火焰高的,即使你拿到对应的源代码,你也不知道他用了多少数据,用了什么比例的数据去训练这些参数。所以拿到这些东西,并不能够让你站在巨人的肩膀上去迭代和开发。
所以同样参数规模之下,闭源模型的能力就比开源模型要更好,而如果开源想要能力追平闭源,那么它就需要有更大的参数,这就意味着推理成本会更高,反应速度会更慢。
李彦宏也强调了从卷模型到卷应用的观点,“没有应用,光有基础模型,不管是开源还是闭源都一文不值。“
李彦宏说,基于基础模型的应用在各行各业、各个领域都已经开始了逐步的渗透,两个多月前我们宣布文心大模型的日调用量超过了2亿,最近文心的日均调用量超过了5亿!仅仅两个多月的时间,调用量发生了这么大的变化,足见它背后代表了真实的需求,是有人在用,是有人真的从大模型当中获益了,得到了价值。
比如在快递领域,让大模型帮助处理订单,做到了"一张图、一句话寄快递",不再需要其他繁琐的流程,时间从3分多钟缩短到19秒。而且90%以上的售后问题,也都由大模型来解决,效率提升非常的明显。
再比如在小说创作领域,一开始也用开源模型做出过一些效果,后来改用文心轻量级模型,经过10轮上万组数据的SFT和post pretrain,结果有了明显的提升,最近又转到文心4.0版本,仅用了数百条数据,4.0就在情节和逻辑方面展现出了非凡的优势,生成的内容无论是可用率还是优质率都大大超过了轻量级模型,网文作者们如虎添翼!
其实更通用的领域,比如说代码生成,文心快码这样的软件,在各个领域,也在逐步的渗透,百度内部的话,我们有30%左右的代码,已经用AI生成的,代码的采用率超过了44%。
李彦宏认为,要避免掉入"超级应用陷阱",觉得一定要出现一个DAU10亿的APP才叫成功,这是移动时代的思维逻辑。其实不一定,AI时代,"超级能干"的应用比只看DAU的"超级应用"恐怕要更重要,只要对产业、对应用场景能产生大的增益,整体的价值就比移动互联网要大多了。
”随着基础模型的日益强大,开发应用也越来越简单了,最简单的就是智能体,这也是我们最看好的AI应用的发展方向。“李彦宏认为,制作一个好的智能体通常并不需要编码,只要用人话把智能体的工作流说清楚,再配上专有的知识库,一般就是一个很有价值的智能体了。这比互联网时代制作一个网页还要简单。
未来在医疗、金融、教育、制造、交通、农业等等领域,都会依据自己的场景,自己特有的经验、规则、数据等等,做出各种各样的智能体,将来会有数以百万量级的智能体出现,形成庞大的智能体生态。
图片
“在AI 1.0时代,从风控到搜索、推荐,每个具体任务都训练出一个模型,聚焦同一个任务或领域的具体任务。”漆远认为,“在今天的AI 2.0时代,大模型有更好的泛化能力,可以在很多领域或某一类垂直领域的多项任务中发挥接近或超越人类的能力。我们看到了通用人工智能的火花。”
与AI对话,欣赏与传播AI生成的文本、图片与视频……AI已经为人们的生活带来便利与乐趣。但是“所有的大模型都是‘做梦的机器’,都有幻觉的特点”,漆远坦言,“幻觉和幻想类似,在情感对话和艺术创作里可以发挥作用。但是如果想把大模型作为生产力工具,在科研、医学、金融等领域的核心业务里发挥重要作用,大模型的幻觉就是个大问题,可能会违背基础规律,导致差之毫厘,谬以千里。”“从微观的分子,到宏观的人体表型、到更宏观的气象气候和复杂的经济金融系统,我们需要AI大模型做出精准预测,给出靠谱的答案,甚至发现未知的规律。”
漆远认为,scaling law还有红利,但是基于transformer(注:变压器)自回归架构的大模型不足够走到通用人工智能,无论是从AI技术本身角度还是从能耗的角度而言。未来要把人工智能的逻辑推理为代表的符号主义和深度学习为代表的联结主义结合在一起,融合知识规则、数字世界与物理世界里的数据,去探索与发现世界里的未知规律。
今天的深度学习是对数据的模拟和压缩,擅长对观测数据的概率内插预测,并不擅长对数据之外的外插推演,更不擅长多步的逻辑推演。而爱因斯坦的大脑,作为人类智能一个巅峰体现,结合有限的物理观测数据、自己的“合成数据”和黎曼几何等数学工具,提出狭义和广义相对论,适用于广阔的宇宙。漆远认为实现通用人工智能的最好标志之一就是实现 “AI爱因斯坦”,发现复杂世界的未知规律。 
没有生态的力量,AI很难真正发展起来,更不用说在产业推广应用。
因为AI要蓬勃发展,需要算法、算力、数据等因素的支撑,单独一家企业很难具备这些所有的能力。AI的规模化应用、技术创新迭代、产业可持续发展,这些都离不开高度开放合作的生态体系。AI产业链上的不同企业、机构和个人需要共同协作、相互赋能,才能释放AI技术红利和产业价值,实现经济效益和社会效益的共赢。
施耐德电气商业价值研究院认为,企业对于AI价值的期待正在从单一向立体转变,形成三大显著趋势:首先,从仅重视AI的商业收益,拓展到越来越注重社会环境价值;其次,价值取向从宏观决策到微观个体,更加关注AI如何影响并优化每一位用户的体验;第三,从追求AI带来短期的快速增长,到更重视长期的价值跨越。
“未来通用模型会成为水、电、网络等基础设施一样存在,供业务和应用按需接入。”腾讯集团副总裁蒋杰认为,从行业和应用的角度来看,未来会出现更多不同尺寸、不同模态的模型,业务可以通过大小模型的协同,在提升性能的同时满足定制化需求。
图片
腾讯混元大模型自2023年9月首次亮相以来,经过多次迭代升级,在国内率先采用MoE架构,实现性能大幅提升,模型整体参数量已达到万亿,tokens数量超过7万亿,居国内大模型第一梯队。
目前,腾讯混元大模型已通过腾讯云向企业及个人开发者开放,包含万亿、千亿、百亿等不同参数尺寸,接下来,多种尺寸的腾讯混元MoE模型也将对外开源,可分别支持手机端、PC端、云以及数据中心等多样化的部署场景。
蒋杰表示,大模型行业正经历从单模态到多模态,再到全模态的演进。比如在文生图领域,最近效果比较好的是采用 DiT 架构的模型,它融合了早前主要用于文本生成的Transformer架构,并在图像和视频生成任务中展现出了显著的优势;在文生视频领域,视频生成正朝着更高分辨率、更长时长、更精细的方向发展,一些较好的模型已经能够生成长达数分钟高清的视频,带来了广阔的应用想象空间。
腾讯混元大模型正在积极部署多模态甚至全模态技术,在文生图方面,混元文生图打造了业界首个中文原生DiT架构生图模型效果超开源 Stable Diffusion 模型,发布一个多月Github 点赞数超过两千,是社区内最受欢迎的国产开源文生图模型;在3D生成方面,单图输入仅需30秒即可生成动漫、汽车、建筑等类型的3D模型;在视频生成方面,腾讯混元拥有文生视频、图生视频、图文生视频、视频生视频4大核心能力,支持视频风格化、视频重绘等多样化的产品玩法。
蒋杰认为,场景应用会成为未来大模型的决胜要素。当前大模型的落地主要集中在生产工具和提效方面,距离真正的业务创新还有一定距离,缺少杀手级的应用,不过行业的探索一直没有停下。
除了大模型以外,自动驾驶是人工智能技术落地应用的另一重要领域。
图片
自动驾驶何时会迎来大规模商业化运营?T3出行CEO崔大勇在2024 世界人工智能大会 “长三角协同创新AI新质生产力发展”论坛上预测说,2027年是自动驾驶进入商业化运营的拐点。
一方面,随着人工智能大模型时代到来,自动驾驶技术日益成熟。另一方面,自动驾驶车辆成本降低。“Robotaxi车辆成本在100万元以上时,就没有商业化应用场景。眼下,我们已经看到有企业推出30万元以内的量产车型。这样的车辆批量上市,便能够大规模应用。”崔大勇说。
值得一提的是,相关部门积极推进完善智能网联汽车和自动驾驶相关法律法规制度建设,让自动驾驶商业化应用再提速。其中,五部门已确定20个城市(联合体)为智能网联汽车“车路云一体化”应用试点城市。
从更长远来看,人工智能将大大改变人们出行体验。崔大勇举例称,随着自动驾驶,尤其是全无人驾驶时代的到来,乘客将享有独属于自己的车上空间。比如,乘客可以在车上开电视电话会、玩游戏,或者看视频,这是一个私密的、完全放松的个人空间。
综上,从各方的发言中,不难看出,在大模型的发展范畴下,更加务实的走向场景、应用,找到商业化的路径,已经成为业内的共识,而且会在未来几年时间成为发展的重要路径和方向。