我们究竟需要什么样的大模型?

UT OF COMMON
/不写平庸的故事/
图片
/王芳洁
编辑/刘宇翔
今天,对于绝大部分人来说,大模型就像刚刚按响时代门铃的访客。
并且这样的访客还越来越多,根据赛迪顾问的统计,仅今年1~7月,中国就有64个大模型问世,而截至7月末,国产大模型累计发布数量达到了130个。
这些大模型产品中,相当一部分是通用的底座模型,今年以来,百度、阿里、华为相继发布了自己的大模型产品。
不过,由于大模型的集中发布,在很多人看来,这些站上时代舞台的“选手”,就像横空出世一般,但其实技术能力的构建哪能一朝一夕实现,据了解,过去几年里,各家就已经投入大量的资源,在软硬件层面去构建面向AI 的能力。
早在2019年时,腾讯就已建立四大AI实验室,涵盖AI从全面基础研究到多种应用开发。
2022年4月,腾讯首次对外披露旗下混元大模型的研发进展,该模型是包含但不限于计算机视觉、自然语言处理、多模态内容理解、文案生成、文生视频等多个方向的超大规模AI智能模型。
当年12月,腾讯推出了万亿中文NLP预训练模型HunYuan-NLP-1T,是目前国内首个低成本、可落地的NLP万亿大模型,且登顶自然语言理解任务榜单CLUE。
及至2023年,各家厂商都加快了大模型产业的推进速度。据了解,在9月7~8日的2023腾讯全球数字生态大会上,腾讯也将发布人工智能领域的最新进展。
这场竞赛终于迎来了最重量选手。我们究竟需要什么样的大模型?它们又将发挥哪些作用?
01
这波大模型浪潮里,玩家很多,但很多并不具备从底层开始搭建大模型的能力。因为它们面临着缺少算法积累、计算资源,训练数据差,配置成本高以及缺乏对产业的理解和智能化经验等各个问题。这些需要深厚的积累,很难一蹴而就。
而腾讯的优势在于,一方面拥有打造有竞争力产品的经验,具备丰富的应用场景;另一方面云基础设施的加持也能够提升训练的效率。
2023年4月,腾讯云发布新一代HCC高性能计算集群,采用最新一代星星海自研服务器,基于自研网络、存储架构,集群算力性能较前代提升3倍。
一个大模型好不好,除了底层算力之外,数据和网络也构成了基础设施的“铁三角“。
就数据网络而言,传统的低速网络无论是带宽还是网络协议,越来越难以应对千亿甚至万亿参数大模型训练所需要的大带宽、高利用率以及零丢包。
日前,腾讯推出的高性能网络星脉,具备业界最高的3.2T通信带宽,为AI大模型带来10倍通信性能提升。基于腾讯云新一代算力集群HCC,可支持10万卡GPU的超大计算规模。
据了解,星脉网络采用东西向、南北向流量分离架构,以满足多租户、虚拟化和高性能存储访问需求。
与此同时, 2023 年 7 月,腾讯推出了向量数据库Tencent Cloud VectorDB。该数据库能够被广泛应用于大模型的训练、推理和知识库补充等场景,是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库。
据了解,该数据库面向大模型训练,可以让企业原先花一个月时间才能完成的大模型接入,缩短到三天时间。目前已经在腾讯内部近40个业务线上稳定运行,日均处理的搜索请求高达千亿次。
02
5月17日一季度财报会上,腾讯高管表示,混元大模型“进展很不错”。
综合公开信息,混元大模型支持文字输入、语音输入,在内容创作方面,可以生成文案、短视频脚本、社群营销文字、朋友圈文案等,并支持赛博朋克、像素插画、马赛克等风格的AIGC(人工智能生成内容)绘画生成。
在办公领域,可以辅助写邮件、面试大纲、PPT大纲、调研问卷等;在产业领域,可以进行代码生成、代码解释、SQL(结构化查询语言)语句生成等;在生活场景里,可以制定旅行计划、健身方案或者美食指南等。
企业在营销、办公、编程、制定计划、客服等方面上都能应用到混元大模型。当然,作为底座大模型,还有更多的能力、场景应用,有待在腾讯数字生态大会上最终揭晓。
目前可以确定的是,混元大模型已经到了应用测试阶段。腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等多个腾讯内部业务和产品,都已经接入腾讯混元大模型测试并取得初步效果,更多业务和应用也在逐步接入中。
03
当然,头部大模型厂商的能力最终还是要向外输出,因为全社会对AI的需求是普遍,产业层面的需求具有一定的普适性,现在比较成熟的解决方案是,各家头部大模型厂商都会在自己的通用大模型底座之上,开发行业大模型,并提供精调工具,帮助企业实现自己的专属模型。
那么,企业又需要什么样的大模型呢?
7月,在一次与《最话》等机构的交流当中,腾讯云副总裁吴运声表示,大模型厂商需要专注于落地实际问题,在每个特定场景里100%的解决客户问题,而不是找到100个产品,帮它们解决百分之七八十的问题。
根据以上逻辑,大模型厂商需要提供的并不是一个浅尝辄止的工具,而是一套标准化的流程支持,包括基础大模型、完整的工具链、丰富的应用,以及有专家支持的服务。
这就需要大模型厂商具备两种能力,第一是底座层和工具层的技术竞争力,第二则是生态开放的能力。
客观而言,行业大模型的基础是场景化,和企业数字化产业一样,企业智能化同样要基于特定场景进行开发,但大模型厂商很难对千行百业都具备深刻的认知,这就需要在提供底座模型的基础上,以共创共建的方式,去建立和封装行业大模型解决方案。
正如腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生所言,生态共建才是AI发展的有效路径。
据了解,目前腾讯云已经携手央视总台、福建大数据集团等10余个行业的头部企业,在大模型行业应用方面共创50多个行业解决方案,在智能客服、OCR、跨模态检索等领域有广泛实践。
同时,腾讯云TI平台已经上架20+主流模型,支持企业与开发者一键调用,并实现全程低代码操作,是国内首批支持开源模型的大模型厂商。
此外,在9月7日腾讯全球数字生态大会中,行业大模型及智能应用专场也将分享腾讯云MaaS行业大模型精调解决方案及多款智能应用升级,并联合中国信息通信研究院共同发布《行业大模型标准体系及能力架构研究报告》。
需要注意到的是,各行业的需求并不相同,一些对AI能力要求不高的企业,可以直接调用大模型的能力,而一些要求特别复杂的企业,又需要专属大模型,更有一些大模型创业企业,他们需要在底层基础设施上借助头部厂商的力量。
这些企业虽然承风口而建,但从出生的第一天起,几乎就要面临算力和工程能力的挑战。尤其当它们的规模变大时,这种挑战就会变得更大。
2022年6月,MiniMax自研文本大模型MiniMax-ABAB(“阿巴阿巴”)快速迭代到第二个版本,随着参数规模增长、海量数据涌入,彼时的计算资源捉襟见肘。MiniMax找到了腾讯云团队,借助「HCC高性能计算集群」,并以云原生的方式顺利完成流量算力底座升级。
“基础设施的问题要说完全靠自己,可能也能解决,但一定不是最有性价比的方案。 “MiniMax业务副总裁魏伟说。
未来的大模型产业一定会走向结构化,头部厂商不仅要向社会输出通用大模型能力,更会将其进一步结构化,提供从云到算力、网络以及数据能力的一系列服务,并基于底层能力,向上延伸,形成通用大模型-行业大模型-专属大模型的一系列解决方案。
如果说场景多、用户量大的toC产品让腾讯拥有通用大模型用户端需求的理解,那么多年在产业互联网上的探索,也使得腾讯更理解了产业的需求。两者合二为一,让客户运用通用大模型去解决用户的需求,实现了正向闭环。
9月7日,腾讯即将揭晓它的积累,敲开那扇时代机遇之门。