+关注

手机看

微信扫一扫，随时随地看

我们究竟需要什么样的大模型？

最话FunTalk

2023-09-04 22:40发布于北京财经领域创作者

+关注

UT OF COMMON

/不写平庸的故事/

文/王芳洁

编辑/刘宇翔

今天，对于绝大部分人来说，大模型就像刚刚按响时代门铃的访客。

并且这样的访客还越来越多，根据赛迪顾问的统计，仅今年1~7月，中国就有64个大模型问世，而截至7月末，国产大模型累计发布数量达到了130个。

这些大模型产品中，相当一部分是通用的底座模型，今年以来，百度、阿里、华为相继发布了自己的大模型产品。

不过，由于大模型的集中发布，在很多人看来，这些站上时代舞台的“选手”，就像横空出世一般，但其实技术能力的构建哪能一朝一夕实现，据了解，过去几年里，各家就已经投入大量的资源，在软硬件层面去构建面向AI 的能力。

早在2019年时，腾讯就已建立四大AI实验室，涵盖AI从全面基础研究到多种应用开发。

2022年4月，腾讯首次对外披露旗下混元大模型的研发进展，该模型是包含但不限于计算机视觉、自然语言处理、多模态内容理解、文案生成、文生视频等多个方向的超大规模AI智能模型。

当年12月，腾讯推出了万亿中文NLP预训练模型HunYuan-NLP-1T，是目前国内首个低成本、可落地的NLP万亿大模型，且登顶自然语言理解任务榜单CLUE。

及至2023年，各家厂商都加快了大模型产业的推进速度。据了解，在9月7~8日的2023腾讯全球数字生态大会上，腾讯也将发布人工智能领域的最新进展。

这场竞赛终于迎来了最重量选手。我们究竟需要什么样的大模型？它们又将发挥哪些作用？

这波大模型浪潮里，玩家很多，但很多并不具备从底层开始搭建大模型的能力。因为它们面临着缺少算法积累、计算资源，训练数据差，配置成本高以及缺乏对产业的理解和智能化经验等各个问题。这些需要深厚的积累，很难一蹴而就。

而腾讯的优势在于，一方面拥有打造有竞争力产品的经验，具备丰富的应用场景；另一方面云基础设施的加持也能够提升训练的效率。

2023年4月，腾讯云发布新一代HCC高性能计算集群，采用最新一代星星海自研服务器，基于自研网络、存储架构，集群算力性能较前代提升3倍。

一个大模型好不好，除了底层算力之外，数据和网络也构成了基础设施的“铁三角“。

就数据网络而言，传统的低速网络无论是带宽还是网络协议，越来越难以应对千亿甚至万亿参数大模型训练所需要的大带宽、高利用率以及零丢包。

日前，腾讯推出的高性能网络星脉，具备业界最高的3.2T通信带宽，为AI大模型带来10倍通信性能提升。基于腾讯云新一代算力集群HCC，可支持10万卡GPU的超大计算规模。

据了解，星脉网络采用东西向、南北向流量分离架构，以满足多租户、虚拟化和高性能存储访问需求。

与此同时， 2023 年 7 月，腾讯推出了向量数据库Tencent Cloud VectorDB。该数据库能够被广泛应用于大模型的训练、推理和知识库补充等场景，是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库。

据了解，该数据库面向大模型训练，可以让企业原先花一个月时间才能完成的大模型接入，缩短到三天时间。目前已经在腾讯内部近40个业务线上稳定运行，日均处理的搜索请求高达千亿次。

5月17日一季度财报会上，腾讯高管表示，混元大模型“进展很不错”。

综合公开信息，混元大模型支持文字输入、语音输入，在内容创作方面，可以生成文案、短视频脚本、社群营销文字、朋友圈文案等，并支持赛博朋克、像素插画、马赛克等风格的AIGC（人工智能生成内容）绘画生成。

在办公领域，可以辅助写邮件、面试大纲、PPT大纲、调研问卷等；在产业领域，可以进行代码生成、代码解释、SQL（结构化查询语言）语句生成等；在生活场景里，可以制定旅行计划、健身方案或者美食指南等。

企业在营销、办公、编程、制定计划、客服等方面上都能应用到混元大模型。当然，作为底座大模型，还有更多的能力、场景应用，有待在腾讯数字生态大会上最终揭晓。

目前可以确定的是，混元大模型已经到了应用测试阶段。腾讯云、腾讯广告、腾讯游戏、腾讯金融科技、腾讯会议、腾讯文档、微信搜一搜、QQ浏览器等多个腾讯内部业务和产品，都已经接入腾讯混元大模型测试并取得初步效果，更多业务和应用也在逐步接入中。

当然，头部大模型厂商的能力最终还是要向外输出，因为全社会对AI的需求是普遍，产业层面的需求具有一定的普适性，现在比较成熟的解决方案是，各家头部大模型厂商都会在自己的通用大模型底座之上，开发行业大模型，并提供精调工具，帮助企业实现自己的专属模型。

那么，企业又需要什么样的大模型呢？

7月，在一次与《最话》等机构的交流当中，腾讯云副总裁吴运声表示，大模型厂商需要专注于落地实际问题，在每个特定场景里100%的解决客户问题，而不是找到100个产品，帮它们解决百分之七八十的问题。

根据以上逻辑，大模型厂商需要提供的并不是一个浅尝辄止的工具，而是一套标准化的流程支持，包括基础大模型、完整的工具链、丰富的应用，以及有专家支持的服务。

这就需要大模型厂商具备两种能力，第一是底座层和工具层的技术竞争力，第二则是生态开放的能力。

客观而言，行业大模型的基础是场景化，和企业数字化产业一样，企业智能化同样要基于特定场景进行开发，但大模型厂商很难对千行百业都具备深刻的认知，这就需要在提供底座模型的基础上，以共创共建的方式，去建立和封装行业大模型解决方案。

正如腾讯集团高级执行副总裁、云与智慧产业事业群CEO汤道生所言，生态共建才是AI发展的有效路径。

据了解，目前腾讯云已经携手央视总台、福建大数据集团等10余个行业的头部企业，在大模型行业应用方面共创50多个行业解决方案，在智能客服、OCR、跨模态检索等领域有广泛实践。

同时，腾讯云TI平台已经上架20+主流模型，支持企业与开发者一键调用，并实现全程低代码操作，是国内首批支持开源模型的大模型厂商。

此外，在9月7日腾讯全球数字生态大会中，行业大模型及智能应用专场也将分享腾讯云MaaS行业大模型精调解决方案及多款智能应用升级，并联合中国信息通信研究院共同发布《行业大模型标准体系及能力架构研究报告》。

需要注意到的是，各行业的需求并不相同，一些对AI能力要求不高的企业，可以直接调用大模型的能力，而一些要求特别复杂的企业，又需要专属大模型，更有一些大模型创业企业，他们需要在底层基础设施上借助头部厂商的力量。

这些企业虽然承风口而建，但从出生的第一天起，几乎就要面临算力和工程能力的挑战。尤其当它们的规模变大时，这种挑战就会变得更大。

2022年6月，MiniMax自研文本大模型MiniMax-ABAB（“阿巴阿巴”）快速迭代到第二个版本，随着参数规模增长、海量数据涌入，彼时的计算资源捉襟见肘。MiniMax找到了腾讯云团队，借助「HCC高性能计算集群」，并以云原生的方式顺利完成流量算力底座升级。

“基础设施的问题要说完全靠自己，可能也能解决，但一定不是最有性价比的方案。 “MiniMax业务副总裁魏伟说。

未来的大模型产业一定会走向结构化，头部厂商不仅要向社会输出通用大模型能力，更会将其进一步结构化，提供从云到算力、网络以及数据能力的一系列服务，并基于底层能力，向上延伸，形成通用大模型-行业大模型-专属大模型的一系列解决方案。

如果说场景多、用户量大的toC产品让腾讯拥有通用大模型用户端需求的理解，那么多年在产业互联网上的探索，也使得腾讯更理解了产业的需求。两者合二为一，让客户运用通用大模型去解决用户的需求，实现了正向闭环。

9月7日，腾讯即将揭晓它的积累，敲开那扇时代机遇之门。

免责声明：本内容来自腾讯平台创作者，不代表腾讯新闻或腾讯网的观点和立场。