音频大模型领跑背后,喜马拉雅以AI为笔,写“无用之诗”

图片

作者|冰拿铁

编辑|星奈

媒体|AI大模型工场

2024年9月11日,是评书大师单田芳逝世六周年。此前,曾有单迷感慨“白眉大侠成绝唱,世间再无单田芳”,而如今,对无数单粉来说,对单老的纪念方式之一,就是在喜马拉雅“单田芳声音再现”频道下,听AI技术复刻下,高度还原单老声音加持的评书作品。

“那个苍劲沙哑、抑扬顿挫,带点沧桑又带点亲切东北口音的声音一出现,我眼泪都快下来了,一瞬间我感觉单老先生又回来了,那是一种重逢故人的感觉。”有单田芳粉丝如是说。而此前,单田芳先生之子单瑞林也曾感慨:“听到TTS(语音合成技术)还原的声音,心魂间猛然一震,仿佛父亲又回到这个世界。”

这背后,则是喜马拉雅“AI黑科技”在音频领域的应用,让无数不可能变成了可能。而在2024云栖大会上,此前惊艳无数“声控”的黑科技们系数亮相,让观众一探究竟:

9月19日,汇集众多AI硬科技的2024云栖大会在杭州云栖小镇开幕,此次大会以“云启智跃,产业蝶变”为主题,众多前沿技术企业展示AI时代云上创新的潮流科技。其中,喜马拉雅珠峰AI音频多模态大模型亮相云栖大会,展示了该模型强大功能、应用场景及商业化案例,在“人工智能+”主题馆吸引众多观众驻足围观体验。

图片

在“珠峰AI数智人平台互动体验区”,用户沉浸式体验AI为声音创作带来的变革,比如极速体验全领域多品类535种AI音色库生成全品类AIGC音频内容、15秒真人数智人形象快速定制、10秒声音极速克隆(不单音色克隆,更包含韵律、腔调、口吻等“语流”信息)等等,感受AI高效便捷地赋能内容创作者。

不止如此,在勇攀科技高峰的同时,喜马拉雅同样厚植人文土壤,做到了科技和人文的“两手都要抓,两手都要硬”。如在喜马拉雅的“无用学·SVIP”精品课程里,以142门典藏大师课,汇集蒋勋、戴锦华、梁文道等学者、名师,讲文史哲的“无用之用”,在快节奏的当代社会,为用户带来精神滋养。

借力者宏,借智者明,借势者成。如今,在高速发展、变革的数智时代,喜马拉雅交出了一份“向AI借力”与“向贤者借智”的样本,以“两条腿走路”稳健致远。

一、大模型浪潮下的音视频变革:头部厂商立足“应用试炼场”

从2022年末,GPT横空出世,让生成式AI迎来“iPhone时刻”,到2024年2月OpenAl Sora发布演示视频开启文生视频时代,再到7月底GTP-4o的高级语音功能面世,使得Al 情绪价值提供能力max,能够理解用户声音中的情感、语调……时代车轮滚滚向前,“所有的行业、软件及服务都值得基于AI重做一遍”已经成为共识。

而“近水楼台先得月”的音视频产业无疑是爆改的一线阵地:语音识别技术(ASR)、自然语言处理(NLP)、语音合成技术(TTS)等技术皆成为变革的重要燃油。正如国泰君安证券指出,大模型发展呈现“开源、轻量、端侧”化特征,并在视频与语音等领域加速落地。

在当下,音、视频大模型已成为推动多媒体内容创作、处理、传播的重要力量,在技术及应用落地等领域取得了种种突破。

技术上,头部厂商持续引领变革。文生视频大模型领域,Sora开头后,国内外厂商纷纷跟进,在我国,有广大用户及数据积淀的快手等厂商走在时代前列,发布了快速商业化的快手可灵,此外,智谱等科技独角兽企业也发布了相应产品;音频大模型领域同样异曲同工,是喜马拉雅等背靠“应用试炼场”的玩家在掀起技术变革浪潮,引领音频行业AIGC从第三代向第四代音频生成大模型的演化发展:

据悉,喜马拉雅音频大模型是全球首个第四代多情感演绎、超自然表达的音频生成大模型。喜马拉雅珠峰AI研发团队对训练好的模型进行评估,在长音频内容如有声小说的场景下,角色演绎风格的可控性、音素表现的稳定性、语流韵律停顿等的自然度上显著高于国内外第三代音频生成模型。

基于喜马拉雅音频大模型,可生成一系列情感丰富的有声书作品:

《我的阿勒泰》有声书作品-单人(音频可在文章结尾链接收听)

有声书作品-多人声音(音频可在文章结尾链接收听)

除此之外,喜马拉雅音频大模型,还擅长进行超拟人、副语言可控的语音生成,做到媲美真人的真实对话风格语音生成:

超拟人猫咪声(音频可在文章结尾链接收听)

自然女声(音频可在文章结尾链接收听)

自然男声(音频可在文章结尾链接收听)

只需要使用15s以内音频,即可快速克隆音色,超低成本个性化音色制作,可同时进行个性化音频内容生成和变声:

音频prompt:

原声(音频可在文章结尾链接收听)

文生音克隆:

文生音克隆声音(音频可在文章结尾链接收听)

不仅如此,喜马拉雅音频大模型还支持跨语种的声音合成,如单老的中英混读:

单老中英混读(音频可在文章结尾链接收听)

此外,方言的合成也不在话下:

方言合生声音(音频可在文章结尾链接收听)

并且还能生成一些特色音,如助眠音的合成:

助眠(音频可在文章结尾链接收听)

结合喜马拉雅音频大模型的快速声音克隆能力,叠加珠峰AI团队自研的单图驱动口唇技术,使用一张图和一段声音,可快速生成趣味配音视频,具备高自然度的语音和口唇对齐效果:

这背后,是喜马拉雅音频模型是珠峰AI团队基于自研文本音频联合建模的LLM框架,在同一空间向量表征下实现音频与文本的联合建模训练。这种联合建模的方法充分赋予了音频生成任务以强大的语义信息,并充分利用它们之间的内在联系和互补信息,大幅度提高模型的性能和泛化能力,这也是第四代音频大模型超越上一代的核心技术突破。

图片

在训练过程中,喜马拉雅珠峰AI首先将音频数据和文本数据分别进行预处理,将它们转化为适合模型输入的 token 形式,并将音频 token 和文本 token 映射到同一空间向量表征中,使得模型能够更好地理解和处理音频和文本之间的关系。

图片

在2024年9月9日上海网信办发布的最新一批上海市生成式大模型备案通过名单中,喜马拉雅音频大模型成为全国首个通过网信办生成式人工智能服务的音频生成类大模型,将会引领整个音频行业AIGC从第三代音频生成模型向第四代音频生成大模型的演化发展。

图片

为什么快手可灵、喜马拉雅得以引领技术变革浪潮?事实上,大模型训练过程中,优质数据是重要燃料,这些拥有广泛用户群的厂商在数据上有天然优势。如喜马拉雅拥有中国最全面的音频内容生态,其中包括体量最大的音频内容库及数量最多的音频内容创作者。截至2023年12月,喜马拉雅拥有约4.9亿条音频内容,总内容时长为36亿分钟。

这让喜马拉雅得以充分“数据掘金”,轻松获取海量且多样化的在线音频内容以不断演进其AI能力,构建AI时代的技术护城河。

基于坚实的技术优势,喜马拉雅立足用户需求,跑出一条“产模协同”路线,为音频产业打开全新的增量空间。

二、产模结合、持续进化:喜马拉雅音频大模型领跑

喜马拉雅从成立之初就十分重视技术投入,将AI技术突破作为平台发展和演变的主要驱动力,如今已形成“产模一体生态系统、持续进化的生态飞轮”的模型优势,并广泛应用于内容创作、数智分身、语音交互等场景。

锚定用户需求,喜马拉雅成立珠峰实验室,并自主研发AI音频生成大模型“珠峰AI音频多模态大模型”,依托其超百万小时的自有版权音频数据进行深度学习与训练,具备情感输出、自然表达、语种互译、极速克隆等技术能力,并在音频生成领域实现了多维度突破,正广泛应用于有声书等领域。

这也让用户切实感受到了黑科技带来的冲击,享受到“技术福利”:如为了还原单田芳独特的“云遮月”嗓音和评书风格,喜马拉雅智能语音实验室利用 TTS 技术将单田芳的声音解码,并为其设计了单独的韵律提取模块,最并结合HITTS 技术框架,让单田芳的 AI 合成音达到“超拟真”境界,让更多单迷“如见故人”,回到有单老陪伴的岁月。

目前,喜马拉雅建立了包含535种合成声音组成的音色库。此外,喜马拉雅还推出了专有的一站式AI音频制作工具“音剪”,缩短了创作者的后期制作时间、提升创作效率。

AI正在深刻赋能和影响着喜马拉雅的发展,赋能用户增长,提升用户体验:数据显示,2023年喜马拉雅全场景平均月活跃用户达3.03亿。截至2023年12月,喜马拉雅平台AIGC内容达2.4亿分钟,占其音频内容的6.6%。同时,喜马拉雅移动端平均月活跃用户的AIGC渗透率已达14.8%。

喜马拉雅领跑AI音频赛道且“不忘初心”、切实优化用户体验的关键,正在与应用土壤上长出的“产模一体”路径,即将产品开发与模型训练优化紧密结合,形成一个闭环的生态系统。如喜马拉雅敏锐捕捉到了单迷对单老先生声音的怀念,才交出了“念念不忘必有回响”的技术答卷。

在这个系统中,产品的需求直接驱动模型的迭代与优化,而模型的升级又反过来提升产品的功能与体验,两者相辅相成,共同进化。这种模式打破了传统意义上市场与模型研发之间的界限,实现了从需求洞察到模型优化再到市场反馈的正向循环,真正实现“市场有所呼,技术有所应”。

基于此,喜马拉雅音频大模型已实现商业化,并交出了一份“有用”和“无用”平衡的时代答卷。

三、左手“AI致用”,右手“无用之用”:喜马拉雅的双剑合璧

在当下,喜马拉雅音频大模型在广告领域拥有广泛的应用场景,通过AIGC原生声音流,实现“广告即内容”,如喜马拉雅联合贵州茅台推出“单田芳AI声音重现”春运公益活动,联合慕思共同打造的“邀李白共启AI穿越之旅”活动等等。基于大模型,未来喜马拉雅的AI能力将在智能化广告营销中发挥更突出的作用。

再比如,蓬勃发展中的物联网及车载场景正在线音频时代的繁荣发展带来巨大的机遇和无限的可能性,基于此,喜马拉雅致力于汽车品牌的跨界合作,围绕五菱汽车创新自研 LingOS 灵犀系统特性,使用生成式 AI 适配系统,为车主量身定制喜马拉雅五菱专属电台,以数智力打开商业前景的更多想象空间。

在以AI技术扩张商业版图、攻城略地的同时,喜马拉雅从未忘记内容初心,而是以AI战力加持内容底座,实现好内容和好技术的“双剑合璧”、两条腿走路。如今年“818宝藏会员节”期间,喜马拉雅升级“无用学·SVIP”,以“探寻人生意义,守住内心安定”为题眼,为用户打造“精神旷野”。

这二者并不矛盾,是喜马拉雅“以出世精神积极入世”的具体体现:正如朱光潜在《谈美》中指出,人要有出世的精神才可以做入世的事业:

“我以为无论是讲学问或是做事业的人都要抱有一副'无所为而为'的精神,把自己所做的学问事业当作一件艺术品看待,才可以有一番真正的成就。伟大的事业都出于宏远的眼界和豁达的胸襟。”

既有仰望星空的一面,又能脚踏实地,拥抱前沿技术,才让喜马拉雅成为赛道领头羊,与用户精神共鸣,与时代同频共振。如今,一手是“AI致用”的技术战力,一手是“无用之用”的精神高地,喜马拉雅再次交出时代答卷。

文中音频链接:https://mp.weixin.qq.com/s/2KoatYjWi01xjbbXhsjkUA