你能听出AI和真人的差别吗？

潮新闻

2024-04-28 17:49发布于浙江潮新闻官方账号

潮新闻客户端记者林婧

这已经不是AI第一次在人类引以为豪的创造力上贴脸开大了。

早前，以“AI孙燕姿”为代表的生成式AI技术出圈，Open AI的JukeBox、谷歌的MusicLM、网易天音等AI音乐类产品也相继发布。不久前，“音乐版ChatGPT”生成式人工智能（AI）音乐制作平台Suno凭借“一键成曲”震撼圈内圈外一众音乐爱好者。如今，人们惊讶地发现，连小众的播客圈都受到了AI冲击。

Suno中文版网站，图源潮新闻

历经耳蜗的声音不再真实，熟悉的声线背后其实是一串数据和代码，不少听众在感叹科技力量强大的同时，又有种被“欺骗”的失落感。

相较于生动直观的视频和图文，声音是一个独特的传播介质。在不少爱好者看来，声音的交流在感情上比文字更亲近，比视频更具有想象空间。对于具有声音内容强IP属性的播客，AI语音技术可以是提升直播内容的质量、互动性和个性化体验的工具，也能成为篡改事实、违法侵权的低成本“凶器”。

实际上，AI入侵播客圈最早可以追溯到2022年。

当时，一期长达20分钟的播客节目在外网引发热议，音频中，美国知名播客主持人乔·罗根苹果公司已故创始人史蒂夫·乔布斯探讨了乔布斯的大学经历、对计算机的见解和个人信仰等多个话题。

听着有些背后发凉、毛骨悚然？这显然是AI的作品——Podcast.ai通过“学习”乔布斯传记和他生前的语言，再利用 Play.ht 的语言模型大量训练，最终生成了这段播客内容。

Podcast ai播客节目，图源微博

在近来颇受年轻人欢迎的播客App小宇宙上，播客节目《大俗小雅》曾发布一期完全由AI生成故事情节和语音的播客节目，分享了三位听友小伙伴关于陪伴的故事，获得了超5000次收听。

在发表之初，标题并未标明由AI制作，不少听众指出：这一期听起来好奇怪，说话像读稿子，很机械没有感情。更多的听众则是将节目中AI生成语音中的不自然当成了两位主播“情绪状态不好”，直到主播修改标题后，听众才反应过来“被骗”了。

如果说这是一次AI播客的尝试，那么去年底开始，不少AI播客节目开始入驻播客App，比如Hacker News，利用微软云服务平台Azure旗下TTS（文本转语音）语音库中的一个女性语音角色“晓晓”的声音制作了一期节目后，听众在评论区留言表示“太逼真了”“听书太舒服”“想打赏”。

以往，AI生成人声更为单调机械，“语音语调”不自然，缺乏真人发音的情感表达和断句停顿。但从AI播客实验到AI播客，没有了“实验”的AI语音技术在有声内容创作上的大步向前，用AI生成真人语音的技术已经相当纯熟了。

微软“晓晓”，图源 B站

网友对微软AI语音角色“晓晓”进行实测发现，中文版“晓晓”，支持21种不同的说话风格。用户可以通过设置朗读角色、停顿、朗读规则以及语调语速等“指令”“训练”出符合个人审美和内容需要的语音内容。特别是在“多情感表达”场景演示中，它能够在多种台词之间自如切换情绪，并精准匹配相应的语气和语调，整体表现既自然又流畅。基于以上技术，它完全可以适用于有声书、新闻、AI客户服务以及多情感表达等场景。

AI的时代已经到来，各行各业遭到的冲击不可避免，顺应时代的变化，做出新的尝试，没有对错之分。虽然目前各个播客APP推荐和热播榜单来看，真人主播还是更胜一筹，但谁能保证，播客圈的初音未来不会如雨后春笋般出现呢？

对此有网友认为，听播客，一个很重要的原因就是感受真人声音带来的情感陪伴价值，而AI播客没有真人的味道，没有意思。也有网友认为，不是所有播客都主打陪伴，AI与一些纯念稿的播客效果差不多，使用AI还能方便剪辑提升效率。

图源视觉中国

值得注意的是，无论使用AI与否，大家讨论的是其法律和伦理问题。近年来，随意复制人声并应用于商业的行为屡见不鲜。不少知名主持人、知名艺人都遭到AI复制，引发社会各界讨论的“AI孙燕姿”如今仍然活跃在各大平台，网友们对于是二创玩梗还是违法侵权的争议也一直争论不休。

近日，北京互联网法院一审开庭宣判一起AI生成声音人格权侵权案，明确认定在具备可识别性的前提下，自然人声音权益的保护范围可及于AI生成声音。

可以说，每一项技术的进步都应该被道德和法律所约束。这一案件的审判，也为新业态、新技术划定应用边界，让AI技术的应用根据规范化。希望在AI这片崭新的蓝海上，人们不是一拥而上的模仿者，而是手握工具的创造者。

“转载请注明出处”

查看原图 100K