你能听出AI和真人的差别吗?

潮新闻客户端 记者 林婧
这已经不是AI第一次在人类引以为豪的创造力上贴脸开大了。
早前,以“AI孙燕姿”为代表的生成式AI技术出圈,Open AI的JukeBox、谷歌的MusicLM、网易天音等AI音乐类产品也相继发布。不久前,“音乐版ChatGPT”生成式人工智能(AI)音乐制作平台Suno凭借“一键成曲”震撼圈内圈外一众音乐爱好者。如今,人们惊讶地发现,连小众的播客圈都受到了AI冲击。
图片
Suno中文版网站,图源 潮新闻
历经耳蜗的声音不再真实,熟悉的声线背后其实是一串数据和代码,不少听众在感叹科技力量强大的同时,又有种被“欺骗”的失落感。
相较于生动直观的视频和图文,声音是一个独特的传播介质。在不少爱好者看来,声音的交流在感情上比文字更亲近,比视频更具有想象空间。对于具有声音内容强IP属性的播客,AI语音技术可以是提升直播内容的质量、互动性和个性化体验的工具,也能成为篡改事实、违法侵权的低成本“凶器”。
实际上,AI入侵播客圈最早可以追溯到2022年。
当时,一期长达20分钟的播客节目在外网引发热议,音频中,美国知名播客主持人乔·罗根苹果公司已故创始人史蒂夫·乔布斯探讨了乔布斯的大学经历、对计算机的见解和个人信仰等多个话题。
听着有些背后发凉、毛骨悚然?这显然是AI的作品——Podcast.ai通过“学习”乔布斯传记和他生前的语言,再利用 Play.ht 的语言模型大量训练,最终生成了这段播客内容。
图片
Podcast ai播客节目,图源 微博
在近来颇受年轻人欢迎的播客App小宇宙上,播客节目《大俗小雅》曾发布一期完全由AI生成故事情节和语音的播客节目,分享了三位听友小伙伴关于陪伴的故事,获得了超5000次收听。
在发表之初,标题并未标明由AI制作,不少听众指出:这一期听起来好奇怪,说话像读稿子,很机械没有感情。更多的听众则是将节目中AI生成语音中的不自然当成了两位主播“情绪状态不好”,直到主播修改标题后,听众才反应过来“被骗”了。
如果说这是一次AI播客的尝试,那么去年底开始,不少AI播客节目开始入驻播客App,比如Hacker News,利用微软云服务平台Azure旗下TTS(文本转语音)语音库中的一个女性语音角色“晓晓”的声音制作了一期节目后,听众在评论区留言表示“太逼真了”“听书太舒服”“想打赏”。
以往,AI生成人声更为单调机械,“语音语调”不自然,缺乏真人发音的情感表达和断句停顿。但从AI播客实验到AI播客,没有了“实验”的AI语音技术在有声内容创作上的大步向前,用AI生成真人语音的技术已经相当纯熟了。
图片
微软“晓晓”,图源 B站
网友对微软AI语音角色“晓晓”进行实测发现,中文版“晓晓”,支持21种不同的说话风格。用户可以通过设置朗读角色、停顿、朗读规则以及语调语速等“指令”“训练”出符合个人审美和内容需要的语音内容。特别是在“多情感表达”场景演示中,它能够在多种台词之间自如切换情绪,并精准匹配相应的语气和语调,整体表现既自然又流畅。基于以上技术,它完全可以适用于有声书、新闻、AI客户服务以及多情感表达等场景。
AI的时代已经到来,各行各业遭到的冲击不可避免,顺应时代的变化,做出新的尝试,没有对错之分。虽然目前各个播客APP推荐和热播榜单来看,真人主播还是更胜一筹,但谁能保证,播客圈的初音未来不会如雨后春笋般出现呢?
对此有网友认为,听播客,一个很重要的原因就是感受真人声音带来的情感陪伴价值,而AI播客没有真人的味道,没有意思。也有网友认为,不是所有播客都主打陪伴,AI与一些纯念稿的播客效果差不多,使用AI还能方便剪辑提升效率。
图片
图源 视觉中国
值得注意的是,无论使用AI与否,大家讨论的是其法律和伦理问题。近年来,随意复制人声并应用于商业的行为屡见不鲜。不少知名主持人、知名艺人都遭到AI复制,引发社会各界讨论的“AI孙燕姿”如今仍然活跃在各大平台,网友们对于是二创玩梗还是违法侵权的争议也一直争论不休。
近日,北京互联网法院一审开庭宣判一起AI生成声音人格权侵权案,明确认定在具备可识别性的前提下,自然人声音权益的保护范围可及于AI生成声音。
可以说,每一项技术的进步都应该被道德和法律所约束。这一案件的审判,也为新业态、新技术划定应用边界,让AI技术的应用根据规范化。希望在AI这片崭新的蓝海上,人们不是一拥而上的模仿者,而是手握工具的创造者。
“转载请注明出处”