Synthesia将推出超逼真AI化身，不仅拥有完整身体，且能从多个角度拍摄

DeepTech深科技

2024-06-25 16:28发布于北京DeepTech深科技官方账号

全文1640字，阅读约需5分钟，帮我划重点

划重点

01初创公司Synthesia将推出更逼真的AI化身，具备完整身体和手势。

02新的全身虚拟化身将能在跳舞时唱歌、挥舞麦克风，或从桌子后面走出来穿过房间。

03CEO维克多·里帕贝利表示，新化身将表达更复杂的情绪，如兴奋、恐惧或紧张。

04除此之外，Synthesia计划2024年底推出新的虚拟化身，具有更先进的面部和声音识别技术。

05目前，用户只需在Synthesia办公室用数码相机、翻领麦克风和笔记本电脑录制10分钟即可创建自己的个性化化身。

由腾讯混元大模型提供技术支持

初创公司 Synthesia 的人工智能虚拟化身即将迎来大更新，它将变得更加逼真，而且很快就会有可以活动的身体和可以做手势的手。

新的全身虚拟化身将能够在跳舞时唱歌和挥舞麦克风，或者从桌子后面走出来，穿过房间。

该公司的 CEO 维克多·里帕贝利（Victor Riparbelli）表示，他们将能够表达比以前更复杂的情绪，如兴奋、恐惧或紧张。Synthesia 打算在 2024 年底推出新的化身。

（来源：COURTESY OF SYNTHESIA）

英国巴斯大学的研究员杰克·桑德斯（Jack Saunders）没有参与 Synthesia 的工作，他说：“这非常令人印象深刻，还没有其他人能够做到这一点。”

他说，他自己的全身形象（预览版）非常棒，尽管有时会出现一些小错误，比如双手互相“交叉”。但桑德斯说：“你可能不会那么仔细地观察它。”

Synthesia 于 2024 年 4 月推出了其第一个超现实人工智能虚拟化身版本，我们也可以称之为深度伪造（deepfakes）。这些虚拟化身使用大型语言模型将表情和语调与口述文本的情感相匹配。

在图像和视频生成人工智能系统中使用的扩散模型可以创建虚拟化身的外观。然而，第一代化身只有上半身，这可能会削弱原本令人印象深刻的真实感。

为了创建全身化身，Synthesia 正在构建一个更大的人工智能模型。用户将不得不去它们的工作室来记录肢体动作。

但在这些全身化身出现之前，该公司即将推出另一个版本的人工智能化身。这些化身有手，可以从多个角度拍摄。它们的上一个版本只能在人像模式下使用，而且只能从正面看到。

其它初创公司如 Hour One 也推出了类似的有手的虚拟化身。我在一次研究预览中测试了 Synthesia 的版本。它将于 2024 年 7 月底推出，具备稍显逼真的手势和嘴唇同步能力。

至关重要的是，即将到来的更新还使创建自己的个性化化身变得更加容易。

正如我在 2024 年 4 月份报道的那样，该公司以前的定制人工智能化身要求用户前往工作室，在几个小时内记录他们的面部和声音。

这一次，我用数码相机、翻领麦克风和笔记本电脑，在 Synthesia 办公室只用了 10 分钟就录制了所需的全部材料。如果你想的话，甚至只需要有一个笔记本电脑摄像头就足够了。

以前我必须分开记录面部动作和声音，但这次数据是同时收集的。整个过程还包括阅读一份同意以这种方式录制的脚本，以及读出随机生成的安全密码。

里帕贝利说，这些变化允许更大规模的录制，而且驱动虚拟化身的人工智能模型将以更少的数据提供更多的功能。

拿到结果的过程也快得多。上次我等了几周才拿到工作室制作的虚拟化身，但这次新的自制化身在第二天就完成了。

你可以看到我如何用手测试自制的新化身。

Synthesia 的企业事务和政策主管亚历山德鲁·沃伊卡（Alexandru Voica）表示，自制的虚拟化身暂时还不如工作室制作的那样富有表现力，用户也无法更改化身的背景。

它们的手部使用先进的循环技术制作动画，该技术以响应脚本内容的方式重复相同的手部动作。

Synthesia 的科学总监维托里奥·法拉利（Vittorio Ferrari）在 2024 年 3 月份告诉我，手对于人工智能来说是很难做好的，甚至比脸更难。

这是因为当我们说话时，我们的嘴以相对较小且可预测的方式活动，这使得深度伪造化身的嘴部更容易与语音同步，但我们的手能够以许多不同的方式活动。

法拉利说，另一方面，人脸需要密切关注细节，因为我们倾向于格外关注它们，但手的细节可能不需要那么精准。

即使它们不完美，人工智能生成的手和身体也会带来“现实主义幻觉”。在深度伪造和网络错误信息激增之际，这会带来严重的风险。

Synthesia 有严格的内容审核政策，会仔细审查其客户和他们能够生成的内容类型。例如，只有经过认证的新闻媒体才能生成新闻内容。

桑德斯说，化身技术的这些新进步是对网络事物可信度的又一次沉重打击。

“人们需要知道，他们不能再轻易相信任何事情。”他说，“Synthesia 现在已经做到了这个地步，再过一年会变得更好，而且其他公司早晚也会做到这样。”

作者简介：梅丽莎·海基莱（Melissa Heikkilä）是《麻省理工科技评论》的资深记者，她着重报道人工智能及其如何改变我们的社会。此前，她曾在 POLITICO 撰写有关人工智能政策和政治的文章。她还曾在《经济学人》工作，并曾担任新闻主播。

支持：Ren

运营/排版：何晨龙

查看原图 210K