阿里云推出数字人视频生成工具Live Portait,可以让照片开口说话

腾讯科技讯 8月16日,阿里云推出数字人视频生成工具Live Portait,上传一张照片和一段文本或语音即可生成一段开口说话的数字人视频,可应用于视频直播、聊天机器人、企业营销等场景。目前,该工具已在开源模型平台魔搭社区创空间开放体验。
图片
进入Live Portait之后,上传一张图片,有两种驱动方式让图片“动”起来:
第一种:文本驱动方式,输入文字,选择主播声音之后,即可生成视频,提供了普通话、英语、粤语、童声等28种声音。用户也可以选择是否开启唇齿修复、调整眨眼频率的方式,提升视频口型的准确性:
图片
第二种:音频驱动的模式,用户可以上传30s以内的音频文件,Live Portait可以识别音频内容,匹配照片口型,生成视频:
图片
自对话大模型和AI绘画模型相继火热后,业界对生成式AI的研究逐步朝更多模态的方向演进,AI视频生成便是热门技术之一。该技术可将文本或音频等信息转换为面部运动信息,进而驱动生成照片人物形象的动画,降低视频拍摄和制作门槛。
Live Portait工具由运动模块生成模块组成:
其采用阿里云自研的口型预测算法,生成的口型准确度高于传统方法;
在训练阶段,增加了姿态的显式控制,无需底板视频也可以生成任意动作的视频,提升数字人说话的真实感;
此外,通过眼神主动控制技术,Live Portait可以为眼球增加一些自然运动,使得生成结果在观感上更接近真人效果。
该工具算法负责人张邦表示:“ Live Portait集成了团队多项自研创新技术,例如仅需单张图片就能生成逼真的面部动画,突破了传统对抗生成网络的局限。随着技术的进一步迭代,图生视频有巨大的应用空间,有望成为企业降本增效的生产工具。”
据悉,该团队研究方向涵盖数字人、3D模型AI生成、高真实感渲染、自然人机交互等领域,目前已发表50多篇国际顶会论文。
Live Portait并不是第一款让人物照片“开口说话”的工具,国内类似的数字人视频生成平台有腾讯智影小程序“照片播报”功能、来画、AIGC营销平台KreadoAI等,主要可应用于电商、直播带货等场景。
国外也有类似工具,比如最近在短视频平台上出现了不少爆火的“小和尚”IP,他们动辄拥有过百万的粉丝:
图片
这些“小和尚”都是虚拟数字人,通过Midjourney生成小和尚图片,配上GPT生成的文案,最后用国外Studio D-ID工具让图片“动起来”。
Studio D-ID是一款国外数字人生成工具,结合人脸动画技术、GPT-3的文本生成能力和Stable Diffusion的图像生成能力相结合,实现视频生成能力,只需上传人像照片,输入文字,系统将自动将文字转换为语音,并将其与数字人物的嘴型同步,最终生成一段高度逼真的会开口说话的视频。
图片
腾讯新闻创作者AI Talk也采用类似的方式,通过Midjourney生成虚拟图像,配备图片生成视频的工具,并与腾讯科技联合制作了一起关于室温超导对科技革命影响的视频: