“聚力维度”要以最简单的方式生产影像级数字人|虚实之间

图片
聚力维度的智能化生产流程共有五个步骤:真人扫描、智能建模、智能绑定、智能渲染,驱动适配。具备影视和AI双重基因的聚力团队认为,AI可以从根本上解决数字化内容制作问题,数字人也有更广泛的应用场景。
作者|黄泽正
修订|肖 超
这是新声Pro「虚实之间」系列文章第11篇
什么样的数字人是真正有价值的?
图片
数字人自带科技属性,是全新的内容载体,在形象开发和内容创作上拥有更强的可塑性,可持续性。使得数字人能根据时代潮流不断开发新的爆点,拥有流量变现、内容变现等多种价值。
人们之所以持续看好虚拟人,也源自其可以在诸多应用场景完成落地,甚至达到超越真人的表现效果。而非简单蹭上了元宇宙的热度。
在影视行业深耕多年的聚力维度看来,结合AI打造数字人,不仅是对传统影视行业痛点的一种解法,也代表着对下一代数字内容的探索。
图片
聚力维度CEO赵天奇说:「即便没有元宇宙,数字人所代表的更高质量、更加新颖的内容形态,也会有广泛的受众。我们要做的,只是用技术加速这个过程。」
从影视行业的痛点出发
据赵天奇回忆,投身数字人制作的起因,源自对传统影视行业痛点的深度剖析。
作为北京邮电大学博士,清华大学博士后,赵天奇曾师从徐大雄、戴琼海两位院士,并且是英特尔、高通AI荣誉技术大使。拥有强大AI技术背景的他,最早在2012年进入影视行业,利用AI技术、计算机视觉技术帮助进行数字内容创作。
图片
影视+AI的双重基因行业内无疑非常稀缺。因此赵天奇也在很早期就发现,传统影视行业有许多生产流程,需要大量人工完成,这既增加了额外成本,也导致了对人的过分依赖。用他的话说:「在一个高度发达的互联网信息时代,还用手工时代的方式生产内容,这是一个非常严重的问题。」
但另一方面,传统影视行业固有的生产流程和上下游生产线机制,决定了要想真正提升效率,让内容创作变得更加轻松简单,甚至自动化,只能另辟蹊径,造一个全新行业。
因此在2017年,聚力维度决定跳脱出传统影视行业桎梏,对下一代的数字内容进行探索。
赵天奇判断,将影视内容用在大众产业,将是一个颠覆性的尝试,而尝试的切入点应该以「人」为主。
可以肯定的是,我们看到的大多数内容都是以人为主体,内容的本质也是传递人的所思所想、所感所悟。但很多时候,文字甚至声音内容的表达还是偏弱,信息传达不清晰,效率也不高。
在最理想的状态下,高品质的数字人内容应该包括肢体动作、语言、表情、配合上整体表演,以达到面对面交谈的程度。这样的信息传递量,现有的鼠标、键盘、文字乃至单纯语音都无法达到,但又为市场客观需要。
赵天奇由此预测,「数字人内容最高效,而且高质量的创作方式,必须用人去演。」而与真人相比,数字人拥有超越真人的美感,同时能超越物理限制,代表着未来的方向。因此团队决定瞄准数字人研究,将之作为探索新型数字内容的着力点。
但另一方面,在大方向上,如果将数字人归为对下一代数字内容的探索,早在2017年之前就有大量企业投身其中,尽管呈现形式各有不同,但目标近乎一致。「降低成本、提高效率,更高品质」的衡量标准也已成为行业共识。
只不过对大多数企业来说,要以实时、轻便的方式、将更高品质的内容应用到现实生活的各个场景,存在诸多技术难题。
图片
对此赵天奇则认为,从技术底层来判断,人工智能可以从根本上解决内容制作和数字内容创造的问题,也有广泛的应用场景,对自己和团队来说,「技术方向没有问题,所需要的不过是时间积累。」
三个标准
在确定了数字人研发的大方向后,赵天奇很快制定了自身数字人产品需要达到的三个标准:高级别;实时驱动;普及易用。
图片
为了达到高级别的呈现效果,聚力维度推出了自己的数字人建模系统,可以用智能化的生产流程配合资深美术团队,高效、快速地生产高质量数字人。
图片
具体来说,聚力维度的智能化生产流程共有五个步骤,首先根据原画设计或真人扫描完成信息采集,之后通过自研AI算法进行智能建模、智能绑定、智能渲染,最后会进行驱动适配。
在自研AI算法+人工调试的配合下,聚力维度可以将数字人制作周期从传统的三个月降至三周左右。
而在最直观的审美角度,赵天奇表示,之前多年的影视从业经验对团队助力良多。在传统影视行业积累的对美感的把握,建模、渲染的经验,即便脱离传统影视行业,应用在全新的数字人领域,同样适用。
聚力维度数字人的特殊性在于,由于团队坚持以AI技术为核心,而非以传统的CG手绘方式进行建模,这就要求团队技术美术必须「既懂人工智能,又懂美学表达」。
图片
而具备影视和AI双重基因恰好是聚力维度团队最大的优势。
从2012年开始,团队就在进行人工智能和影视行业的结合。这意味着在2017年聚焦数字人技术后,AI团队已经融合储备了好几年。而且据赵天奇透露,团队组成普遍是影视专家和人工智能专家,「有好些都是我的师弟,团队构成也很稳定。」
在实时驱动层面,聚力维度同样基于自研AI算法,推出了表情动作捕捉系统,可以实现全身表情动作手势捕捉。在数字人领域,对微表情的逼真还原是业界公认的难点,在进行虚拟直播时,主播表情僵硬甚至面瘫的现象多有发生。
赵天奇则表示,聚力维度基于自研AI捕捉算法,融合计算机视觉、人体力学及人工智能交叉学科能力,可对各式高频表情动作进行3D驱动,已实现了上千种微表情还原。通过连通自研软件赛博演猿Cybactor,可创造出影视级数字人,并通过表情、动作传递自身喜怒哀乐。
典型的例子是,在2021年9月的中国科幻大会上,由北京科委与聚力维度联手打造的大会形象大使幻幻亮相,在为期一周的直播活动中,幻幻的表情多样、神态拟人,取得了良好的展示效果,并得到了北京市市长的接见。
除了提高数字人质量,在普及易用方面,聚力维度团队长期坚持的AI路线,也让数字人的成本更加可控,使用更加方便。
赵天奇透露,因为聚力维度希望打通AI技术与传统影视行业需求之间的鸿沟,因此从一开始就没有往传统路径上走。一方面确实导致团队耗时四年才推出成型产品,前期耗资也很大,甚至需要创始人自掏腰包搞研发。
但另一方面,在前期技术积淀完成后,产品的自动化程度和可用性无疑会更高,从长期来看也更利于普及。
图片
比如聚力维度推出的「轻量化单个摄像头」方案,就大幅降低了用户虚拟直播的门槛。用户只需要一个普通的RGB摄像头,结合单个软件就能实现对面部、肢体及手势动作的捕捉,既不需要任何提前训练,也不需要穿动捕服等特殊设备,就能生产影视级数字人,并进行轻量化虚拟直播。
用赵天奇的话说:「让用户可以很轻松、很低门槛地使用我们的产品,并达到很好的表演效果,我觉得才算颠覆性尝试。」进行颠覆性尝试,并且乐在其中,也是聚力维度团队的一大特色。
更大的商业潜力
聚力维度团队认为,在数字人愈发火热的当下,围绕数字人搭建虚拟世界,提供可持续的内容生产与IP运营环境,才能真正发挥虚拟人优势,从而提升数字人的商业价值,使其真正拥有生产力。
图片
比如在虚拟直播场景下,经过多年积淀,聚力维度拥有大量数字资产,包括:2D、3D场景的场景库;支持多个空间机位的镜头库;无需动捕可一键触发的动作库,以及道具库等等。
这意味着,聚力维度可以在直播过程中,让数字人一键上妆、快速换发型以及秒换服装。这些在真人直播中无法想象的事,在虚拟直播中已经可以由数字人轻松实现。
赵天奇还表示,在当前,运用多人同框技术,聚力维度团队已经可以让天南海北的人,共处同一虚拟空间,看到位置关系并相互识别,完成交互。
截至目前,聚力维度的数字人已经有了许多应用案例,包括为中国电信打造001号数字员工小琳;完美世界集团首位数字员工Weta;联通在线首位数字人主播悠然;与凤凰卫视合作打造的虚拟主持;与咪咕视频合作的虚拟偶像等等。普遍取得了不错的展示效果。
但赵天奇仍认为,数字人的商业潜力远不止此。「未来理想的状态是,每一个想创作虚拟内容的企业、个人、MCN机构,都能轻松、低价地拥有自己的数字人。」
在成本方面,据赵天奇透露,如果不去抠一些人工定制的设计细节,个人虚拟主播的成本已经可以降低到万元级别。后续随着技术持续迭代,算法不断优化,数字人品质还会继续提升,自动化、流程化生产也能继续降低成本。
从2021年技术成型后,除了为现有技术拓展应用场景,加速技术迭代也成为了聚力维度的重要任务。
比如目前聚力维度迭代的一个主要工作是:进一步提升数字人微表情的逼真度。为了达到理想的效果,团队会运用电影、电视剧片段进行测试。通过把影视剧涉及到复杂表情变化的片段,交给算法识别,并进行还原,团队可以明显看到自身数字人的表情还原存在哪些不足,之后再针对性解决。
从广义上分,依据现有应用场景,数字人有工作型数字人和娱乐型数字人两种。具体可细分为虚拟偶像、虚拟主持人、虚拟客服、虚拟KOL、数字会议、数字展览等等。
除了现阶段已知的场景,聚力团队最终希望达到的效果是:让几百万影视级虚拟人在更多新场景得到应用,创造新型数字内容,同时把成本降到最低。而这一愿景的实现还需要依仗技术迭代。
图片
正如赵天奇所说,数字人的应用场景可以是元宇宙,也可以是其他。其所代表的是一种对下一代数字内容形式的探索,这已经成为了业界共识。对于技术公司来说,当前任务应该是通过技术迭代,加快实现其商业落地。