“聚力维度”要以最简单的方式生产影像级数字人｜虚实之间

新声Pro

2022-04-24 11:22

聚力维度的智能化生产流程共有五个步骤：真人扫描、智能建模、智能绑定、智能渲染，驱动适配。具备影视和AI双重基因的聚力团队认为，AI可以从根本上解决数字化内容制作问题，数字人也有更广泛的应用场景。

作者｜黄泽正

修订｜肖超

这是新声Pro「虚实之间」系列文章第11篇

什么样的数字人是真正有价值的？

数字人自带科技属性，是全新的内容载体，在形象开发和内容创作上拥有更强的可塑性，可持续性。使得数字人能根据时代潮流不断开发新的爆点，拥有流量变现、内容变现等多种价值。

人们之所以持续看好虚拟人，也源自其可以在诸多应用场景完成落地，甚至达到超越真人的表现效果。而非简单蹭上了元宇宙的热度。

在影视行业深耕多年的聚力维度看来，结合AI打造数字人，不仅是对传统影视行业痛点的一种解法，也代表着对下一代数字内容的探索。

聚力维度CEO赵天奇说：「即便没有元宇宙，数字人所代表的更高质量、更加新颖的内容形态，也会有广泛的受众。我们要做的，只是用技术加速这个过程。」

从影视行业的痛点出发

据赵天奇回忆，投身数字人制作的起因，源自对传统影视行业痛点的深度剖析。

作为北京邮电大学博士，清华大学博士后，赵天奇曾师从徐大雄、戴琼海两位院士，并且是英特尔、高通AI荣誉技术大使。拥有强大AI技术背景的他，最早在2012年进入影视行业，利用AI技术、计算机视觉技术帮助进行数字内容创作。

影视＋AI的双重基因行业内无疑非常稀缺。因此赵天奇也在很早期就发现，传统影视行业有许多生产流程，需要大量人工完成，这既增加了额外成本，也导致了对人的过分依赖。用他的话说：「在一个高度发达的互联网信息时代，还用手工时代的方式生产内容，这是一个非常严重的问题。」

但另一方面，传统影视行业固有的生产流程和上下游生产线机制，决定了要想真正提升效率，让内容创作变得更加轻松简单，甚至自动化，只能另辟蹊径，造一个全新行业。

因此在2017年，聚力维度决定跳脱出传统影视行业桎梏，对下一代的数字内容进行探索。

赵天奇判断，将影视内容用在大众产业，将是一个颠覆性的尝试，而尝试的切入点应该以「人」为主。

可以肯定的是，我们看到的大多数内容都是以人为主体，内容的本质也是传递人的所思所想、所感所悟。但很多时候，文字甚至声音内容的表达还是偏弱，信息传达不清晰，效率也不高。

在最理想的状态下，高品质的数字人内容应该包括肢体动作、语言、表情、配合上整体表演，以达到面对面交谈的程度。这样的信息传递量，现有的鼠标、键盘、文字乃至单纯语音都无法达到，但又为市场客观需要。

赵天奇由此预测，「数字人内容最高效，而且高质量的创作方式，必须用人去演。」而与真人相比，数字人拥有超越真人的美感，同时能超越物理限制，代表着未来的方向。因此团队决定瞄准数字人研究，将之作为探索新型数字内容的着力点。

但另一方面，在大方向上，如果将数字人归为对下一代数字内容的探索，早在2017年之前就有大量企业投身其中，尽管呈现形式各有不同，但目标近乎一致。「降低成本、提高效率，更高品质」的衡量标准也已成为行业共识。

只不过对大多数企业来说，要以实时、轻便的方式、将更高品质的内容应用到现实生活的各个场景，存在诸多技术难题。

对此赵天奇则认为，从技术底层来判断，人工智能可以从根本上解决内容制作和数字内容创造的问题，也有广泛的应用场景，对自己和团队来说，「技术方向没有问题，所需要的不过是时间积累。」

三个标准

在确定了数字人研发的大方向后，赵天奇很快制定了自身数字人产品需要达到的三个标准：高级别；实时驱动；普及易用。

为了达到高级别的呈现效果，聚力维度推出了自己的数字人建模系统，可以用智能化的生产流程配合资深美术团队，高效、快速地生产高质量数字人。

具体来说，聚力维度的智能化生产流程共有五个步骤，首先根据原画设计或真人扫描完成信息采集，之后通过自研AI算法进行智能建模、智能绑定、智能渲染，最后会进行驱动适配。

在自研AI算法+人工调试的配合下，聚力维度可以将数字人制作周期从传统的三个月降至三周左右。

而在最直观的审美角度，赵天奇表示，之前多年的影视从业经验对团队助力良多。在传统影视行业积累的对美感的把握，建模、渲染的经验，即便脱离传统影视行业，应用在全新的数字人领域，同样适用。

聚力维度数字人的特殊性在于，由于团队坚持以AI技术为核心，而非以传统的CG手绘方式进行建模，这就要求团队技术美术必须「既懂人工智能，又懂美学表达」。

而具备影视和AI双重基因恰好是聚力维度团队最大的优势。

从2012年开始，团队就在进行人工智能和影视行业的结合。这意味着在2017年聚焦数字人技术后，AI团队已经融合储备了好几年。而且据赵天奇透露，团队组成普遍是影视专家和人工智能专家，「有好些都是我的师弟，团队构成也很稳定。」

在实时驱动层面，聚力维度同样基于自研AI算法，推出了表情动作捕捉系统，可以实现全身表情动作手势捕捉。在数字人领域，对微表情的逼真还原是业界公认的难点，在进行虚拟直播时，主播表情僵硬甚至面瘫的现象多有发生。

赵天奇则表示，聚力维度基于自研AI捕捉算法，融合计算机视觉、人体力学及人工智能交叉学科能力，可对各式高频表情动作进行3D驱动，已实现了上千种微表情还原。通过连通自研软件赛博演猿Cybactor，可创造出影视级数字人，并通过表情、动作传递自身喜怒哀乐。

典型的例子是，在2021年9月的中国科幻大会上，由北京科委与聚力维度联手打造的大会形象大使幻幻亮相，在为期一周的直播活动中，幻幻的表情多样、神态拟人，取得了良好的展示效果，并得到了北京市市长的接见。

除了提高数字人质量，在普及易用方面，聚力维度团队长期坚持的AI路线，也让数字人的成本更加可控，使用更加方便。

赵天奇透露，因为聚力维度希望打通AI技术与传统影视行业需求之间的鸿沟，因此从一开始就没有往传统路径上走。一方面确实导致团队耗时四年才推出成型产品，前期耗资也很大，甚至需要创始人自掏腰包搞研发。

但另一方面，在前期技术积淀完成后，产品的自动化程度和可用性无疑会更高，从长期来看也更利于普及。

比如聚力维度推出的「轻量化单个摄像头」方案，就大幅降低了用户虚拟直播的门槛。用户只需要一个普通的RGB摄像头，结合单个软件就能实现对面部、肢体及手势动作的捕捉，既不需要任何提前训练，也不需要穿动捕服等特殊设备，就能生产影视级数字人，并进行轻量化虚拟直播。

用赵天奇的话说：「让用户可以很轻松、很低门槛地使用我们的产品，并达到很好的表演效果，我觉得才算颠覆性尝试。」进行颠覆性尝试，并且乐在其中，也是聚力维度团队的一大特色。

更大的商业潜力

聚力维度团队认为，在数字人愈发火热的当下，围绕数字人搭建虚拟世界，提供可持续的内容生产与IP运营环境，才能真正发挥虚拟人优势，从而提升数字人的商业价值，使其真正拥有生产力。

比如在虚拟直播场景下，经过多年积淀，聚力维度拥有大量数字资产，包括：2D、3D场景的场景库；支持多个空间机位的镜头库；无需动捕可一键触发的动作库，以及道具库等等。

这意味着，聚力维度可以在直播过程中，让数字人一键上妆、快速换发型以及秒换服装。这些在真人直播中无法想象的事，在虚拟直播中已经可以由数字人轻松实现。

赵天奇还表示，在当前，运用多人同框技术，聚力维度团队已经可以让天南海北的人，共处同一虚拟空间，看到位置关系并相互识别，完成交互。

截至目前，聚力维度的数字人已经有了许多应用案例，包括为中国电信打造001号数字员工小琳；完美世界集团首位数字员工Weta；联通在线首位数字人主播悠然；与凤凰卫视合作打造的虚拟主持；与咪咕视频合作的虚拟偶像等等。普遍取得了不错的展示效果。

但赵天奇仍认为，数字人的商业潜力远不止此。「未来理想的状态是，每一个想创作虚拟内容的企业、个人、MCN机构，都能轻松、低价地拥有自己的数字人。」

在成本方面，据赵天奇透露，如果不去抠一些人工定制的设计细节，个人虚拟主播的成本已经可以降低到万元级别。后续随着技术持续迭代，算法不断优化，数字人品质还会继续提升，自动化、流程化生产也能继续降低成本。

从2021年技术成型后，除了为现有技术拓展应用场景，加速技术迭代也成为了聚力维度的重要任务。

比如目前聚力维度迭代的一个主要工作是：进一步提升数字人微表情的逼真度。为了达到理想的效果，团队会运用电影、电视剧片段进行测试。通过把影视剧涉及到复杂表情变化的片段，交给算法识别，并进行还原，团队可以明显看到自身数字人的表情还原存在哪些不足，之后再针对性解决。

从广义上分，依据现有应用场景，数字人有工作型数字人和娱乐型数字人两种。具体可细分为虚拟偶像、虚拟主持人、虚拟客服、虚拟KOL、数字会议、数字展览等等。

除了现阶段已知的场景，聚力团队最终希望达到的效果是：让几百万影视级虚拟人在更多新场景得到应用，创造新型数字内容，同时把成本降到最低。而这一愿景的实现还需要依仗技术迭代。

正如赵天奇所说，数字人的应用场景可以是元宇宙，也可以是其他。其所代表的是一种对下一代数字内容形式的探索，这已经成为了业界共识。对于技术公司来说，当前任务应该是通过技术迭代，加快实现其商业落地。

查看原图 46K