行业洞察|万字长文讲透数字人与生成式AI未来的创造力和机遇

 目录
01. 引言
02. 主流数字人的技术原理和应用
03. 数字人在商业领域的崛起
04. 生成式AI技术让数字人“活”起来
05. 国内数字人和生成式AI技术的发展现状和机遇
06. 生成式AI技术何时走向成熟和规模化应用
引言
数字人技术即将普及化的时代正在迅速来临!
从前年开始,很多品牌主纷纷启用虚拟人作为品牌代言人。请明星不但要承担过高的预算,还有随时可能“塌房”的风险,真人各种不可控的因素让品牌们苦不堪言,于是他们只好转投可以由自己百分百掌控的“数字人”。
图片
而虚拟人爆火的同时,数字人的另一种形态——数字分身也在蔚然成风。这两者的区别简单来说就是“虚拟人”是完全虚构的,直接由计算机生成的,而“数字分身”则是一个真实人物的数字孪生体。
图片
△倒映有声为知名医学专家陶勇医生打造的AI数字分身
生成式AI技术作为一种利用深度学习模型从数据中学习并生成新的内容的技术,可以根据文本、图像、音频等输入,生成各种类型的输出,如3D模型、视频、动画、音乐、诗歌等。生成式AI技术的进步将为数字人提供了强大的支撑,使其能够适应不同的场景和需求,展现出无限的可能性。这也意味着人们在线交流的形式将彻底发生改变。数字人栩栩如生的外观,生动的表情,再加上AI技术加持下具备“最强大脑”,会为我们营造出逼真的互动性。
图片
△元分身数字人直播产品
每个人可以随便“生产”数字人,甚至拥有自己的数字孪生(兄弟姐妹)的梦幻景象将成为现实,一切都将只是时间问题,甚至在可见的两三年内即可实现。
数字人目前最先进的底层技术是什么样?已经在哪些商业场景和行业内有成熟应用?生成式AI将如何赋能数字人的发展?二者的交融会为元宇宙带来哪些新的想象?
带着这些问题,我们采访和调研了国内6家代表性数字人服务商的创始团队,他们分别是一知智能、倒映有声、元境科技、拓元智慧、创想数维、宙予科技。本篇文章即是对访谈内容的全面和体系化呈现。
主流数字人的技术原理和应用
目前国内的数字人技术厂商底层技术主要以NLP(Natural Language Processing自然语言处理)技术多模态融合交互(不同形式的输入组合(例如,语音、手势、触摸、凝视等)被称为多模态交互模式,其目标是向用户提供与计算机进行交互的多种选择方式,以支持自然的用户选择。)和大模型(大模型又可以称为Foundation Model(基石)模型,模型通过亿级的语料或者图像进行知识抽取,学习进而生产了亿级参数的大模型。)、XR技术(Extended Reality扩展现实,是指通过计算机将真实与虚拟相结合,打造一个可人机交互的虚拟环境,这也是AR、VR、MR等多种技术的统称。)这三种技术为底层技术依托打造数字人。
其中NLP技术以创始团队为浙江大学计算机学院人工智能研究所出身的一知智能、上市公司天娱数科战略投资的专门做元宇宙虚拟人相关业务的科技营销公司元境科技两家为典型代表。
一知智能‍‍
一知智能CTO李一夫在采访中表示,一知智能创始团队一开始就是研究NLP技术的,目前一知智能的智能客服等产品就是结合一知智能的NLP能力研发的。在持续探索商业化的过程中,一知智能研发团队也在积极关注和思考前沿技术的发展。
当一知智能研发团队认为多模态语音交互领域要想继续往前发展的话,就需要一个语音和文本结合、仿真外观形象和动态视频结合的模态,因此便在两年前便积极布局虚拟数字人,往多模态交互、多模态大模型的方向发展。
图片
△一知智能技术图谱
一知智能CTO李一夫向非凡产研记者介绍,与同行业产品对比中,尤其是在真人驱动以及口唇同步效果方面,一知智能的数字人在行业中应该是处于遥遥领先的状态。尤其在技术优势方面,由于一知智能过去几年积累了大量的语料,迭代出领先的消费行业语音与语义相关的模型,结合自身在多模块交互方面的研究沉淀,未来一知智能将会在数字人的基础上叠加交互的部分,从而扩大技术方面的竞争优势。
另一方面,一知智能过去在消费领域积累的客户、业务优势,将会使一知智能的数字人在帮助客户找PMF的应用中取得更大的竞争力。
元境科技
元境科技很早之前就开始布局NLP技术和应用,NLP核心的语义理解,预训练多模态大模型、NLP 算法集、NLP开发套件等已经集成到了元享智能云平台,具备企业级的落地实力。元境科技创始人王智武表示,元境在做就是通过元境自身的研发实力,降低其他企业在NLP及其他尖端术在应用层的使用门槛。
图片
△元享智能云平台界面
元境科技的产品体系为1+X,其中“1”指元境科技自主研发的产品平台“元享”,通过这个平台元境科技将持续架设很多产品,聚焦垂直赛道和细分领域,同时提供专业产品服务和集成服务,简化和降低技术的应用门槛。元境科技目前的市场定位、探索主要聚焦在如何把一些最新自主训练技术、自主研发技术整合投放个一些垂直行业的应用场景。相比通用型产品,元境科技未来聚焦的方向将以垂直应用场景为主。
倒映有声
倒映有声成立四年多以来,则一直聚焦在多模态的驱动和生成技术。创始人兼CEO肖朔介绍说,倒映有声把文本、声音和图像,以及数字人相关的动作驱动几个环节整合到一起,形成“多模态的神经渲染引擎”。目前,倒映有声主要服务B端客户场景,提供AI数字人技术解决方案、可视化的操作界面、以及直接调取API技术接口,帮助客户去做数字人音频和视频内容生产,最终实现解放真人劳动力、降本增效的目的。
在倒映有声创始人兼CEO肖朔看来,目前的技术流派可以分为两种:第一种是基于传统的3D建模方式,用海外比较成熟的UE或unity的引擎来进行渲染,这套方案在游戏或者影视当中应用较多,现在也有很多优秀的技术公司把它应用在了数字人或元宇宙场景,也同样取得了不错的应用效果。而倒映有声采用的是另外一套技术方案,不需要做传统的3D建模,能够节约大量的人力成本和时间成本,以及不需要再借用海外垄断性质的渲染引擎,因此倒映有声可以实现用更低的成本和更标准化的模式,在云端快速地完成与数字人相关的多模态内容生产。
拓元智慧
另一家人工智能公司拓元智慧则致力于运用自研多模态大模型、认知推理、因果模型、心智模型等前沿AI技术,为客户核心提供内容生成和虚实交互解决方案。目前已经在真人数字分身、AI协同创作、企业数智服务等领域形成标化产品,服务客户百余家。拓元智慧联合创始人兼元分身平台总经理黄伟鹏向非凡产研介绍,在应用落地方面,拓元智慧主要关注以认知AI为核心的AGI领域的几个主要方向,包括文案和图像视频生成、个性化交互及自主规划型AI大脑等。
图片
△拓元智慧多模态认知AI平台示意图
基团队的多模态AIGC与互动技术,元分身平台可以打造媲美真人的AI数智人,应用于视频合成、直播、互动等场景,为客户提供数智人定制、视频制作服务平台、直播服务平台、个性化交互等服务。其中,视频创作及合成应用适合教育、医学、科技、金融、企事业等泛内容传播,直播应用适用于本地生活商家、品牌店铺、私域24小时直播门店等场景,而交互数字人则适用于售前售后客服和专家型咨询陪伴等场景。
创想数维
与其他几家不同的是,创想数维目前正在开发的是XR技术(扩展现实技术)。与传统技术如绿幕相比,XR技术在画面效果和操作便利性等方面具有更大的优势。创想数维CEO吴未的目标是将XR技术小型化并推广到其他数字内容生产领域,例如企业活动、综艺、直播和短视频等,让更多人受益。
图片
△创想数维业务范围
创想数维的核心技术特点包括:首先,具备优秀的自出研发和生产硬件设备的能力,且成本相对较低;其次,拥有一个核心的、平台级别的软件,包括渲染服务器和软件,这也是创想数维技术的一个核心组成部分。除此之外,创想数维正在开发利用AIGC技术快速生成3D场景和动画等算法和工具。 
宙予科技
宙予科技是生成式AI驱动的空间化电商全案服务商。去年宙予科技开发了618京东元宇宙电商项目。作为全球首个元宇宙电商项目,在转化率等核心指标,达到传统电商十倍之多,实现了3D互联网场景营销转化效果的重大突破。目前宙予科技正在进行5000万人民币或等值美元的A轮融资。创始人朱峰是北京大学本硕,从物理转修电影导演/文化产业。宙予合伙人团队由四位相识20年的发小组成,是北京四中、北京大学的高中/大学/硕博士同年级同学,包括两位电商老兵和两位元宇宙渲染引擎专家,是空间化元宇宙电商创业的最优搭配。
图片
△宙予科技AI虚拟主播
“AIGC”全称为“Artificial Inteligence Generated Content 人工智能生成内容”,中国信通院发布的《人工智能生成内容(AIGC)白皮书》认为,目前关于 AIGC 的概念并没有统一界定,国内产学研界的理解是“继专业生成内容(Professional Generated Content,PGC)和用户生成内容(User Generated Content UGC)之后,利用人工智能技术自动生成内容的新型生产方式”。维基百科给出的解释则是“人工智能合成媒体(AI-generated Media 或 Synthetic Media)”,指“通过人工智能算法对数据或媒体进行生产、操控和修改的统称”
数字人在商业领域的崛起
随着数字人技术的不断成熟,国内数字人厂商也都积极探索商业化应用场景,而且都有不错表现。本章节我们将为大家介绍数字人的主流应用场景、主要落地行业、C端用户变现场景。
1、数字人的三种主流应用场景
目前数字人主要有三大应用场景。
第一个是围绕类流媒体的播报场景。这类场景的人员播讲内容和模式通常都比较固定,不需要太复杂的情感演绎,因此这类重复的劳动力很容易用AIGC的方式来代替。倒映有声创始人兼CEO肖朔介绍,他们已经在融媒体新闻播报、教育培训、医疗科普、金融、泛娱乐等场景成功应用数字人。
第二类是对时效性要求比较高的,比如过往一些行业的视频节目内容从完成初稿到节目播出可能需要至少花5-6个小时,期间还要经历审核校对等多个复杂流程,并且人力在这个过程中也有很多不可为的点,必须一个新闻主播,每天最多可能只能录10-20条。
图片
△倒映有声数字人分身内容创作平台
依托倒映有声的融媒体AI数字人技术解决方案,只需10分钟有效音画数据采集,就可以打造1个主播的AI数字分身。在倒映有声旗下的数字分身内容创作平台上,只需要输入文字,就可以一键生成音频和视频。AI主播/AI数字人可以24小时不间断进行内容生产和播报。这也数字人的一个极具代表性的应用场景。
拓元智慧的数字人除了可以还原主播真人的外形、表情、动作和声音,还支持多语种功能。无论在视觉效果或是语音语调上,拓元智慧数字人已具有超过95%的拟真度,整体表现与真人无异甚至超越真人主播。真正实现一个运营顶一个团队,孵化并管理多个IP,极大地降低制作成本,10倍以上提高效率。
第三种是短视频、直播带货这样的娱乐场景。数字人能为小B或者大C类用户提供低成本的代替他们的人工在长尾的时间段去进行内容的持续化输出。拓元智慧数字人直播产品,可以随时代替真人主播出镜,通过AI自动编排话术模块,搭载智能对话问答系统,实现7*24小时直播,轻松获得闲时流量收益。
2、数字人的主要落地行业
元境科技创始人王智武表示数字人在以下几大赛道有天然优势。第一个是直播。比如在娱乐直播方面,娱乐直播通常需要主播具备很多的才艺,而生成式AI技术应用到数字人后,数字人相当于自带才艺了,并且AIGC技术还在不断迭代,生数据的效果越来越好,在这方面会很有潜力。
另一点就是虚拟人数字人可以24小时不间断直播、和个性化定制,能够聚焦更多人群,同时可以通过技术手段进行批量生产,横向和纵向扩展性很强,现在很多企业和团队就在应用我们的元享平台的智播模块进行直播,效果很不错,并且虚拟人数字人的直播模式是批量可复制的,因此一旦能成功,便会给企业降本增效带来很明显的变化。而且这个赛道的核心竞争优势不是技术,而是对业务和场景的编排能力。
图片
第二个赛道是AI虚拟人教育。目前很多高校都有在这方面加强投入的意愿。以元境科技目前己上线的“元趣”产品为例,它可以基于真人图像深度学习然后生成2.5D虚拟人,然后只需要输入文本或者生成文本,它就能够按照文本开始说话,而且不需要真人去驱动。这个技术更可以规模化应用在老师教学场景中。
第三个赛道是文旅行业。全国各地的旅游景点围绕智慧导游、智慧伴游、数字博物馆等场景都有很强的需求。元境科技也在加紧这方面的布局。
此外还有律所、保险和To G行业也有大量需求。目前元境科技已经在教育、文旅行业,还有跟一些大的消费品牌、新能源汽车等都有成功落地经验。
创想数维CEO吴未告诉非凡产研,除了文旅行业,创想数维还跟MCN机构和一些agency共同有很多应用和探索。而且体验过的客户都反馈很好,能有效降低他们制作内容的时间和预算成本。
宙予科技将自己定位成“帮助电商平台和消费品牌迈入元宇宙的基础服务商”,宙予科技创始人朱峰认为,品牌不一定需要元宇宙,但一定需要流量,而元宇宙能够为品牌带来新的流量。而电商平台里本身就有很多流量。因此宙予科技的打法非常独特,他们把元宇宙直接放进流量核心,也就是电商APP里面。以此为基点,形成“人”“货”“场”三方面的服务。
宙予科技打造的24小时AI虚拟主播,一方面可以很好地进行产品的介绍,另一方面可以回答消费者的问题,未来虚拟主播的能量可以在“场”里面得到进一步的释放。
拓元智慧总经理黄伟鹏则表示,除了新闻资讯类和医学、教育、财会等泛知识类博主,企业售前售后服务、本地生活等领域也需要AI数字人的加持。拓元智慧从数智人视频到直播的一站式创作,直击传统视频和直播中效率低、成本高等痛点,让内容创作者专注脚本创作及营销策略优化,帮助个人和商家构建全新的数智化运营模式,通过数字人大众化解放生产力。
3、数字人的C端用户变现场景
除了服务B端客户之外,倒映有声和元境科技还都有面向C端用户的产品和服务。
对于同样有制作数字人需求的C端用户,倒映有声提供了一个数字分身内容创作平台,平台上拥有丰富的通用型服务型数字人来支持C端用户制作数字人。
元境可以则分别有“元享”和“元趣”两个C端产品版本,分别是3D和2D产品形态。并且“元享”即是平台又是产品,将来还会为C端开放免费捏脸系统。“元趣”目前以小程序为主,主要是一款针对方便转播的2C用户的免费应用。
创想数维也计划推出一些针对C端用户的产品和解决方案。例如快速从2D草图生成3D场景,全面实现剪辑、调色和灯光等方面的 AI 自动化,从而完全摆脱中之人或人为操作。
生成式AI技术让数字人“活”起来
数字人虽然已经诞生了很长时间,但其长期以来被吐槽最多的就是大部分数字人都过于呆板,除了表情和姿势过于僵硬之外,还完全没法与用户个性化,甚至实时互动。一项数据表明,人和人之间55%的交流靠肢体语言,38%靠语调,只有7%是靠语言。因此数字人的互动能力对提升用户体验非常重要。而随着生成式AI(Generative AI)技术的爆发,将会很好的赋能数字人,极大提升数字人的生动力。
1、生成式AI技术是提升数字人交互能力的拐点
一知智能CTO李一夫认为生成式AI技术是提示数字人交互能力的一个重要技术拐点。但目前面临的主要问题在于生成式AI通过大模型形成答案的速度还比较慢,而交互场景对于实时性的速度要求又非常高,所以当前生成式AI还不能直接运用到数字人的交互上,这个也是未来需要大模型去解决的问题之一。目前一知智能在产品上也在研究如何提高接入大模型以及生成式AI的能力,大模型如果能在响应速度上得到飞跃的提升,那数字人的发展将会迎来很大进步。
元境科技创始人王智武认为,目前行业内的一些数字人交互能力还不够强主要有以下几个原因,首先因为语料库特别少,比如在10个人同时提问一个问题的场景中,AI产出的答案永远只有一个,这样给人的感觉就是新鲜感特别低,我们也是通过自建语料库去改善重复度高的这个问题。
其次,在智能问答的应用场景中,数字人的表情、神态、动作都比较僵硬,给人很假的感觉。
第三,在声音选择上,虚拟人之前是没有办法去模拟情绪的。元境在这块下了很大的研发力度,请很多的专家和大牛组成技术团队,攻克数字人交互中的核心难点,通过AIGC和预训练大模型以及庞大的动作数据库才实现了近乎真人的交互表现效果。
如果今后其他团队和公司想要提升数字人交互能力,可以尝试自建语料库和在大模型、AIGC这块下功夫,实现百分之90的相似度是可以做到的,攻坚到百分之百的相似度是行业内所有人的共同目标。
随着生成式AI技术的进步,尤其有了ChatGPT这样的语言大模型,就能支撑数字人的回答变得多样性且具备拟人语气。另外生成式AI技术也将会让数字人在声音训练、表情模拟以及情绪表达上有很大的飞跃。比如过去以文本驱动虚拟人嘴型的模式会让发声显得僵硬,而现在要驱动虚拟人很好表达情绪的话,则是会用audio2face技术用声音驱动唇形及面部表情,通过情绪的判断及传递实现虚拟人的情绪表达,虚拟人也因此给人感觉更逼真。
2、生成式AI技术如何赋能数字人
拓元智慧联合创始人黄伟鹏介绍,目前元分身平台的数字人已经可以通过AIGC技术在短视频、直播和一对一服务等场景中直接生成,并且可以与用户进行智能互动。例如,在直播中,可以解析用户的弹幕内容并直接回答他们的问题。在短视频创作中,设有AI文案功能,帮助运营者生成文案或改写文案,极大减轻视频工作者的创作压力。
同时,在互动客服、业务引导等方面,元分身也可以实现实时的一对一驱动,将ASR转化为NLP,进而生成答案并合成语音,在前端输出时还可以进行面部表情、手势等交互操作。通过这些技术优化,可以明显提示数字人的交互能力。
创想数维CEO吴未表示数字人制作流程一般包括设计、建模制作、驱动和运营环节。在这个流程中,就可以应用大量的人工智能算法和模型,来加快速度。同时,生成式AI也能使数字人的响应更加智能化,更符合人类特性。举例来说,以前数字人驱动一般需要构建知识图谱,然后将其制作成语音库和动作库,只能回答知识图谱范围内的问题。但有了大语言模型,只需要组合其他组件,如文字转语音、语音转动作、表情库和动作库,就能生成一个可以响应任何问题的智能化AI驱动程序。因此,我们可以像搭乐高积木一样,将各种人工智能组件拼接起来,以更低的成本获得更好的数字人驱动效果。
宙予科技创始人朱峰表示数字人的交互一般指的是视觉、听觉和触觉三方面。这三个方面目前都有不同的公司在做。而触觉的提升还属于超早期的阶段,现阶段暂时还没有已经能够落地的方案出来。在视、听觉这两块,已经有很大进展。尤其在听觉方面,小冰、科大讯飞,阿里等企业都在努力克服TTS(Text To Speech)生成的语言的连贯性和情绪问题。
目前数字人已经都能很流畅平静的表达,但在声音的抑扬顿挫,音量变化方面仍然有很大提升空间。尤其是人类的情绪变化很多变,语言常常很难准确表达,如何精确培训数字人具备这一敏感度,将会有很大挑战。
再说图像领域,目前一个趋势是传统计算机图形学的动摇甚至消亡。原来的计算机图形图像学指的是mesh和texture的体系,就是每一个电脑动画要先建出来模型,模型上面有蒙皮,然后两个东西加在一起才有了传统的模型。后来有了神经网络辐射场(Nerf),然后通过Nerf去做三维空间,从点、云和三角片状的一些非常零散的呈现面,去表现一个非常真实的立体空间的折射反射现象。它虽然和以往的三维模型加材质工作流不完全兼容,但在UE里面已经实现将Nerf模型直接放入传统工作流形成的环境中直接渲染的案例了,不做动画的话,效果甚至不错。
所以最近的一个技术热点就是把Nerf本身的呈现方式还原成点云,然后再进一步地还原成传统的mesh和texture去和它兼容,试着做动画的打通。这还是对于以往的流程的一种改良。但是目前通过prompt就能实现文生图的技术,对于传统流程非常大的颠覆性,意味着几毫秒就能实时生成一堆图。在现在 AGI技术大流行的前提之下,将来整个传统三维的实时渲染工作流将可能全部被革新,这是未来的虚拟人可以走的三条路。
2、生成式AI将带来数字人的交互场景创新
一旦数字人的交互能力有很大进步之后,将会为下面几个场景的用户体验带来很大的提升。
倒映有声创始人兼CEO肖朔认为,数字人交互能力落地后首先带来改变的就是,可以解决游戏场景中NPC角色配音问题,以及让NPC拥有更丰富的互动能力,产生不一样的文本响应,尤其对于一些养成类游戏的用户体验的提高将会带来很大帮助。
第二类是对短视频领域的AI直播带货场景将会有很大优化。现在的AI数字人直播技术依然有很明显的缺陷,比如说虚拟主播手上不能拿商品,而且没有真人主播那么及时的响应速度,所以目前虚拟主播还很难替代真人。但如果虚拟主播的交互能力得到很大提升之后,再加上虚拟主播可以24小时在线,这将会为直播带货行业带来革命性变化。
第三种是对一些功能性场景的体验和能力优化。比如AI老师,AI券商分析师早期可能只能单纯地做内容输出,后面交互技术提升了就能接入比如实时问答系统,可以及时回答用户的专业问题。后面他会接上一些。我们其实是叫做问答系统。
但目前整个的渲染技术,包括虚拟人的形象等还需要再去提升,因为客户端的体验非常重要。在做交互之前,第一步要先要把画面呈现达到一定水平,再结合交互,这样才能够真正产生商业化的价值。尤其大品牌会要求虚拟人跟自己的品牌形象和品牌调性高度契合,所以对此要求会比较高。
国内数字人和生成式AI技术的发展现状和机遇
国内外在数字人和生成式AI技术领域内的差异显而易见,只有正视自身短处,才能找到前进动力和方向。采访嘉宾们也分别为我们介绍了目前国内在技术、商业化方面的短板在哪里。
1、数字人要克服的挑战和难点
倒映有声创始人兼CEO肖朔认为,数字人的技术离天花板尚有很远的距离,虽然大家要面临很多挑战,但也意味着大量的创业公司依然有很多机会窗口。他说,以3D数字人和2D数字人两种技术解决方案为例, 3D数字人的技术能够做到很高端精细的效果,但是财务成本、时间成本、人力成本都很高,那么,破局之道就是解决成本问题。而对于同倒映有声一样深耕 2D 数字人技术解决方案的公司来说,核心竞争力则是要在人物动作的复杂度上不断加强,更拟真、更细化、更交互、更有情感,以及模态的更深融合,都是需要进一步投入研发的。
图片
创想数维CEO吴未认为国内数字人技术面临以下几大挑战。首先,国内企业需要跟上研发的节奏,因为现在很多核心组件都需要在国外厂商那里投入资源去研发。国内的替代速度相对较慢,所以行业需要更好、更便宜的组成部件来降低整体解决方案的成本,同时周边生态也要能跟上。 
其次,需要降低流量和算力成本。这对于行业的扩张非常重要。如果有大公司愿意牵头,建立流量和算力平台,将有助于其他内容创意者和创意团队更好地拓展业务。最后,客户了解和认识新技术的速度和影响力也都需要加强,这些新技术能为因为数字内容创意行业提供有效的生产力。但距离尽快普及还有很长的客户教育之路要走。
2、国内生成式AI技术的挑战和难点
1)商业模式层面
一知智能CTO李一夫认为,国内的生成式AI在技术方面很多还是依赖GPT、diffusion等API或开源框架。在商业化方面,整个生成式AI中,大模型可分为“底层”跟“应用层”两层,其中“底层”又包含大模型的“模型层”等,而目前底层模型仍存在非常大的难点需要去攻克,因此关于商业化的讨论我们更多的都是针对应用层的公司。 
拓元智慧联创兼元分身平台总经理黄伟鹏表示,这两年处于AI技术发展的拐点,去年11月到现在,全球已经公布总计超过20个大模型产品,让科技圈都看到了希望,除了前期需要大量的创新实践,去探索前沿技术的商业可行性,资金支持也是必不可少的。
目前国内应用层的创业者公司主要有下面两类,一种是自身有一定技术背景,然后依赖国外厂商API的公司,他们在垂直化模型研发的过程中,可能遇到的挑战是大模型开放API后,固有技术壁垒的竞争优势会受到影响,同时也会面临训练成本高的问题。另外一种企业可能原来是在做SaaS工具且具备业务know-how的公司,他们会在原有的产品上叠加AIGC的能力,但由于缺乏自主研发的基因,因此即便预算足够聘请算法工程师,但在对生成式AI的理解以及产品的落地方面往往会受限,这类厂商对商业化以及大厂提供生成式AI的依赖度较高,而部分连业务knowhow也缺乏的公司,更是面临很高的创业成本。
2)技术层面
拓元智慧联创兼元分身平台总经理黄伟鹏表示,最大的挑战是在数据量和算力上。在数据量上,优质的专门数据和资金支持研发,两者缺一不可。而在算力上,像A100大算力显卡供应,在国内仍处于卡脖子状态,所以国内的AIGC技术会和海外研发造成一定的差距。
图片
创想数维CEO吴未认为,首先,发展生成式AI技术的必要条件之一就是要有优质的数据,而不是简单的数据。然而,国内很缺乏优质的结构化数据,这是我们面临的首要挑战之一。其次,发展AI技术需要长期投入研发资金,这可能需要5-10年的时间,而且在此之前很大概率并不赚钱。中国资本、政策以及企业家是否有足够的定力看到这一点,并认识到其发展的必要性将是很大的考验。
元境科技创始人王智武强调,国内的整个数据壁垒比较高,而且在国内的整个的大环境下,受开发环境及政策的影响,数据的共享很难实现,高质量的数据也难以获取。相比之下,国外的开发端口比较丰富,高质量数据的获取也相对便捷。第三个问题是国外的开源社区很多,国内的开源社区特别少。第四个问题在算力方面,国内算力受限比较严重,一方面在硬件比如显卡,国内外显卡性能差距较大,另一方面在人才,国外在这方面的人才相对较多,相比之下国内相对匮乏且仅在大厂商内,这些综合因素都造成了国内目前在AI领域相对落后等一些问题。
3)人才层面
行业人才缺乏甚至断档也是目前整个行业面临的一大难题。虽然这个赛道今年才开始爆火,但其实已经存在了十多年,只不过一直都处于比较边缘地带。因此人才梯度有严重缺失,会造成短期一两年内人才断档。再加上大企业招人更有优势,因此这对独立厂商搭建团队将会带来一定影响。
3、国内外行业生态差距对比
对于国内外差距对比,倒映有声创始人兼CEO肖朔概括了三个值得关注的现象。首先,是否有健全的开源生态。鉴于海内外迥然不同的竞争格局和商业模式,国外开源生态更利于新兴企业的技术崛起。其次,是否有付费习惯和付费能力。海外商业环境下,即使一家AI创业公司只做了一个简单的模块,依然可以产生盈利,但是国内却很难,会快速地陷入到“价格战”的竞争环境中,所以国内AI创业企业的生存难度远高于国外。
第三,是否实现工具化的应用。从技术角度来说,海外目前是全面开花,工具化应用也落地更显著。比如,基于GPT的Jasper.ai,NotionAI的营销软件、基于语音识别的Descript等,都已经走出了成熟的商业模式。
宙予科技创始人朱峰表示,目前国际上图形学的生成式AI技术的顶峰是生成3D模型,但目前国内外都还没有好的解决方案,依然在尝试通过数据集把生成式3D模型能训练出来。而且这需要投入大量的金钱和人力成本。目前已经成熟的技术里,StableDiffusion是开源的,而Midjourney是闭源的,并且Midjourney对于图像的生成已经到了能生成非常精致的图片的程度,尤其第五代版本是以超写实的,照片级的合成为主方向发展的。但是国内的技术能力还达不到这个程度,目前顶多在第四代水平。大语言模型体现出了“涌现能力”的特征,这是一种“追赶效应”的体现,领先者进化的速度和加速度都会大于落后者。现实世界里差半年时间,在人工智能的世界里可能意味着差十年,要想跟上对方步伐真的很困难。所以在这个前提之下,国内的AI图形生成技术相比海外差距还是蛮大的。
在其他领域,比如交互领域商业化有一个非常大的难题,就是厂商对于生成答案的控制和审核的要求,国内外各有侧重。汉语比较难的地方在于其本身的高维度语义呈现,可以隐藏在卷曲的语义里面。这就对每一个公司的审核能力要求很高。如果某一家公司的审核能力不够强,其他公司调用了他们的接口,那么就很难界定责任方。意味着国内做生成式AI的公司在商业化过程中要遇到一个重要挑战,就是要为自己说的话负责,但这个负责该如何体现,奖惩机制如何平衡等都将是很大的难题。
生成式AI技术何时走向成熟和规模化应用
元境科技创始人王智武认为生成式AI还有很长的路要走。目前的ChatGPT3.5甚至4相对来说仍只处于10%- 20%的一个基础阶段,因为未来的世界不仅仅是文本,一定是多模态,这意味着未来的生成式人工智能需要能够处理多种数据类型,例如图像、音频、视频等,成为各种各样的形式互相穿插的技术形态。因此虽然前期会有爆发式的增长,但后面需要落实到技术沉淀中,相对增长也会变得缓慢,但越缓慢代表越来越成熟。 
图片
另外,随着AI技术的不断发展,虽然一些传统的岗位可能会被淘汰,但同时又会催生出很多元宇宙中的岗位。在元宇宙的世界里面,比如基础的程序员会被淘汰,但可能会催生出比如调试员、调优员之类的岗位,除此之外,还会衍生出元宇宙设计师、建筑师、VR/AR工程师等职业,就业种类也许会变得更多。所以我们需要更加积极地适应这种变化,发展和运用技术。另外在基础的一些文本生成方面,文案策划、新媒体运营这样的岗位不一定会被代替,但生产模式可能会随着AI技术而升级。还有就是中之人、演员行业,也会随着AI替换技术的成熟发生很大变化,比如在元宇宙世界中进行表演,将会让艺术变得更加天马行空,想象力会被彻底释放。
拓元智慧联合创始人黄伟鹏表示,中国有数以千万计的中小型商家,在直播带货的投入预算上相对有限,且能带动直播及营销效果的主播也比较稀缺,导致供需出现了严重的失衡和脱钩现象。在这种情况下,数字人、AIGC的相关应用在直播行业是非常有前景的。区别于传统真人直播、3D虚拟人直播方案,元分身平台打造了具有互动体验更真实、性价比更高、使用门槛更低、业务搭建更快捷等优势的数智人直播方案。在团队自研的多模态AIGC及互动平台的技术加持下,具备“真人形象和声音+动作多变灵动+自动问答、智能互动”能力的AI数智人主播,对比真人直播GMV超3倍,有效帮助企业打造可靠的7x24小时的超级直播间。
宙予科技创始人朱峰的观点是,以ChatGPT为代表的生成式AI技术,大都正在经历落地化应用前的最后一站,有了每一个行业准确的知识再进行进一步的优化之后,插件就会变得越来越多。Plugin Store也就即将是未来的App Store,随着这个应用商店的不断成熟,未来还会涌现出更多的基于AI的APP,这将是下一个时代的真实的落地应用的一个大前提,带来的变革和影响会是非常剧烈的。
创想数维CEO吴未认为,随着生成式AI技术的不断成熟,在3到5年内,单个岗位的工作效率可能会提高5到10倍。这是第四次工业革命的开始,从今年开始就是生成式AI的时代,它将先从以服务类、文娱、内容产业为主的第三产业开始普及。当AIGC真正深入到企业的生产环节中,企业的人均产值会大幅提升。作为企业家,一定要有清醒的认识,未来可能会出现竞争对手,他们的人均产值是你的3倍甚至5倍。如果不能跟上这个趋势,就会被淘汰。因此,现在就要开始补充这个领域的知识,全员都需要了解如何利用AI来提高公司的生产效率。
作者 | 谈秋平
审核 | 斯基