百度回应文心一言文生图质疑:能力来自跨模态模型,数据符合行业惯例

百度回应外界对文心一言生图功能的质疑。
3月23日,百度方面向澎湃新闻记者表示,文心一言完全是百度自研的大语言模型,文生图能力来自文心跨模态大模型ERNIE-ViLG,“在大模型训练中,我们使用的是互联网公开数据,符合行业惯例。大家也会从接下来文生图能力的快速调优迭代,看到百度的自研实力。”
百度表示:“文心一言正在大家的使用过程中不断学习和成长,请大家给自研技术和产品一点信心和时间,不传谣信谣,也希望文心一言能够给大家带来更多欢乐。”
据悉,近日有网友通过对文心一言的测试,对文心一言提出质疑。有博主在微博发文称,百度的人工智能,是将中文句子机翻成英语单词,用国外开源的人工智能Stable Diffusion生成图片,然后将其返给用户。
从该博主的测试来看,让文心一言画鼠标和总线,其会画出“老鼠和公共汽车”,因为鼠标和总线的英文单词分别是mouse和bus;让其画起重机,文心一言会画出一只鹤的头,因为起重机的英文是crane,这个单词也有鹤的意思。
图片
3月23日,澎湃记者让文心一言画“起重机”,文心一言输出一幅带有鹤的图画
什么是Stable Diffusion?它是AI文生图模型,背后的公司是Stability AI,这家伦敦的初创公司在2022年8月向大众发布了一个文本生成图片工具Stable Diffusion,该工具被迅速传播,通过用户的反馈不断进化,有人称,这个生成式潘多拉盒子被打开了,而OpenAI迅速效仿,放开了Dall-E 2(OpenAI文本生成图像系统)的限制。
对于文心一言是否采用了Stable Diffusion?澎湃新闻询问了聊天机器人“文心一言”,文心一言大方承认:“是的,我使用了Stable Diffusion。”
图片
需要指出的是,Stable Diffusion在2022年开源,非文心一言所答的2021年开源。
“我还使用了Transformer、GRU等深度学习模型来生成图像。每个模型都有自己的优点和适用场景,具体使用哪个模型取决于任务需求和数据集特点。”文心一言说,它是基于百度飞桨深度学习平台和文心知识增强大模型技术研发的,同时也借鉴了OpenAI开放平台上近40多种预训练语言模型,以及Coursera、Udacity等高校教授提供的免费课程内容。这些公共数据为文心一言的训练提供了丰富的标注数据和算法调参依据。
图片
对于文心一言的作画功能是否“套皮”,亚洲视觉科技研发总监、微博新知博主@风云学会陈经表示,百度是自己训练的,但是拿英文标注的开源图片做素材,中翻英当prompt(显示提示对话框),百度正在快速改进,套皮是不好改的。
该人士指出,现在全球AI研发有开源传统,特别是训练数据库,不然大家自己收集图片效率太低,“也有中文标准的训练数据,但是很少,对于研究问题意义不大,英文标准和中文标注只是一个工程问题,不影响算法进步的实质。百度能训练出画图AI,但是中文输入词还没搞定,估计是没时间,因为发布会时间已经定了,所以弄个简单的中翻英来应对。”
一位不愿具名的AI人士也向澎湃新闻记者表示:“百度不至于套壳,大概率是用了公开素材用于模型训练,为求快把英文直接机器翻译成中文,遇到成语就翻车,比如,车水马龙拆成车/水/马/龙,此前百度推出的文心一格是单纯的文生图,不大会出现这个问题,而文心一言是对话+图片生成,问题就出来了。”
图片
据了解,AI绘画模型推理算力及显存需求随图像分辨率增大而指数级增加,同时图像生成需要循环采样数十次,产业落地动辄需要高昂成本的部署集群,这也严重阻碍了AIGC模型大规模商业化落地。在该方面,百度飞桨曾表示,深度优化的Stable Diffusion模型,在单卡英伟达A100(80G) 上推理速度和显存利用率全面超越同类产品,取得业界第一的领先优势。百度自研中文AI绘画ERNIE-ViLG模型,在昆仑芯R200(32GB) 卡上推理,全面超越同系列主流推理卡,并已成功批量部署于文心一格创意平台。
从百度目前发布的信息来看,其还将在下周一举行新品发布会,发布系列文心一言云服务和应用产品,百度称,不同类型的企业可以依据自己需求,选取相应的云服务和产品,方便、快捷、低成本地构建自己的模型和应用。
百度CEO李彦宏表示:“文心一言是否会颠覆百度搜索,这离我们的真实想法差得真是太远太远了。我从来不觉得商业模式会是个问题,总有办法解决。我真正兴奋的是,对百度来说,更大的故事在云计算。文心一言带来的优势,让百度智能云有可能成为市场第一。”