全国政协委员、知乎创始人周源:补齐优质中文语料数据短板

全文3972字,阅读约需12分钟,帮我划重点

划重点

01全国政协委员、知乎创始人周源表示,我国在大模型领域取得了一定成就,但仍面临高质量中文语料资源短缺的挑战。

02为此,周源建议建立数据合规监管机制和评估办法,加强数据安全和知识产权保护措施,加快高质量中文数据集的开发与利用。

03同时,周源关注互联网平台企业创新活力,建议加强政策法规保障、完善科技创新机制、优化产业创新体系,引导互联网平台企业赋能实体经济。

04此外,周源认为民营企业在新质生产力发展中扮演重要角色,包括新业态试验田、新模式创新者和新产业主力军。

由腾讯混元大模型提供技术支持

图片
推动我国大模型产业高质量发展
文|《中国企业家》记者 赵东山
编辑|李薇
图片来源|受访者
2024年是知乎创始人、CEO周源任职全国政协委员的第二个年头,基于过去一年的创业体悟,周源今年带来了5份提案,聚焦“大模型产业发展”“全民科学素质”“互联网平台企业创新活力”“高质量技能人才供给”和“打击新型盗版侵权”。
过去一年,国内大模型产业迅猛发展,2023年4月,知乎也推出了“知海图AI”大模型,是最早发布大模型的中国互联网企业之一。但周源在实践中意识到,尽管我国在大模型领域取得了一定的成就,但仍面临着一些挑战,“最显著的问题之一是高质量中文语料资源的短缺”。
在这样的背景下,国内许多从事大模型开发的研究机构和企业在进行模型训练时,不得不依赖于外文标注数据集、开源数据集或是爬取网络数据。周源认为这无疑限制了我国人工智能技术的发展和创新应用的推进,也影响了我国在全球人工智能领域的竞争力。
周源建议:第一,建立数据合规的监管机制和评估办法,建议相关政府部门和监管机构针对数据合规应建立相应的监管机制,推动完善AIGC监管立法,保护和规范人工智能领域的数据合规;第二,加强数据安全和知识产权的保护措施;第三,加快高质量中文数据集的开发与利用。
与此同时,作为一名奋战了14年的互联网创业者,周源也非常关注互联网平台企业创新活力的话题。
2024年是中国全功能接入互联网30周年的重要里程碑年份,周源深切地感受到,过去的30年里,众多互联网平台企业凭借科技创新,已经深入到大众日常生活的方方面面。而互联网企业已然成为中国经济不可或缺的一环,也是我国科技创新体系的核心力量。
然而,由于近期受多重因素影响,互联网平台企业面临信心不足、市场预期不强、发展前景尚未稳固的困境,这在一定程度上制约了企业的发展潜力和创新活力。
图片
因此,周源建议:第一,加强政策法规保障,提振互联网平台企业发展信心,比如加快促进民营经济发展立法进程,加强政策落地的一致性,科学设置监管政策;第二,完善科技创新机制,激发互联网平台企业创新热情;第三,优化产业创新体系,引导互联网平台企业赋能实体经济。
3月5日上午,周源聆听完2024年政府工作报告后感到非常振奋。“报告既对困难和挑战有清醒的认识,又提出了积极进取的目标。作为一名民营企业负责人,我对此感同身受。”他对报告中提到的“深化大数据、人工智能等研发应用,开展‘人工智能+’行动,打造具有国际竞争力的数字产业集群”印象深刻。
周源表示,这表明国家对数字经济和人工智能产业非常重视。“作为互联网从业者,我对此深受鼓舞。在未来的工作中,我将积极探索技术创新,为我国人工智能产业和新质生产力的发展添砖加瓦。”
以下为周源的采访内容实录(有删减):
关于新质生产力与互联网公司的关系
周源:我们可以把新质生产力拆成人、生产资料和工具。
首先,可以把整个互联网都看成一个工具,这个工具帮大家进行知识分享、信息交换,甚至在线的交易、娱乐等功能。AI+互联网就可以变成一个新的工具。
举个例子,如果我要去一个地方,我会考虑去哪玩,想吃好吃的,酒店不想太贵,航班最好灵活一点。我唯一能做的事情是写一个旅行计划,然后把这些诉求变成一个个搜索词,在旅行网站或者酒店、机票网站预订,中间还要应对各种调整。
但是,今天当大模型有了agent(智能体)能力以后,它就接近于每个人最理想的一种方式:我可以有一个数字助理帮我处理这些事情,包括比价、询价。对比原来的方式,它也是通过互联网来满足的,但是效率更高,产生的价值更大。
其次是人。人类坚信新的技术对人是一种赋能。互联网本身除了是一种工具以外,还有大量人群在互联网上活跃、使用,有时候是显性化的交流,同时也是各种各样交易的产生对象。“AI+人”变成了互联网一种新类型的user(用户),它也是被AI赋能的。技术最有魅力的地方就是它可以扩展人的能力,就好像汽车扩展人的双腿,无线电放大人的声音。新技术在人的赋能上也会变成一个新型的轮子。
第三是生产资料。现在互联网的生产资料笼统来看,都可以把它认为是数据要素。不管是内容、商品,甚至是直播间里的对话,都有很多生产资料。当有了 AI这样的技术以后,原有的生产资料本身也可能变成一个互动对象。
所以从这个视角你会发现,当新技术来了以后,很多已经做到大规模技术用户覆盖的互联网公司,有机会在人的能力层、生产资料的新形式、工具的能力层三者基础上推动变化,从这个意义上来讲,充满了很大的想象力。
关于发展新质生产力中,民营企业的作用
周源:新质生产力有三个新,民营企业可以扮演新业态试验田的角色,民营企业是新模式的创新者,民营企业是新产业的主力军。
第一,民营企业可以扮演新业态试验田的角色。很多民营企业是比较灵活的,愿意去抓一些看起来比较小的、新的现象和需求,还可以先小步快跑进行尝试,所以就像是一个新业态的试验田。
第二,民营企业是新模式的创新者。当有了很多新的现象和业态以后,企业肯定就在想怎么去构建商业模式,有些模式是可借鉴的,企业怎么持续经营发展,后面的商业模式是什么,它可能比原来的有竞争力,也可能是全新的,都需要去思考、设计和探索。
第三,民营企业是新产业的主力军。一个产业最后能成为一个产业,一定不单单因为有一个超大型的公司,其中一定是分层次产生很多“小巨人”企业,再产生一批比较强的企业。从数量和规模的角度来说,在新的产业里民营企业一定会扮演主力军的角色。
图片
此外,当我们说新质生产力的时候,我们提到人才可能指向的是培训,但从实践的角度来说,大量民营企业的用工数量加在一起是非常大的,它其实也是新型劳动者最终变成一个新质生产力的实践基地。
关于发展新质生产力,如何做好人才驱动
周源:人才驱动首先要看世界和社会的变化。
当下,对于每个人来说,不仅仅要掌握已有知识和技能技术,同时也需要快速去学习新的技术,以适应新技术的变化。面向这样一个很大的人群,技能培训体系和人才体系的定义、匹配之间其实相差比较多。在这个情况下,我们应该去系统迭代性地建设技能体系,把围绕他们的职业技能培训的社会力量动员起来。
现在,技能的变化很快。今天可能发生在数据工程师身上,明天可能就变成了prompt工程师。在这样的背景下,市场机制能够更加贴近真实的需求,能够快速做出变化。
知乎知学堂过去4年覆盖了6大领域30多个品类,并通过社区内容进行连接,累计培训了超过2000万学员。
新趋势的发生,背后比较大的一个变量来自于人才的流动。原来我们说的人才流动可能往往发生在一个行业或者一个专业内部,但现在跨行业的流动已经形成了国内人才流动的内循环,把一个行业所积累的技能、视野、知识,很快地带动到另外一个行业去,也构成了知识流动的红利。
互联网公司的人比较了解前端用户的需求,知道怎么去定义产品,怎么去做用户运营,怎么去快速迭代,怎么去推进项目的一类人才,这些经验是可以复用的,只是还没有大规模发生在制造行业或其他行业。
当人才流动了以后,你会发现这些知识经验见解,迅速在其他行业产生碰撞。从某种意义上来说,从人才流动所串起来的行业变化上,一定可以看到特别多的新趋势。
关于国内优质中文语料库的建设
周源:尽管我国在大模型领域取得了一定的成就,但仍面临着一些挑战,其中最显著的问题之一是高质量中文语料资源的短缺。虽然国内存量数据资源丰富,但由于数据挖掘不足、无法自由在市场上流通等现状,目前中文优质数据仍然稀缺。
国内许多从事大模型开发的研究机构和企业在进行模型训练时,不得不依赖于外文标注数据集、开源数据集,或是爬取网络数据,这无疑限制了我国人工智能技术的发展和创新应用的推进,也影响了我国在全球人工智能领域的竞争力。
构建优质中文语料库其实是一个先构建“水库”,再去思考合理使用的问题。目前大模型最大的语料库来自UGC生态,来自于每个人的知识、经验、见解的上传。
但今天构建“水库”的工作没有得到足够的重视,反而更看重怎么去“打水”的环节,比如模型训练怎么去进行数据和内容的爬取,其中可能还会出现一些知识产权、隐私安全等问题。当我们再去看大模型新技术迭代的时候,你就会发现其实中文文本的短缺就更明显,没有好的语料,好的算料,光有算力,光有模型,就不能形成良性的循环。
基于这一点,我提交了《关于补齐优质中文语料数据短板 推动我国大模型产业高质量发展的提案》,在三个方面提出建议:第一,建立数据合规的监管机制和评估办法;第二,加强数据安全和知识产权的保护措施;第三,加快高质量中文数据集的开发与利用。
关于激发互联网平台企业创新活力
周源:首先,如果你回顾移动互联网过去十年的发展,会发现虽然互联网平台的用户覆盖很大,但是它本质上还是非常市场化的,它的基础设施性跟水电煤这些基础设施是有很大区别的,因为用户会用脚来进行投票。
图片
来源:视觉中国
比如说你做的服务确实不够好,或者你做了很多不应该做的事情,其实用户是会用脚投票的。因为用户会有真实的需求,不是说非得用你不可。这其实是一个不断去通过创新,通过迭代去满足需求的过程。
在这个过程基础之上我们再去进行更多宏观的,包括价值观的调控,这样就会有比较好的效果。这方面政府确实也做了很多引导,所以我觉得在微观层面少干预,在宏观层面多引导,在这样的背景之下,应该是一个良性的循环。
第二,资金要多。互联网公司、互联网平台公司的淘汰率是很高的,如果我们把过去十年所有公司都数出来,你会发现其实现在能记住的公司没多少,所以在这样一个特点之下,它一定要资金比较充足才能存续,不管是小公司还是中型公司要拿到比较多的风险投资。短期之内可以不求回报,只是五年以后,十年以后有可能变成更大的机会。
第三,人才要多。得有非常多的人才愿意在互联网企业干下去。这两个事情其实是很相关的,两个得同时成立。有很多人富有创业精神,愿意去做更多的尝试,去推动更多新业态的变化。
关于引导互联网企业赋能实体经济
周源:以知乎为例,职业培训也被划到了实体教务、实体经济,背后需要从两个方面来考虑,第一,一家互联网公司或者互联网平台公司,优势到底是什么?第二,在数据层面、在内容层面、在技术层面,你积累的关键能力到底是什么?
知乎有海量的内容积累,经过探索我们认为知乎的内容也可以升级为媒介、商品甚至是服务,我们的产品和业务形态也是基于这种推演去发展的。
同时我们也发现,数据和AI的结合不仅仅运用在交流互动层面,还可以推动教学环节的进步。比如,教育培训行业除了非常重视人的作用,同样对数字化有巨大需求。
以前教育培训行业的数字化应用程度相比互联网行业还比较低,一旦AI大模型在教育培训行业应用,教学环节的体验提升会非常显著。这也是知乎结合自身优势去集中要解决的问题。我认为,知乎生态优势和技术创新应用加在一起,会实现1+1大于2的效果。