红星资本局9月7日消息,大数据时代,数据的价值还没来得及充分挖掘,AI时代一到,数据却面临着消耗过快的挑战,这使得合成数据技术成了热门领域。据研究机构Epoch AI在6月发布的报告显示,从2026年起,人类产生的新数据量将比模型学习的新数据量要少,预估到2028年大语言模型将耗尽人类数据。
数据在一定程度上决定了智能的上限,这使得大模型的技术越突破,数据技术越要与其“对齐”。
2024外滩大会期间,复旦大学教授、上海市数据科学重点实验室主任肖仰华接受红星资本局等媒体采访时表示,将来可能有两个路径去解决数据耗尽的问题。第一个是合成数据,另一个则是往私域走。
肖仰华
“很多人对《四书五经》做了注解,注解的过程就好比数据合成的过程。我们可以在原始数据上不断思考、关联、融合,产生更多的数据,这就是合成数据。”肖仰华指出,合成数据是很重要的思路。不单单只是为了缓解数据用光的问题,还有很重要的意义。
“合成的数据大部分是我们思考过程的数据,通过合成数据把大量隐性、没有记录、没有表达、偏重思维的数据表达出来,这种数据对激发大模型的智商,或者理性能力至关重要。”
肖仰华提到,我们现在大模型“只有知性,没有理性”,它只不过是记住了更多的事实,但不代表更“聪明”,理性能力并没有增长。合成数据就是提升理性能力非常重要的思路。
“使用模拟思考过程的合成数据去训练大模型,它才能知道应该怎么去思考问题,所以合成数据既是为了缓解数据‘饥荒’,也是为了提升大模型的理性能力。”
肖仰华提到的另外一个非常重要的思路是往私域走。“更多高质量、高价值的数据是在私域,在垂直行业,在千行百业,再往前走就是个人数据。所以私域和个人仍然有大量宝贵的非常原始的、真实的数据,但这些数据我们没有激活,还没有被注入到大模型,大模型还没有习得这些知识。怎样利用私域属性去激发大模型的潜力,未来也是一件非常重要的事情。”
肖仰华表示,私域数据都在数据库系统里面,这些数据库有大量高质量、各种形态的私域数据、行业数据,如何把它们变成大模型训练语料是个重要问题。如果能够使用私域数据训练大模型,就可能把大模型变成行业专家。
“现在的大模型只具有通识能力,还不能够胜任专业任务。要想做到这一点,用好私域数据可能是关键,所以数据待挖掘的潜力仍然十分之大。”
肖仰华还展望了“个人数据”,他指出,个人数据用于训练大模型才刚刚开始。他认为,下一步一定是用个人数据和大模型结合,将来如何把个人数据和大模型结合好,变成一个个“个性化的大模型”,为个人服务,仍有很大潜力,但也还有很长的路要走。
红星新闻记者 王田
编辑 邓凌瑶