大模型学习产品,一个月顶一年 | 对话网易有道周枫

OpenAI CEO奥特曼曾表示:“AI女友只不过是一个美丽的陷阱,AI教育才是最应该去发力的一个领域。”
场景的确定性,是OpenAI等一众公司尤为重视教育领域的原因所在。教与学是教育场景中的核心,但再将两个字进行拆解,教学前-教学中-教学后,学前-学中-学后,每个环节都能产生大量的需求,也都是大模型能发挥的空间。
大模型来了以后,让包括网易有道在内的国内外教育公司看到了曙光,“让AI变得像个真正的老师”,成为了大模型时代的新目标。
网易创始人丁磊从大模型诞生初期就保持着一份警惕。去年元旦,丁磊在内部高管群里发了一条消息:“一定要关注(大模型),因为业务会被颠覆。”
我们正在面临的是技术层面的颠覆,要快、 要赶时间”,这句话也在周枫的脑海中萦绕,持续了整整一年。
在这样的敏锐嗅觉之下,网易有道成为了大模型落地教育行业的排头兵。
去年7月,网易有道推出教育垂直大模型“子曰”及大模型原生应用“虚拟人口语教练Hi Echo”、“LLM翻译”、“AI作文指导”、“语法精讲”、“AIBox”、“文档问答”;
去年8月,网易有道推出融合大模型应用的硬件设备有道词典笔X6 Pro;
去年11月,子曰教育大模型通过国家七部委联合发布了《生成式人工智能服务管理暂行办法》备案,成为首批通过备案的教育大模型;
2024年开年,网易有道宣布推出教育大模型“子曰”2.0版本,同时发布基于大模型研发的三个创新应用:AI家庭教师“小P老师”、有道速读、虚拟人口语私教Hi Echo 2.0,以及智能硬件新品:有道AI学习机X2
图片
 “当大技术浪潮到来,应该最快速度去参与,先干起来,速度非常重要。” 周枫强调道。
但在速度之下,大模型落地过程中的问题也逐渐凸显出来,技术路径怎么选择?数据训练如何优化?大模型如何与现有的教育产品结合?如何用大模型针对性地解决教育场景痛点问题?带着一连串问题,光锥智能对话周枫和其团队,深入了解其背后的思考。
核心观点如下:
1、从大模型的角度来看,不仅体现在参数等各方面的提升,更体现在RAG(搜索增强)技术的运用。
2、我们坚持两条腿走路,一条腿落地硬件,一条腿落地软件;另外,我们也会加入到开源的队伍中,让更多人能够用起来。
3、大模型落地学习产品有两个难点,一是要教得会,二是要实现更沉浸式、自然式的交互。
4、不靠数据堆砌,大模型时代的教育应用可以真正解决用户的需求。
5、大模型时代的产品迭代升级速度,赶上了之前很多传统产品1-2年的升级速度。
以下为对话实录:
Q:有道是如何找到教育大模型应用这条路径的?以及如何开始探索的?
A:这是个好问题。其实你知道网易的风格一直很务实,我们希望开发实际应用。从子曰项目开始的第一天起,我和丁磊就达成共识,一定要让它有用,让我们的业务和产品被大家所使用。所以如果你之前听过我们的讨论,你应该也知道我们一直是这么做的。去年7月,当我们发布子曰一代产品时,我们采取的方式是选择大型模型能处理的事情。因此,我们选择了英语,因为大家都知道大型模型的语言处理能力是最基础的,其次是知识层和推理层。一个B型模型具有较强的语言能力,10个B型模型具有一些知识,而100个B型模型才能进行相对较强的推理。因此,选择英语是最实际的选择。我们不仅关注口语,还关注了英语相关的语法讲解和单词讲解,这些内容都受到了热烈欢迎,这是我们迈出的第一步。
今天我们所做的事情是,小P老师或者说AI家庭教师,是我们试图采用一种相对架构上的创新,借鉴流行的架构,来满足用户极大的需求,这个需求就是家庭辅导场景。家长们都需要给孩子讲解题目,但是自己又不会。这是一个非常紧迫的需求。我们希望小P老师能够解决这个问题。这个项目已经进行了几个月,原本计划在12月发布,但在与高慧的激烈讨论后,我们决定在今年推出。
Q:小P老师这款产品主要针对教育学习场景的哪些痛点?
图片
A:小P老师要解决的是家长们一直以来面临的问题:没有时间和能力辅导孩子学习;或者对题目了解不深,“自己先被难倒了”;要么不知道如何跟孩子解释,讲清关键已是不易,更别说要融会贯通、举一反三。“AI教师的责任,即能够全科自由地答疑,并且支持多轮交互。简单来说,就是可以提出问题,并进行追问,也可以问任何相关想要问的问题。”
Q:去年7月,有道推出了国内首个教育垂类大模型“子曰”,现在进展如何?最大的变化体现在哪儿?
A:从大模型发布到现在,经历了5个月的时间。去年7月份推出,10月份进行商业评估,11月份之后开启商业化,包括网易有道在内的国内大模型,都处于一个比较快的节奏。
大模型从发布到现在,我们认为其中最本质的变化在于,它学会了更多的本事。从大模型的角度来看,不仅体现在参数等各方面的提升,更体现在RAG(搜索增强)技术的运用。
搜索增强技术与教育行业有天然的适配性,它的原理就是给大模型外接一个知识库,通过检索锁定答案,再用大模型输出的方式回答用户的提问。这样的好处在于可以避免大模型出现的幻觉问题,以及弥补大模型数理推理能力不足的缺陷。
这也解释了为什么AI老师今年1月份才推出的原因,过去5个多月,我们一直都在构建这种搜索增强能力,直到今天技术成熟以后,才能实现全科答疑、AI老师功能的落地。
Q:长期以来,在落地教育领域的物理、数学等需要逻辑的学科有很大难点,有道是通过什么技术来解决的?
A:正如我刚才所提到的,大家都在尝试各种不同的方法。我们选择的技术路线是结合强大的大型模型和SOHO增强技术,此外还使用了一些计算代数系统(CAS),即Computational Algebraic System。通过这样一个综合性的技术方案,我们使得整个系统能够拥有中小学的知识体系和解题能力。比如说,一元二次方程代数系统可以直接给出解答,并且能够解释解题过程。通过这种组合方法,我们实现了一个综合的解决方案,达到了相当不错的指标效果,可以说实现了一个代际的提升。以前仅使用大型模型时,基本上只能解决一半的题目,有时甚至更少,而现在我们能够提升到一个用户满意度相当不错的水平。这就是今天发布的小P老师的主要内容。我们回头来看,觉得这种方法还是比较自然的。因为如果仅依靠模型,我们总体认为这还不足以成为今年的成果。
Q:有道在数据训练优化方面,有哪些训练心得体会?如何通过公共基础模型加上教育行业数据来实现不错的训练效果?
A:是的,这是我们第一天就开始做的。本质上,我们需要很多在线下的数据,原本非数字化的数据,这对于在领域内取得好效果是必须的。因为之前我们也做过这类数字化工作,有了大模型的需求之后,我们就立刻将其应用过来,因为之前在做翻译时我们也做了类似的工作。
另外,数据的质量非常关键。我们也做了很多对比实验,发现有些数据量大但质量不好的数据放进去,可能还不如那些数据量小但质量准确度很高的数据放进去产生的效果重要,这是第二个要点。
第三个要点是,天花板效应比较明显。通用基础模型在领域内提升的效果有一个相对明显的天花板。所以我们后面尝试了多条路线,最后我们的小P老师实际上走的是RAG这条线,一下子就把水平提升了很多。总体上,我觉得这与王小川的认知是一致的,他也发现了这一点。
Q:在大模型的这个时代,有道的一些比较差异化的优势在哪里?
A:应该我们做的比较快吧,在这个领域我们应该算做的比较快的。另外的话我们总体上软件硬件都有,我们也有教培的经验,也有老师,也有软件入口,也有自己硬件的设计能力、销售能力,所以总体上我们是相对比较综合的。确实发现有好多东西适合用不同办法解决,就比如说像磁旋比这样的场景它就适合用硬件解决,另外一些方面它可能更适合用别的办法解决。
Q:在大模型方向上,有道目前确定的规划是什么?
A:今年和明年都是大模型落地比较关键的时期,在这股潮流之下,我们肯定会持续地推动落地,落地到更多的产品中间。现在,相对清晰的是,我们坚持两条腿走路,一条腿落地硬件,一条腿落地软件;另外,我们也会加入到开源的队伍中,让更多人能够用起来,此次发布会开源有道速读背后的RAG引擎“QAnything”,就是一个开始。
Q:教育硬件一直是有道的优势业务,您如何看待大模型时代的教育硬件未来?
A:首先要务实地看待这个问题,我们对后面的教育硬件发展非常有信心。总体上看,大模型技术成熟和落地是有个过程的,就像搜索增强技术,我们也是花了5个月的时间才能呈现出现在这样的效果。所以我们认为,随着产品功能越来越成熟,指标越来越好,对教育硬件业务的拉动作用也会越来越明显。
Q:现阶段,大模型落地学习产品和教育硬件产品的痛点有哪些?
A:落地的大模型的学习的产品,包括硬件产品,其实局限性现在都比较大。
第一个难点在于,大模型学习产品和搜题产品逻辑不一样,衡量搜题产品的标准是准确率,而大模型学习产品的标准是能不能教会。
图片
 我其实演示的时候演示了数学也演示了语文,它不光有模型的能力,我们也花费了挺多对于知识库的打磨或者说对于教学方法的打磨。我们其实很关注的不是答对,我们很关注的是能不能教会,答对和教会有很大的鸿。家长的困扰是我自己能答对但我教不会你,所以我们很重要的衡量指标是能不能在具体用户经常用的一些题型里面做到教会,这里面花了非常多的时间打磨,这是第一个点。你可能能看到不同的学科、不同的题型,它的教学方法都有我们专门去做的一些设计。
第二个难点是如何让它更沉浸、更自然地交互。我们其实也看了一些其他的产品,行业里做的,可能会把很多功能做的非常零碎,用户需要自己很多的一些步骤才能得到他想要的一些东西。我们交互其实是一个很自然的对话式的交互,在这个交互过程里面用户要越简单,模型要做得就越复杂,用户一句话,给出的一个需求,我们可能要做非常多层的判断,来去理解他的意图,给他比较满意的结果。
Q:你们也看了很多场景,也是在找场景。在您看来,教育领域哪些产品对大模型来讲是无效产品?
A:那还是挺多的,有好多似是而非的东西,比如说你用大模型来生成教案之类的,也有人好像在试,我觉得没有太大的意思。因为这个事用大模型做质量做不到那么高,而质量又非常关键,所以我觉得应该是不好弄的。或者说想用大模型来直接上课,因为现在做虚拟人的人特别多,一个想让虚拟人去卖货,一个想让虚拟人直接上课,这个我觉得不太行。它可以跟你聊天、交流、学语言,但是你让它讲数学,这种没有交互性,学生不愿意听一个假人在那讲课。
Q:有道学习机的定价逻辑是什么?大模型对教育应用的商业化可能会有哪些提升?
A:首先目前的产品叠加了学习机、学练机、个人电脑三种产品的相关功能;第二个从全学段、全学科、随叫随到这三个点,线下若是一个老师去答一道题,不同的学科可能需要七八个老师来答不同的问题,可以想象解决学生提出问题的成本多高。
过去虽然有AI技术,但是它没有真正解决用户的需求。在大模型来之前的人机交互口语训练,都是靠提前预设的大量模板来运行,这就导致一套练习下来,99%的用户都觉得没什么用处,本质的问题在于数据的堆砌。
而大模型时代的教育应用是可以解决用户需求的,至少从我们的用户反馈用户的口碑数据来看,用户真的可以在实际的交互和交流过程中,感受到,这是一个真正的AI老师。而能够解决用户需求的产品在定价上也会更有话语权,整体来看,我们现在感觉产品定价低于其真实价值。
大模型对产品升级迭代速度也有一个大幅度提升,有道产品从发布到现在,一直在不断地更新、迭代,甚至保持一个月一个迭代的速度向前跑,这赶上了之前很多传统产品1-2年的升级速度。未来,我们可能在1-2个月内提出关于面试口语更优化的解决方案。
Q:过去教育培训类的产品经常被人诟病,技术含量没有那么高。大模型出现之后,您认为是否能够在产品的技术壁垒上真正提升一个档次,使得公司无论在软件还是硬件上都能摆脱内卷的状态?
A:我觉得竞争肯定还是会很激烈,但是如果大模型做得好的话,在一些关键场景上应该还是能够形成较高的壁垒。
其实我对大模型的理解很简单,就是“自动化”,它最核心的价值在于把原来非常耗费劳力、人力的事情变成机器来做,就是这么简单的一件事。你说这样的行为是否创造了价值?其实就看原有的那个活动是否是高价值的,如果一个活动是高价值且很费人力,你去做了之后就能形成壁垒。
整个教育最大的特点就是零散,我们做了这么多年最大的体会就是千万不要把一年级学生和二年级学生当成一样的。你觉得差一年,其实他的心智完全不一样,他的喜好完全不一样,他要学的内容也完全不一样。但即便如此,我们相信可以找到很多高人力密集又非常有价值的情况,比如讲题就是一个。作文批改也是一个,想要写好作文必须有人改作文,如果没人改作文,你写一百篇都没有用。