OpenAI o1模型团队:​o1系列尚未被充分开发的维度,天花板比想象得高

图片
图片
图片
对于 OpenAI o1 模型及其大模型训练的核心组织架构,有新 也在昨日的融资报道速递|刚刚,OpenAI 官宣完成 66 亿美元融资!最新估值 1570 亿美元;核心技术人员曝光,研究副总裁计划 AI 创业》文章后半部分为大家介绍。
图片
幸运的是,作为 OpenAI o1 模型研究团队三位核心技术人员 Noam Brown(OpenAI 研究科学家,专注于 AI 推理和强化学习)、Hunter Lightman(OpenAI 高级工程师,主要研究 AI 在复杂问题上的推理能力)以及 Ilge Akkaya(OpenAI 研究员,特别关注 AI 在数学和逻辑推理方面的应用)也在近日与红杉美国合伙人 Sonya Huang 以及 Pat Grady 展开了一场对谈。
图片
Noam Brown 强调,o1 模型的一个核心突破在于延长推理时间带来的能力提升。通过增加推理时间,模型在解决复杂问题时表现出了自发的回溯和自我修正能力,这使得它在像数独和复杂逻辑等问题上表现尤为出色。通过这种“延时推理”,o1 能更有效地应对高难度任务。

图片

Hunter Lightman 认为,o1 模型不仅通过推理时间扩展了 AI 的能力,还为未来AI的发展开辟了新的方向。与之前依赖数据和计算能力扩展的AI模型相比,o1 的推理时间扩展代表了一种全新的维度。这种方式有望在未来的模型版本(如 o2 和 o3 )中进一步扩展 AI 能力。

Noam Brown 和 Hunter Lightman 承认,尽管 o1 在推理任务中表现出色,但它并非在所有任务上都优于其他 AI 模型。尤其在非 STEM 领域,模型的表现还有很大的改进空间。

以下为这次对话的主要内容,enjoy~

Sonya Huang:

o1 是 OpenAI 首次在推理时间计算上的重大尝试。我们很期待和团队讨论推理、思维链、推理时间缩放定律等话题。

Ilge、Hunter、 Noam ,感谢你们的到来,并祝贺你们将 o1 推向公众。我想先问一下,你们从一开始就确信这个项目会成功吗?

Noam Brown:

我认为我们从一开始就相信这一方向有潜力,但实际走到今天的路径并不清晰。你看看 o1 ,这并不是一夜之间的成果。实际上,这背后有多年研究,而其中很多研究并没有取得成效。

我认为 OpenAI 的领导层一直坚信这一方向必须有结果,并愿意在早期遇到挫折的情况下继续投资,这最终得到了回报。

Hunter Lightman:

我一开始没有像 Noam 那样有强烈的信心。我已经花了很长时间研究语言模型,试图让它们学会做数学和其他推理任务。研究的过程总是有起有落,有时有效果,有时没有。

但当我们发现这一方向开始奏效时,我经历了一个“啊哈”的时刻,那时我读了一些模型生成的输出,它们以不同的方式处理问题解决。这就是我信心确立的时刻。

我认为 OpenAI 整体上采取了一种非常实证、数据驱动的方式,当数据开始向你展示趋势并且变得有意义时,我们就会追随这些线索。而这也是我信心确立的时刻。

Sonya Huang:

Ilge,你已经在 OpenAI 工作了很长时间,五年半了。你怎么看?你从一开始就相信这个方法会成功吗?

Ilge Akkaya:

不,我加入后曾几次判断错误。我一开始以为机器人技术是通向 AGI 的道路,所以我最初加入了机器人团队,认为 AGI 会出现在具身智能中。然而,事情并没有按预期发展。

在我工作的这段时间, Chat GPT  的出现无疑是个范式转变。我们能够向全世界展示一个通用接口,我很高兴我们现在有了一条可能的新的前进路径来推动这一推理范式。但对我来说,长时间里,这条路径并不明显。

Pat Grady:

我知道你们出于很好的理由,不能公开过多的细节,但你们能否大致介绍一下它的工作原理?

Ilge Akkaya:

o1 模型系列使用了强化学习,能够进行推理,或者你也可以称之为“思考”。它与我们过去使用的大型语言模型有本质上的不同。

我们已经看到它在很多不同的推理领域中都表现出良好的泛化能力,我们也在最近展示了这一点。所以我们对这个新模型家族带来的范式转变感到非常兴奋。

Pat Grady:

对于那些不太熟悉当前语言模型技术的人来说,什么是推理?你能否简要定义一下推理,并解释为什么它很重要?

Noam Brown:

一个简单的理解是,推理是针对那些思考更长时间有明显好处的问题的能力。你知道,人类有经典的系统 1 和系统 2思维。

系统 1 是自动化的、直觉式的反应,系统 2 则是较慢的、更有流程驱动的反应。对于某些任务,延长思考时间并不会带来更多好处。

比如,如果我问你“不丹的首都是哪里?”,你可以花两年的时间思考,但这不会提高你的正确率。顺便说一句,不丹的首都是什么?其实我也不知道。不过,确实有一些问题,通过延长思考时间可以带来更高的准确性。

一个经典的例子是数独,你可以理论上尝试各种解法,并且正确解法非常容易识别。因此,只要有足够的时间,你最终会找到正确答案。

很多 AI 领域的研究者对推理有不同的定义,我不主张这是唯一的定义。每个人都有自己的看法,但我认为推理是那些通过考虑更多选项和思考更长时间可以获益的问题。

你可以把它理解为一个生成-验证的差距问题:生成一个正确的解法很难,但识别正确解法却相对简单。

我认为所有问题都在这个光谱上,比如数独这种验证比生成容易的问题,以及验证和生成同样困难的问题,比如不丹的首都叫什么。

Sonya Huang:

我想问一下关于 AlphaGo 和 Noam 的背景,你以前在扑克和其他游戏方面的研究有多大程度与 o1 的工作相关?它们之间有哪些相似和不同之处?

Noam Brown:

我认为 o1 的一大亮点是它确实在思考时间增加的情况下表现更好。如果回顾过去的许多 AI 突破, AlphaGo 是一个经典的例子。

它的一个显著特点是会花很长时间在每步行动前思考,可能需要 30 秒来决定下一步。如果让它瞬间做出决策,它其实比不上顶级的人类选手。因此,它的表现很大程度上依赖于这些额外的思考时间。

问题在于,这种额外的思考时间是依靠蒙特卡洛树搜索(MCTS)进行的,这是一种特定的推理方法,适用于围棋,但在我早期研究的扑克游戏中却行不通。因此,尽管神经网络部分(系统 1 的部分)是通用的,但当时存在的推理方法仍然是特定领域的。

o1 的另一大亮点是它的推理方式非常通用,适用于许多不同的领域。我们已经看到了用户使用它的各种方式,也验证了这一点。

Hunter Lightman:

语言模型一直吸引我的地方是,它们的接口非常通用,可以适应各种问题。这次我们感到兴奋的是,我们认为我们有一种方法,可以在这种通用接口上做强化学习,并期待看到未来的可能性。

Pat Grady:

你提到生成和验证之间的差距,这在不同问题上有所不同。那么在推理过程中,这种差距的处理方法是否是一致的,或者在不同的情况下有不同的方法?

Hunter Lightman:

这次发布让我兴奋的地方之一是, o1 能够交到那么多人手里,我们可以看到它在哪些问题上表现好,哪些问题上表现差。这是 OpenAI 的核心战略之一,我们通过迭代式的技术部署,观察世界如何与它互动,并不断改进我们的研究。

Pat Grady:

在推特上,有什么用户使用 o1 的方式让你感到意外吗?

Ilge Akkaya:

让我非常兴奋的一件事是,我看到很多医生和研究人员把这个模型当作头脑风暴的合作伙伴。他们在癌症研究领域工作多年,正在与模型讨论一些关于基因发现和基因疗法的想法。

虽然模型无法自行进行研究,但它可以成为人类的良好协作伙伴,帮助推动科学研究的进步。

Sonya Huang:

Noam ,我记得你曾发推说,深度强化学习(Deep RL)已经走出了“幻灭低谷”。你能详细解释一下你的意思吗?

Noam Brown:

我觉得这一切可以追溯到 Atari 游戏,DeepMind 在 Atari 上的深度强化学习( DRL )结果曾经非常热门。我当时正在攻读博士学位,大约在2015到2019年之间, DRL 无疑是最热门的研究领域。

在某些方面,确实取得了大量研究成果,但也忽略了一些问题。其中一个被忽视的方面就是利用海量数据进行训练的力量,比如 GPT 的训练方式。在某种程度上,这非常令人惊讶。

看看 AlphaGo ,它无疑是深度强化学习领域的重大成就之一。尽管其中有RL(强化学习)步骤,但更重要的是, AlphaGo 在这之前还进行了基于人类数据的学习,这才是让 AlphaGo 真正起飞的原因。

然后,研究界逐渐出现了一种观点,认为不依赖人类数据、从零开始学习才是“纯正”的方向。

这也导致了 AlphaZero 的出现,尽管它的表现比 AlphaGo 更好,但这个过程的转变忽视了像 GPT 这样的大规模数据训练的潜力,除了 OpenAI 之外,很少有人关注这个方向。

OpenAI 在初期看到了这个方向的一些初步成果,并有决心加倍投入。所以, DRL 确实经历了一段高峰期,随后随着  GPT-3 等大模型的成功, DRL 的热度有所下降,许多人对它失去了信心。不过,随着 o1 的出现,我们看到了 DRL 在与其他元素结合时仍然具有强大的潜力。

Sonya Huang:

我认为很多 DRL 的成果是在相对明确的设定下产生的。游戏中的 o1 是首次在更广泛的、无界环境中使用 DRL 的案例之一吗?这样理解对吗?

Noam Brown:

是的,我觉得这是一个很好的观点。许多 DRL 的亮点成果确实非常酷,但它们的适用范围也非常狭窄。虽然我们确实看到了一些相当有用且通用的 DRL 成果,但没有什么可以与  GPT-4 的影响力相比。因此,我认为在新的范式下, DRL 未来将达到类似的影响力水平。

Sonya Huang:

我还记得 AlphaGo 的比赛结果,尤其是在一些锦标赛中的第 37 手,那个动作震惊了所有人。

你在 o1 的研究中是否见到过类似的时刻,模型给出了一个让所有人意外的答案,但实际上是对的,甚至比人类的想法更好?你们是否有过那样的时刻,还是认为可能要等到 o2 或 o3 ?

Hunter Lightman:

我想起了一个例子,我们在为IOI(国际信息学奥林匹克竞赛)做准备时,把模型投入到解决问题的过程中。有一个问题, o1 执意要用一种奇怪的方法去解决,具体细节我不太清楚,我的同事们,他们更擅长竞赛编程,试图弄清楚为什么模型会这样做。

我认为这并不是“天才之作”的那种时刻,而是模型不知道正确的解决方法,于是反复尝试,直到找到另一个解决方案。它确实解决了问题,只是用了一个看起来很奇怪的方法。我记得这是一个有趣的例子,在编程竞赛的结果中,模型确实以一种不同于人类的方式思考问题。

Ilge Akkaya:

我看到模型解决了一些几何问题,它的思考方式让我感到很惊讶。比如,你让模型计算一个球体上的点,然后询问某个事件发生的概率,模型会说:“让我们先来想象这个场景,放置这些点,然后从这个角度思考。”

这种用语言进行可视化的方式真的让我吃惊,就像我作为人类会做的那样,而看到 o1 也能做到这一点,真的让我感到意外。

Sonya Huang:

非常有趣。这不仅是人类可以理解的,还能扩展我们对问题的思考方式,而不仅仅是某种难以理解的机器语言。这真的非常吸引人。

Hunter Lightman:

是的,我确实认为 o1 的结果中最酷的一点是,它的思维链是可以被人类解释的,这使我们能够理解模型的思维过程。

Pat Grady:

在研究过程中有没有出现那种“啊哈”的时刻?Hunter,你提到一开始你并不确信这个方向会成功,有没有某个时刻让你突然意识到:“天啊,这个方向真的有效!”

Hunter Lightman:

我在 OpenAI 已经工作了大约两年半的时间,大部分时间都在努力让模型更好地解决数学问题。我们为此做了很多工作,构建了各种定制系统。

在 o1 的研究过程中,有一次我们训练了一个新模型,应用了一些修复和修改,结果它在数学评估中的得分比我们之前所有的尝试都高,甚至超过了我们设计的定制系统。

我们查看了思维链的变化,发现它们表现出了不同的特征。特别是当模型犯错时,它会说:“等等,这不对,我需要退一步,重新找出正确的方向。”我们称这种行为为“回退”(backtracking)。

我已经等待很长时间想看到模型能够回退的例子,当我看到这个得分和思维链时,我意识到这真的有潜力,我需要更新我的看法。这就是我信心确立的时刻。

Noam Brown:

我觉得对我来说也是类似的故事。大概是在同一时间,我加入时的想法是,像 Chat GPT  这样的模型并没有真正“思考”才作出回应,它的反应非常快速。

而在 AI 领域的游戏中,能够花更多时间思考可以获得更好的结果。所以我一直在思考,如何将这一点引入到语言模型中。

这听起来简单,但实际上如何实现是个挑战。我们讨论了很多如何让模型拥有反思能力,如何在犯错时回退或尝试不同的方法。

最终,我们决定尝试一个基本的方案,就是让 AI 思考更长时间。结果我们发现,一旦 AI 能有更多的思考时间,它几乎是自发地发展出这些能力,包括回退和自我修正。

这些都是我们想让模型实现的,而现在通过这样一个简单且可扩展的方式就实现了。

Noam Brown:

这对我来说是一个关键时刻,那时我意识到我们可以进一步推动这个方向,而且方向非常明确。

Hunter Lightman:

我一直在理解 Noam 对“推理计算”(conviction compute)的信心有多强大。我记得他刚加入时,我们的很多一对一对话都围绕着测试时计算的力量展开。

在项目进行的多个阶段, Noam 都会说:“为什么不让模型思考更长时间?”然后我们就这么做了,结果模型表现得更好。他看着我们时的表情有点好笑,仿佛在说:“为什么我们之前没这么做?”

Sonya Huang:

我们在你们的邮件中注意到, o1 在 STEM 领域表现得非常好,明显优于你们之前的模型。对此有没有一个大致的解释?为什么会这样?

Noam Brown:

我之前提到过,有些任务,比如推理任务,验证一个答案比生成一个答案要容易。STEM领域的问题往往属于难以推理的问题类型。所以这就是我们看到 o1 在STEM学科表现更好的一个重要原因。

Sonya Huang:

明白。我想补充一个问题,我们在你们发布的研究论文中看到, o1 通过了你们的研究工程师面试,而且通过率相当高。对此你怎么看?这是否意味着未来 OpenAI 会雇佣 o1 来代替人类工程师?

Hunter Lightman:

我认为我们还没有达到那个水平。我觉得还有更多工作要做。

Sonya Huang:

不过要达到 100% 还是很难的,对吧?

Hunter Lightman:

也许我们需要更好的面试方法。但至少在我看来, o1 已经比之前的模型更像一个编程伙伴。我认为它已经在我们的代码库中提交了几次代码变更。

从某种意义上讲,它确实像一个软件工程师,因为软件工程也是一个受益于长时间推理的STEM领域。

我认为当前模型在进行推理时只思考了几分钟,但如果我们继续扩展这个趋势,让 o1 思考更长时间,它可能会完成更多类似的任务。

Noam Brown:

你可以知道我们实现了 AGI 的那一天就是当我们下架所有招聘信息,而公司状况要么非常好,要么非常差的时候。

Sonya Huang:

你认为要让 o1 在人文学科上表现出色需要做些什么?你认为推理、逻辑和STEM领域的优势会随着推理时间的扩展自然延伸到人文学科吗?还是说会有其他因素?

Noam Brown:

如你所说,我们发布了模型,也很好奇它擅长什么、不擅长什么,用户会用它来做什么。我认为模型的原始智能和它在实际任务中的有用性之间仍然存在差距。

在某些方面它非常有用,但在更多方面它可以更有用。我认为我们还有很多迭代的空间,来解锁这种更广泛的通用性。

Pat Grady:

那么我很好奇, OpenAI 内部有没有关于模型能力与实际应用需求之间差距的哲学?你们是否有一个明确的思考过程来决定哪些工作应该由模型完成,哪些工作应留给围绕API的生态系统来解决?

Noam Brown:

在我加入之前,我就听说 OpenAI 非常专注于 AGI ,而我当时对这一点还有些怀疑。基本上,我刚开始工作的第一天,公司召开了一次全员会议,Sam站在大家面前,明确表示 AGI 是我们的首要目标。

因此,最明确的答案就是 AGI 是我们的终极目标,没有某个单一的应用是我们的优先事项,除了是否能够使用 AGI 。

Pat Grady:

你们对 AGI 有明确的定义吗?

Noam Brown:

每个人都有自己的定义,对吧?这也是为什么这个问题很有趣。

Hunter Lightman:

我不知道我是否有一个明确的定义。我只是觉得这可能与 AI 系统能够完成的经济上有价值的工作比例有关。

我认为在未来几年内,这个比例会迅速上升。我不确定具体会如何发展,但这可能是那种“当你感受到时你就知道”的情况。

我们可能会不断调整标准,直到有一天我们与这些 AI 同事一起工作,而它们完成了我们现在做的许多工作,而我们则在做不同的工作。整个工作生态系统都会发生变化。

Pat Grady:

你的一位同事曾很好地表达了推理在通往 AGI 的过程中重要性。他的大意是:任何工作都可能遇到障碍,而帮助你克服这些障碍的正是你的推理能力。

我认为这是一个不错的连接,说明了推理为何重要以及与 AGI 目标的关系。你们认为这是理解推理为何重要的最佳方式吗?还是有其他的框架可以帮助我们理解推理?

Hunter Lightman:

我认为这是一个有待确认的问题。因为在开发这些 AI 系统和模型的过程中,我们看到了它们的各种表现和不足。

我们在开发、评估这些系统时学到了很多新东西,并试图了解它们的能力。例如,一些想到的事情是战略规划、头脑风暴等。

Pat Grady:

如果要让 AI 像优秀的产品经理一样好,它需要大量的创意和对用户需求的洞察。这算是推理吗?还是说这是一种与推理不同的创造力,需要以不同的方式处理?

当你开始将这些计划转化为行动时,你还需要进行战略规划,考虑如何推动组织达成目标,这算是推理吗?

Hunter Lightman:

也许部分是推理,但也许部分是其他东西。最终,我们可能会觉得这些都是推理,或者我们会发明一个新词,描述需要采取的新步骤。

Ilge Akkaya:

我不确定我们能将这个推理问题推进到什么程度。每当我思考这个广泛的推理问题时,数学领域的例子总是很有帮助。

我们花了很多时间阅读模型在解数学问题时的思维过程。你能看到,当它遇到障碍时,它会退回去,尝试另一个方法。

这种思维过程让我觉得,也许它能推广到数学之外的领域,这给了我一些希望。虽然我不知道最终答案是什么,但希望如此吧。

Hunter Lightman:

让我感到困惑的是, o1 已经在数学上比我更厉害了,但它在软件工程上却不如我。所以这里存在某种不匹配。

Pat Grady:

看来还有很多工作要做。

Hunter Lightman:

是的,还有一些事情要做。如果我的整个工作只是解Amy问题和参加高中数学竞赛,我可能早就失业了。但现在我仍然有工作可做。

Pat Grady:

既然你提到了“思维链”,即观察背后的推理过程。我有个问题,也许你们无法回答,但就当是有趣的讨论吧。

在你们发布 o1 的博客中,你们解释了为什么要隐藏“思维链”,并说部分原因是出于竞争考虑。我好奇,这是否是一个有争议的决定?因为我可以想象,这种决定很有逻辑,但也可以想象你们可能选择公开它。能否谈谈这是一个有争议的决定吗?

Noam Brown:

我不认为这是有争议的。与不分享前沿模型的权重出于类似的原因,分享模型的思维过程也存在很多风险。我认为这是一个类似的决策。

Sonya Huang:

能不能给外行解释一下,什么是“思维链”?可以举个例子吗?

Ilge Akkaya:

例如,如果有人问你解决一个积分问题,大多数人会需要一张纸和一支笔,然后一步步推导出从复杂方程到最终答案的过程。

这个过程可能会得到一个答案,比如1,但如何得出这个答案?这就是数学领域中的“思维链”。

Sonya Huang:

让我们谈谈未来的路径,推理时间的扩展定律。在你们发布的研究中,这是我认为最重要的图表。这似乎是一个具有深远意义的结果,类似于预训练中的扩展定律。你同意这种看法吗?这对领域的影响会是什么?

Noam Brown:

我认为它确实具有深远意义。在我们准备发布 o1 时,我一直在想人们是否会认识到它的重要性。虽然我们提到了这一点,但这是个比较微妙的点。

我真的很惊讶和感激,看到这么多人理解了这一点的意义。一直以来,人们对 AI 可能遇到瓶颈或停滞的担忧很多,尤其是预训练变得越来越昂贵,还有关于是否有足够数据的问题。

o1 ,特别是 o1 Preview,传达的主要信息并不是它今天的能力,而是它对未来的意义。我们能够在扩展中发现一个迄今未被充分开发的维度,我认为这是一个重大突破,这意味着天花板比许多人想象的要高得多。

Sonya Huang:

如果让模型思考数小时、数月甚至数年,会发生什么?

Hunter Lightman:

我们还没有让 o1 运行那么久,所以还不知道。

Pat Grady:

现在有个后台任务在运行吗?可能正在思考如何解决世界和平问题。

Hunter Lightman:

有一个类似的故事叫《最后的问题》,讲的是一个巨大的计算机 AI 被问到如何逆转熵,它回答:“我需要更长的时间思考。”

故事接着讲述了,10年后,它还在思考,100 年后,1000 年后,甚至一万年后,它还在思考。

Ilge Akkaya:

“目前还没有足够的信息来提供有意义的答案。”类似于这样。

Sonya Huang:

你对未来有猜测吗?你觉得当模型的推理时间越来越长,它的智力极限会达到什么程度?目前我看到的报告是,它的智商大约是 120,那它会无限提高吗?

Hunter Lightman:

一个重要的点是,120智商只是某个测试中的分数,并不意味着它在所有领域都有120的推理能力。

实际上,我们也谈到,它在某些方面的表现不如 40 分,比如在创造性写作等方面。所以,推测这个模型的能力是很复杂的。

Noam Brown:

这是一个重要的点。我们谈论这些基准测试时,强调了GPQA,这是一个博士生会遇到的问题集合,通常由博士生来解答,但 AI 现在在这个基准测试中超过了很多博士生。

这并不意味着它在所有方面都比博士生聪明。博士生和人类能够做很多 AI 无法做到的事情。所以我们在看这些测试结果时,应该理解它只是测量了某些特定的能力,通常是人类智力的代理,但对 AI 来说,意义有所不同。

Hunter Lightman:

也许可以这样说,我希望看到的是,当我们让模型在它已经擅长的领域思考更长时间时,它会变得更好。

我的一个“推特时刻”是看到我以前的数学教授发推,他对 o1 印象深刻,因为他给了它一个之前从未被 AI 解过的证明,而它竟然完成了。


这让我感觉我们正处于某个有趣的转折点,模型有望成为一个有用的数学研究工具。如果它能够帮助完成一些小的引理和证明,那将是一个真正的突破。我希望通过让它思考更长时间,我们能够在这方面取得更大的进展。

要预测它在当前不擅长的领域会如何表现,这对我来说很难。我们如何让它在这些方面变得更好?未来会如何发展

但是我们可以以它现在擅长的领域为基础,假设如果我们让它在这些领域思考更久,它将成为数学研究的好助手、软件工程的好帮手。这样我们就可以开始预测未来的发展方向。

Pat Grady:

关于扩展的瓶颈问题。对于预训练来说,很明显你需要大量的计算能力、大量的数据,这些都需要大量的资金。所以很容易理解预训练在扩展方面的瓶颈。那么,推理时间的扩展会有什么限制呢?

Noam Brown:

当 GPT-2和  GPT-3 发布时,很明显只要投入更多的数据和GPU,它们的性能就会显著提升。

但即便如此,从 GPT-2到  GPT-3 再到  GPT-4 之间还是花了好几年的时间。这不仅仅是一个简单的想法,还有很多工作要做,才能把它扩展到一个非常大的规模。

我认为这里也面临类似的挑战,虽然这个想法很简单,但要真正扩展它,需要投入大量的工作。所以我认为这是挑战所在。

Hunter Lightman:

是的,我认为对于那些学术背景较强的研究人员来说,加入 OpenAI 后可能会发现令人惊讶的事情之一是,很多问题最终并不是研究问题,而是工程问题。

构建大规模系统、训练大规模系统,以及运行那些早已发明的算法,或者前所未有的系统,都是非常困难的。这需要大量艰难的工程工作,才能让这些东西扩展起来。

Ilge Akkaya:

此外,我们还需要知道该在什么标准上测试模型。我们确实有标准的评估基准,但可能还有一些我们尚未测试到的领域。所以我们也在寻找这些领域,在这些地方我们可以投入更多的计算资源,获得更好的测试结果。

Sonya Huang:

我一直很难理解的是,当你给模型提供接近无限的计算资源时,会发生什么。作为一个人类,即便是 Terrence Tao 这样的大脑天才,也会受到生理限制。

而你可以无限增加推理时间的计算资源。这是否意味着,所有的数学定理最终都可以通过这种方法解出来?或者你认为会有某种极限?

Hunter Lightman:

无限计算资源是很大的计算能力。

Sonya Huang:

接近无限。

Hunter Lightman:

这让我想起了Asimov的故事,如果你让它思考一万年,也许能解决某些问题。但说实话,我们还不知道这种扩展对于解决真正难的数学定理意味着什么。可能真的需要让它思考一千年,才能解决一些未解的核心数学问题。

Noam Brown:

是的,我的意思是,如果你让它思考足够长的时间,理论上你可以把一切形式化,像Lean那样,把所有可能的证明都遍历一遍,最终你会发现定理。

Hunter Lightman:

我们已经有算法可以解决任何数学问题,也许这就是你要说的。

Noam Brown:

是的,只要有无限的时间,你可以做很多事情。当然,随着时间的延长,回报会逐渐递减,但的确可以取得一些进展。

Sonya Huang:

非常公平。你认为关于 o1 最大的误解是什么?

Noam Brown:

我觉得一个大误解是,当项目名称“草莓”(strawberry)泄露时,人们以为这是因为网络上流传的一个问题:“草莓有多少小时?”其实并不是这样。

当我们看到这个问题时,我们还很担心是不是有内部信息泄露。但据我们所知,这只是个巧合,我们的项目名字碰巧叫“草莓”,而那个问题也恰好流行起来了。

Hunter Lightman:

据我所知,之所以叫“草莓”,只是因为当时有人需要想个代号,而屋里有个人正好在吃一盒草莓,事情就这样定了。

Pat Grady:

相比之下,这个名字比“休斯顿”要更容易让人联想。

Noam Brown:

我觉得我对它被理解得这么好感到印象深刻。我们在发布时确实不确定大家会怎么接受。内部有过很大的争论:人们会不会失望,因为它并不能在所有方面都更好?还是他们会对它惊人的数学表现感到印象深刻?

我们真正想传达的并不是这个模型目前的能力,而是它未来的发展方向。我不确定大家是否能理解这一点,但似乎很多人确实领会了,所以我对此非常满意。

Sonya Huang:

关于 o1 ,你觉得有没有什么批评是合理的?

Hunter Lightman:

毫无疑问,它并不能在所有方面表现得更好。它是一个有点古怪的模型,很多人在互联网上发现了不同的提示方式来更好地使用它。

仍然有很多怪异的边缘案例,我很期待看到生态系统如何基于我们的平台开发出更智能的产品和应用。

Hunter Lightman:

我觉得我们还处于非常早期的阶段。有点像一年前人们开始真正搞清楚如何使用  GPT-4 及其语言模型程序,进而使得软件工程工具变得更智能。我希望我们会看到类似的进展,人们会基于 o1 进行创新。

Pat Grady:

说到这一点,有一件我们还没讨论的事情,就是 o1 Mini。我听到很多人对 o1 Mini非常兴奋,因为大家普遍对小模型感兴趣。

如果你能够保留推理能力并提取部分世界知识,那么这是一件非常不错的事情。我很好奇,你们对 o1 Mini和它代表的方向有多兴奋?

Ilge Akkaya:

这个模型非常令人兴奋。对我们研究人员来说,如果模型运行得快,它的用途就更广泛。所以我们也很喜欢它。它们有不同的用途。

我们很高兴有一个更便宜、更快的版本,还有一个更重、更慢的版本。它们在不同的场景中都非常有用。所以,我们对取得的这种平衡感到非常兴奋。

Hunter Lightman:

我喜欢这种表述,这强调了进展的重要性。o1 Mini让我们能够更快地迭代,希望对广大的用户生态系统来说,它也能让他们更快地迭代。所以它至少在这一点上是非常有用且令人兴奋的产物。

Sonya Huang:

对于那些在 AI 领域创业的创始人们来说,他们应该如何考虑何时使用  GPT-4 ,何时使用 o1 ?是否需要他们从事 STEM、编程、数学相关的工作才能使用 o1 ?他们应该怎么思考这个问题?

Hunter Lightman:

我希望他们能帮我们找到答案。

Noam Brown:

我们发布 o1 Preview的动机之一是想看看人们最终会用它做什么,怎么使用它。事实上,我们还讨论过是否值得发布 o1 Preview。

但最终发布的原因之一就是为了让大家尽早接触到它,看看它在什么场景下最有用,在哪些场景下不太合适,以及如何改进它以满足用户的需求。

Sonya Huang:

你觉得人们目前最容易低估 o1 的是什么?

Hunter Lightman:

我觉得这证明了我们给模型命名的能力有所提升,至少我们没叫它“  GPT-4 .5 思维模式”。

Sonya Huang:

不过,我觉得“草莓”这个名字挺可爱的。

Pat Grady:

我觉得“思维模式”也挺有意思。你们对 o2 或 o3 最兴奋的是什么?

Ilge Akkaya:

我们还没有达到没想法的地步,所以我很期待接下来的进展。我们会继续研究,最期待的是获得反馈。作为研究人员,我们显然在自己擅长的领域有一定的偏见,但通过产品的使用,我们将收到来自各个不同领域的反馈。也许我们会发现一些超出我们想象的领域值得深入推进。