你应该知道的:
OpenAI o1,它甚至已经不叫chatgpt了!
O1是一个使用强化学习训练的新大型语言模型,用于执行复杂推理。o1 在回答之前会思考——在回应用户之前,它可以产生一个长的内部思维链,从而大幅提升推理能力。
OpenAI o1 在编程竞赛问题(Codeforces)中排名第 89 百分位,在美国数学奥林匹克(AIME)的选拔赛中位列前 500 名学生,在物理、生物学和化学问题基准(GPQA)上超过了人类博士水平。
O1目前面对PLUS用户都是限制次数的!根据 OpenAI 的文档,目前 o1-preview 每周是限制 30 条消息,o1-mini 每周 50 条。所以,坤叔的建议很明确:别再用弱智吧的弱智问题浪费O1的智商了!
一个好的问题本身,也说明你是否有真正的思考。
以下,我们来展示以下问法,很多问法,你可能根本没想过(为便于中文用户理解,我打开了同步翻译):
医学问题(直接根据症状诊断):
编程问题:
数学:
所以,如果你没法给O1上难度,本质上是你对问题的理解还不够。
关于编程,O1的提升非常大。
相比于GPT-4o 获得了 808 的 Elo 评级3,这在人类竞争者中排名仅11%的位置。o1获得了 1807 的 Elo 评级,表现优于 93%的竞争者。
在数据分析、编码和数学等推理密集型类别中,o1-preview 比 GPT-4o 更受欢迎。然而,在自然语言任务上,o1-preview 并不受欢迎,这表明它并不适合所有用例。
也就是说,别拿O1来写文章,也别用它来玩弱智吧的文字游戏,真的没必要浪费O1。(O1非常贵!不值得!你那些文章不值得用它写!)
OPENAI也说了,这里面最有价值的东西,是思维链。
上面这图展示了思维的展开。
o1 模型引入了推理标记。模型使用这些推理标记进行“思考”,分解对提示的理解并考虑多种生成响应的方法。生成推理标记后,模型会将答案生成为可见的完成标记,并从其上下文中丢弃推理标记。每个步骤的输入和输出标记都会被保留,而推理标记则会被丢弃。
不过,具体的实现,OPENAI就不说了。
他们非常明白的表示:模型必须有权以未改变的形式表达其思想,因此我们无法将任何政策合规或用户偏好训练到思维链上。我们也不想将未对齐的思维链直接展示给用户。
不过,社区是不那么认为的,已经有人通过设计AGENT框架,通过思维链的AGENT,实现了强于GPT4O的推理AGENT(智能体)。
所以,应对不断升级的强大模型,Prompt engineering,本质上是如何发问和如何与AI沟通的技能,仍然具有非常大的重要性。