Claude 3.5 Sonnet 碾压 o1：“想”太多不如直接“做”！

野生app主

2024-10-24 08:45发布于上海

全文1102字，阅读约需4分钟，帮我划重点

划重点

01Anthropic团队推出了升级版Claude 3.5 Sonnet模型，可直接接管和控制电脑。

02与OpenAI的o1思维链模型相比，Claude 3.5 Sonnet在跑分上取得了全面超越。

03然而，真正令人震撼的是Claude 3.5 Sonnet的全新交互方式，能够直接操作执行。

04该模型在案例中展示了控制电脑的能力，如查询信息、规划行程和完成编程任务。

05国内厂商需加把劲，尽快体验到这种技术，提升AI应用和BI应用的用户体验。

以上内容由腾讯混元大模型生成，仅供参考

断更一个月，终于有新模型让我振奋了！‍

Claude 3.5 Sonnet 升级版

昨天，铺天盖地的消息都是关于Anthropic团队推出的升级版Claude 3.5 Sonnet模型，新模型竟然可以直接接管和控制电脑！

我已经一个多月没更新文章了，上次讨论的还是OpenAI的o1“思维链”模型，它学会了类似人类的“慢思考”。

但Claude 3.5 Sonnet的出现，无疑是碾压了o1！

在跑分上，Claude 3.5 Sonnet全面超越了o1。👇

但仅仅在跑分上超越，还不足以称之为碾压。

真正让我感到震撼的是它 “控制电脑（computer use）” 的全新交互方式。

Anthropic官方对这种能力的描述是：像人类一样使用计算机——查看屏幕、移动光标、点击按钮、输入文本。

官方案例

来看看Anthropic发布的官方演示视频：👇

● 案例一：

Prompt——我的朋友要来旧金山，明天早上我想和他一起在金门大桥看日出。我们从太平洋高地来。你能帮我们找一个好的观景点，查一下开车时间和日出时间，然后安排一个日程安排，让我们有足够的时间到达那里吗？

用户提出需求，希望找一个观景点看日出，并规划行程。Claude不仅打开了Chrome浏览器，在Google搜索了目的地和用户之间的距离，还查询了明天的日出时间，并在日历上规划了具体行程。

太酷了～完美打脸了o1思维链！Claude用实力诠释：只会一步步 “想” 和 “说” 没什么了不起，能够直接操作执行才是王道！才是未来AI该有的模样！

● 案例二：

Claude打开了Claude官网，让另一个Claude帮忙完成任务，哈哈……完美闭环！

之后，Claude又根据其他指令，将网站保存在本地，用VS Code打开，并通过终端命令成功启动。

鉴于Claude的编程能力是当前大模型中当之无愧的No.1。我不禁想问问：何时能雇佣一位AI程序员，帮我优化业余时间开发的小程序和小游戏，帮我去众包平台接私活赚外快呢？哈哈哈！

● 案例三：

Prompt——使用供应商电子表格，或CRM系统中的数据，填写“蚂蚁设备公司”的供应商申请表。

这是工作中的典型场景，让我们看看Claude的表现……

用户让Claude处理繁琐的表格任务。然后，Claude就把这些工作中的脏活累活都做完了！打工人狂喜！

国内何时上线？‍‍‍‍‍

看到这里，不少朋友肯定和我一样好奇：国内什么时候能用上这项技术？

在人工智能领域，国内的大模型能力正在迎头赶上。

今年2月OpenAI推出Sora时，有人持悲观态度，认为国内视频模型短期内难以达到同等水平。

然而，仅仅过去了4个月，快手可灵、智谱清影、MiniMax便相继推出了赶超Sora的视频模型。反观Sora，至今仍是“期货”。

因此，国内的厂商们，加把劲！💪 让我们尽快体验到“控制电脑”的能力！

届时，诸多AI应用、BI应用的用户体验，将实现质的飞跃。创投圈也将迎来新一轮的热潮！

当然，我们最期盼的是，未来国产模型能够引领创新，而不仅仅是跟随发展的步伐。

欢迎加入乌托邦 · AI 玩家的「共学共创」乐园

查看原图 8K