Claude 3.5 Sonnet 碾压 o1:“想”太多不如直接“做”!

全文1102字,阅读约需4分钟,帮我划重点

划重点

01Anthropic团队推出了升级版Claude 3.5 Sonnet模型,可直接接管和控制电脑。

02与OpenAI的o1思维链模型相比,Claude 3.5 Sonnet在跑分上取得了全面超越。

03然而,真正令人震撼的是Claude 3.5 Sonnet的全新交互方式,能够直接操作执行。

04该模型在案例中展示了控制电脑的能力,如查询信息、规划行程和完成编程任务。

05国内厂商需加把劲,尽快体验到这种技术,提升AI应用和BI应用的用户体验。

以上内容由腾讯混元大模型生成,仅供参考

图片

断更一个月,终于有新模型让我振奋了!

图片

图片

Claude 3.5 Sonnet 升级版

昨天,铺天盖地的消息都是关于Anthropic团队推出的升级版Claude 3.5 Sonnet模型,新模型竟然可以直接接管和控制电脑!
我已经一个多月没更新文章了,上次讨论的还是OpenAI的o1“思维链”模型,它学会了类似人类的“慢思考”。
但Claude 3.5 Sonnet的出现,无疑是碾压了o1!
在跑分上,Claude 3.5 Sonnet全面超越了o1。👇
图片
但仅仅在跑分上超越,还不足以称之为碾压。
真正让我感到震撼的是它 “控制电脑(computer use)” 的全新交互方式。

Anthropic官方对这种能力的描述是:像人类一样使用计算机——查看屏幕、移动光标、点击按钮、输入文本。

图片

官方案例

来看看Anthropic发布的官方演示视频:👇

● 案例一:

Prompt——我的朋友要来旧金山,明天早上我想和他一起在金门大桥看日出。我们从太平洋高地来。你能帮我们找一个好的观景点,查一下开车时间和日出时间,然后安排一个日程安排,让我们有足够的时间到达那里吗?

用户提出需求,希望找一个观景点看日出,并规划行程。Claude不仅打开了Chrome浏览器,在Google搜索了目的地和用户之间的距离,还查询了明天的日出时间,并在日历上规划了具体行程。

图片

图片

太酷了~ 完美打脸了o1思维链!Claude用实力诠释:只会一步步 “想” 和 “说” 没什么了不起,能够直接操作执行才是王道!才是未来AI该有的模样!

● 案例二:
Claude打开了Claude官网,让另一个Claude帮忙完成任务,哈哈……完美闭环!
图片
图片
之后,Claude又根据其他指令,将网站保存在本地,用VS Code打开,并通过终端命令成功启动。

鉴于Claude的编程能力是当前大模型中当之无愧的No.1。我不禁想问问:何时能雇佣一位AI程序员,帮我优化业余时间开发的小程序和小游戏,帮我去众包平台接私活赚外快呢?哈哈哈!

● 案例三:

Prompt——使用供应商电子表格,或CRM系统中的数据,填写“蚂蚁设备公司”的供应商申请表。

这是工作中的典型场景,让我们看看Claude的表现……
图片
图片
用户让Claude处理繁琐的表格任务。然后,Claude就把这些工作中的脏活累活都做完了!打工人狂喜!

图片

国内何时上线?
看到这里,不少朋友肯定和我一样好奇:国内什么时候能用上这项技术?
在人工智能领域,国内的大模型能力正在迎头赶上。
今年2月OpenAI推出Sora时,有人持悲观态度,认为国内视频模型短期内难以达到同等水平。
然而,仅仅过去了4个月,快手可灵、智谱清影、MiniMax便相继推出了赶超Sora的视频模型。反观Sora,至今仍是“期货”。
因此,国内的厂商们,加把劲!💪 让我们尽快体验到“控制电脑”的能力!
届时,诸多AI应用、BI应用的用户体验,将实现质的飞跃。创投圈也将迎来新一轮的热潮!

当然,我们最期盼的是,未来国产模型能够引领创新,而不仅仅是跟随发展的步伐。

 欢迎加入乌托邦 · AI 玩家的「共学共创」乐园