OpenAI 「Her」高级语音功能全开放!重庆话、北京儿话都贼溜!

图片夕小瑶科技说 原创
作者 | 付奶茶
OpenAI的Her终于全面开放了!

今日凌晨,OpenAI公开宣布Her高级语音模式正式全面开放,在OpenAI的移动端APP上即可体验!

图片

面向ChatGPT Plus和Team用户,一周会逐步全量推送。但是免费用户还是薅不到。。

此外,还带上了一些更新,增加自定义指令、记忆、5种新的声音和改进的口音。与标准语音模式进行区分(黑色旋转球),高级语音将以蓝色旋转球表示。

要知道距离5月OpenAI预告宣布很快带来高级语音模式已经过去4个月了![狗头表情]

图片

OpenAI的CTO和Greg也都在社媒平台为her打call。

图片
图片

接下来,和奶茶一起看下Her的风评吧~

Her的优点!

个性化定义

OpenAI的研究员表示,用户可以自定义指令,以让模型以某种口音发音、记住事件以及用户想要如何被称呼等。在官方给的例子中,展示在ChatGPT中,设置面板可以细节化prompt的相关背景知识来固定GPT-4o说话方式:

图片

OpenAI的技术项目主管Charlotte展示了一个例子,她告诉了GPT她的名字和居住地址,那当她使用语音交互的时候,ChatGPT会自动带入她的身份信息和地理位置给她合适的解答:

支持50种语音

能用50种语言说我迟到了!而且 很擅长于方言!

  1. 重庆话
  1. 北京儿话
  1. 伦敦腔
  1. 日本人说英文

AI有活人感了!

根据OpenAI发布的视频,科学家Drew描述了他对GPT-4o语音系统的使用体验:

  • 由于系统的语音表达生动流畅且响应迅速,他常在忙碌工作时将其作为一个静默但随时待命的个人助理,仿佛有一个思维敏捷的朋友坐在身旁。这个系统在不主动发言的情况下保持静默,但一旦提出问题,它能够立即作出反应,并根据对话的语气和内容进行调整,将简短的问题扩展为深入的对话。

  • 不仅能提供信息、倾听想法、激发思考,还能根据特定的提示扮演不同的角色,成为一个理想的多功能助理。由于模型能够忠实地遵循指令并灵活地适应用户的需求,其用途远不止作为个人助理。

  • 你可以让它扮演面试官,帮助你进行模拟面试;或者创建一个完全虚拟的场景,与它一起进行沉浸式的角色扮演。

他强调,所有这些功能都是建立在系统流畅的语速和快速响应的基础上,几乎消除了机械感,让用户感觉仿佛在与真人交谈

而且,根据网友们的使用,Her有感知力、情感意识,而且极其聪明。极度的丝滑流畅+ 有情感可以说非常有活人感了!!!

图片

Her的缺点!

上文说好了Her的种种优点,奶茶也发现虽然Her看似很好用,但是实打实有很多让网友诟病的地方!

图片

时长限制

Her每天可以使用的时间是有限制的,当使用时间不到15分钟的时候,系统会提示!制的,而且每天都有可能会调整。因此我们并不能和ta在24小时内随心畅谈。

不能和GPTs组合

GPTs不能和Her高级语言模式一起使用,这对于习惯用GPTs语音版本的用户来说并不少特别友好!

识别别人的情绪是犯法!

虽然Her目前在欧盟地区无法使用,但许多欧盟网友对此表示遗憾。他们希望能够体验这款高级语言AI,期待未来能够合法使用:

图片

但是,根据欧盟的相关法律,Her未经他人许可擅自识别他人情绪的做法属于违法行为。欧盟高度重视个人隐私权的保护,因此对此类行为有严格的管控措施:

图片

OpenAI与Google似乎有愁

还有一个很有意思的是,这次OpenAI又和Google撞车了!

图片

谷歌于9月25日清晨推出两款全新语言模型:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。

图片

其中,Gemini Pro是一款中型付费模型,面向付费用户开放;而Gemini Flash则是从Gemini Pro蒸馏而来的免费模型,它在今年5月的谷歌I/O大会上首次亮相,目前普通用户可免费使用,开发者也拥有一定的免费API使用配额。

此次升级的重点在于:Gemini Pro的价格下调逾50%、Gemini Flash的速率限制提高一倍、Gemini Pro的速率限制提高约3倍、输出速度加快2倍、延迟降低3倍,同时过滤器切换为可选加入。

本次Gemini模型的发布由谷歌员工Logan Kilpatrick主理对外沟通,他曾担任OpenAI的开发者关系负责人,于2024年加盟谷歌。

图片

有趣的是!有媒体报道称Meta在本周也将推出名人语调的音频对话功能!

图片

图片

参考资料