速递|OpenAI 推出了高级语音模式,增加了更多语音和全新外观

图片

图片来源:TechCrunch

OpenAI 宣布它将在周二向更多的 ChatGPT 付费用户推出高级语音模式(AVM)。这一音频功能使得与 ChatGPT 的对话更加自然,最初将向 ChatGPT 的 Plus 和 Teams 用户推出。企业和教育客户将于下周开始获得访问权限。

作为推广的一部分,AVM 正在进行重新设计。该功能现在由一个蓝色动画球体表示,而不是 OpenAI 在其 技术展示 中展示的动画黑点。

用户在 ChatGPT 应用中会收到一个弹窗,位于语音图标旁边,当 AVM 可用时。

高级语音将在本周内向所有 Plus 和 Team 用户推出,适用于 ChatGPT 应用。

在您耐心等待的同时,我们添加了自定义指令、记忆、五种新声音和改进的口音。

— OpenAI (@OpenAI) 2024 年 9 月 24 日

ChatGPT 还将获得五种新声音供用户尝试:Arbor、Maple、Sol、Spruce 和 Vale。这使得 ChatGPT 的声音总数达到九种(几乎和 Google 的 Gemini Live 一样多),还有 Breeze、Juniper、Cove 和 Ember。你可能会注意到这些名字都受到自然的启发,这可能是因为 AVM 的整个目的就是让使用 ChatGPT 的感觉更加自然。

这个阵容中缺少的一个声音是 Sky,这是 OpenAI 在春季更新中展示的声音,这导致了斯嘉丽·约翰逊的法律威胁。这位在电影《她》中扮演 AI 系统的女演员,声称 Sky 的声音听起来有点太像她自己的。OpenAI 迅速撤下了 Sky 的声音,表示它从未打算与约翰逊的声音相似,尽管当时几名员工在推特中提到了这部电影。

另一个在此次发布中缺失的功能是:OpenAI 在四个月前的春季更新中首次推出的 ChatGPT 视频和屏幕共享功能。该功能旨在让 GPT-4o 同时处理视觉和听觉信息。在演示中,一名 OpenAI 员工展示了如何向 ChatGPT 实时提问,关于你面前纸上的数学问题或你电脑屏幕上的代码。目前,OpenAI 尚未提供何时推出这些多模态功能的时间表。

OpenAI 表示,自从发布 AVM 的有限 alpha 测试以来,它已经做了一些改进。ChatGPT 的语音功能据说现在更能理解口音,公司还表示其对话更加流畅和快速。在我们对 AVM 的测试中,我们发现故障并不少见,但公司声称这已经得到了改善。

OpenAI 还在将 ChatGPT 的一些自定义功能扩展到 AVM:自定义指令,允许用户个性化 ChatGPT 的回应方式,以及记忆功能,允许 ChatGPT 记住对话以便后续参考。

OpenAI 的一位发言人表示,AVM 尚未在包括欧盟、英国、瑞士、冰岛、挪威和列支敦士登在内的多个地区推出。

编译:ChatGPT