AI创投周报|OpenAI版「Her」语音助手全量开放,马斯克支持的AI图像Black Forest Labs筹资1亿美元

图片


AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者(Alpha Founders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。


图片


本周,我们观察到以下AI领域的新动向和新趋势:


1. OpenAI版「Her」全量开放,新增记忆、自定义指令功能,50种语言支持。OpenAI的Her语音助手现已全面开放,支持50多种语言,包括中文,提供更自然的交流体验,允许用户打断对话,并加入自定义口音、语调等个性化设置。新增五种音色选项,目前主要服务ChatGPT Plus和Team用户,不久将向所有用户开放。OpenAI强调,Her的推出旨在提供更丰富的用户体验,随着服务的全面开放,用户将能探索更多新功能和应用场景。


2. Meta Connect 2024:Quest 3S、Orion AR眼镜原型、多模态AI模型Llama 3.2亮相。在Meta Connect 2024大会上,Meta发布了起售价299美元的Quest 3S VR头显,预计10月15日上市,支持多任务处理和VR透视功能,还对Quest 3进行了降价。同时,展示了Orion AR眼镜原型,尽管还未商用,但展示了Meta在AR技术上的进步。此外,Meta推出了多模态AI模型Llama 3.2,允许语音交互,将集成到Messenger和Instagram。Meta还计划为Ray-Ban智能眼镜增加AI功能,并展示了实时语言翻译功能。


3. 马斯克支持的AI图像Black Forest Labs筹资1亿美元,估值10亿美元。AI图像模型初创公司Black Forest Labs正进行1亿美元融资,可能获得Lightspeed投资,估值达10亿美元。该公司两个月前刚刚结束了3100万美元的融资,估值为 1.5 亿美元,吸引了包括Andreessen Horowitz、General Catalyst等知名投资机构的支持。Black Forest Labs由Stability AI技术团队创立,其Flux.1模型被用于马斯克的http://X.ai的Grok聊天机器人。


图片

人工智能产品和技术的新突破


1. OpenAI版「Her」全量开放,新增记忆、自定义指令功能,50种语言支持


OpenAI的高级语音助手Her终于全量开放,支持50多种语言,包括中文。用户现在可以体验到更加自然、流畅的对话体验,并且可以随时打断对话。Her新增了自定义指令和记忆功能,允许用户个性化设置对话口音、语调、节奏,甚至可以自定义AI对自己的称呼。此外,Her还改进了口音,增加了五种新的音色,分别是Vale、Spruce、Arbor、Maple、Sol,每个音色都有独特的特点。


目前,Her的高级语音功能主要面向ChatGPT Plus和Team用户,但本周会逐步向所有用户开放。在ChatGPT界面,用户将收到通知,提示他们可以开始使用Her。尽管Her的推出备受期待,但其使用也存在一些限制,例如,高级语音功能有每日使用时间的限制,且可能会根据情况进行调整。Her的高级语音模式在欧盟、英国、瑞士、冰岛、挪威和列支敦士登等地区暂时不可用,这引起了当地用户的不满。同时,GPTs无法与高级语音功能一起使用,这可能会让一些用户感到失望。尽管如此,Her的推出仍然引起了广泛的关注和讨论。


OpenAI表示,Her的推出是他们对用户期待的回应,希望能够提供更加丰富和个性化的用户体验。随着Her的全面开放,用户将有机会探索更多新的玩法和应用场景。


来源:

2. Meta Connect 2024:Quest 3S、Orion AR眼镜原型、多模态AI模型Llama 3.2亮相


在2024年度Meta Connect开发者大会上,Meta公司发布了多款新产品和技术,包括299美元起售的Quest 3S VR头显、Orion AR眼镜原型以及多模态AI模型Llama 3.2。


Quest 3S VR头显:这款设备定位为多任务处理计算机,将于10月15日上市,不仅可以用于观影和VR健身应用,还能运行各种应用程序。Meta强调了Quest 3S的VR透视功能,即用户可以通过头显上的摄像头看到现实世界的画面,并通过一个专门的按钮快速切换透视模式。Meta表示,Quest 3S具有多任务处理和运行应用程序的能力,因此将其定位为一款计算设备,而不是游戏机。Meta首席执行官扎克伯格指出,Quest 3S能够完成一般计算机能做的各种任务,是一种完整的解决方案。此外,Meta还宣布对去年推出的Quest 3进行降价,512GB版本从650美元降至500美元。


图片


Orion AR眼镜原型:Orion是Meta首款全功能AR眼镜原型,目前尚未有明确的上市时间表,短时间内不会出售给消费者。Orion使用腕带组件接收用户的神经信号,允许用户通过大脑控制眼镜。Orion可以用来玩游戏,也可以通过虚拟化身与世界各地的人进行视频会议。Orion的展示向投资者和员工展示了VR和AR技术的发展方向。


图片


多模态AI模型Llama 3.2:Meta展示了其在AI领域的最新进展,Llama 3.2模型将允许用户通过语音与AI进行互动,而不仅仅是书面文本。这一技术将被集成到Messenger和Instagram等Meta应用中,用户现在可以通过Messenger和Instagram等Meta旗下的应用与Meta AI实现自然语音对话,例如让Meta AI启动智能手机拍照等。


图片


此外,Meta还宣布为Ray-Ban智能眼镜添加Meta AI功能,并展示了实时语言翻译功能,通过集成先进的AI算法和机器学习模型,Ray-Ban Meta眼镜能够实时识别和翻译语音,并将翻译结果显示在镜片上。该功能允许用户通过Ray-Ban Meta眼镜进行英语和西班牙语的实时对话。这项功能不仅适用于语言学习者,也为旅行者和商务人士提供了极大的便利。


图片


3. 美国Ai2研究所发布开源多模态语言模型Molmo,性能媲美顶级专有模型


美国人工智能研究所Ai2最近发布了名为Molmo的一系列开源多模态语言模型,这些模型在性能上可与OpenAI、Google和Anthropic的顶级专有模型相媲美。最大的Molmo模型拥有720亿个参数,在理解图像、图表和文档等测试中,表现优于OpenAI的GPT-4o。Ai2表示,其较小的70亿参数Molmo模型在性能上接近OpenAI的最先进模型,这一成就得益于其高效的数据收集和训练方法。


Ai2的首席执行官Ali Farhadi强调,Molmo证明了开源AI开发能够与封闭的专有模型相媲美,并且开放性使得其他开发者可以在其基础上构建应用程序。Molmo模型基于一个显著更小且经过精心筛选的数据集进行训练,该数据集仅包含60万张图像,模型参数在10亿到720亿之间。这种对高质量数据的关注,而不是不加选择地抓取数据,使得该模型在使用更少资源的情况下依然能够表现良好。


Ai2通过让人工标注者对模型训练数据集中的图像进行详细描述来实现快速训练,这些描述跨越多页文本,标注者被要求口述他们所看到的内容,而不是通过打字输入。随后,他们利用AI技术将这些语音转换为数据,从而加快了训练过程,并减少了所需的计算能力。


Molmo模型能够“标注”事物,通过识别与查询相关的像素来分析图像中的元素。在演示中,Ai2的研究人员展示了模型如何识别图像中的各种元素,例如甲板椅,并在研究人员的要求下准确指出了图像中的其他物体。

法哈迪表示,大型且昂贵的专有模型无法实现高效利用资金和时间的目标,而开源模型则可以。这项工作表明,开源人工智能同样能够高效地进行构建。



4. 谷歌Gemini 1.5 AI模型升级:数学能力超越o1,成本更低,性能提升


谷歌在人工智能领域取得新进展,宣布了两款新型Gemini 1.5 AI模型的重大升级。此次升级包括两个型号:Gemini-1.5-Pro-002和Gemini-1.5-Flash-002。这些升级在性能和成本效益方面都带来了显著的改进。


在MMLU-Pro基准测试中,新模型性能提高了约7%,而在MATH和HiddenMath基准测试中,两种模型均实现了约20%的显著改进,Pro版本以86.5%的成绩超过了o1-preview的85.5%。此外,在视觉理解和代码生成的评估中也取得了2%-7%的提升。不仅性能有所提升,效益也更为可观。1.5pro型号的输入和输出token价格降低了50%以上,速率限制提升2-3倍,输出速度提高了2倍,延迟降低了3倍。默认过滤器设置也进行了更新,以使模型更易于使用并降低成本。


开发者可以通过Google AI Studio和Gemini API免费访问这些新模型。有网友测试了Gemini 1.5 Flash的音频转录功能,表现出色,转录准确率接近99%,甚至在音频清晰的情况下达到100%。


尽管Gemini 1.5在数学基准测试中的表现超越了o1-mini和o1完整版,但仍有观点认为这些基准测试已饱和,且在现实世界的数学问题解决上,新模型还未能与o1系列相提并论。


图片


5. Anthropic寻求新融资,估值达400亿美元,AI领域竞争加剧


Anthropic,作为OpenAI的主要竞争对手,正在与投资者进行新一轮融资的初步讨论,预计估值将达到300亿至400亿美元,这一数字是其年初估值的两倍。这家成立仅三年的AI初创公司,由前OpenAI研究员Dario Amodei等人创立,专注于开发安全可靠的AI系统,其核心产品Claude对话式AI助手在某些方面甚至超越了ChatGPT,以强大的推理能力和更好的事实准确性赢得了用户的青睐。


尽管Anthropic的谈判还处于早期阶段,但该公司可能会利用投资银行来帮助完成融资,预计在下个月的摩根士丹利私人科技大会上向投资者展示。Anthropic去年从亚马逊、谷歌以及风险投资公司门罗风投等投资者那里筹集了至少70亿美元。今年6月,Anthropic发布了其最先进的模型Claude 3.5 Sonnet,并在其网站上将GitLab、Intuit和Jane Street列为客户。Anthropic预计到今年年底,其年化收入将达到约8亿美元,尽管这一数字仅为预期的三分之一。


Anthropic的融资计划是在OpenAI即将完成的50亿至70亿美元融资,估值约1500亿美元的背景下进行的。如果这轮融资成功,其估值将是年化总收入预测值的50倍左右。相比之下,OpenAI的财务状况更加稳健,年收入有望达到40亿美元左右。Anthropic和OpenAI的竞争代表了AI发展的两种路径:追求快速突破与注重安全可控。


图片


6. o1 研发团队完整采访:Ilya早期曾参与,灵感源于AlphaGo


OpenAI的o1模型自问世以来,以其卓越的推理能力成为AI领域的焦点。o1能够在数学竞赛中夺金,甚至在科学问答中超越人类专家。近期,OpenAI公布了研发团队首次集体访谈的视频,o1背后的研发团队围坐在一起,分享了模型的成长历程和开发中的“顿悟时刻”。o1的灵感部分源自AlphaGo,团队探索了如何将强化学习和监督学习结合,创造出强大的AI。


o1项目由Jakub Pachocki等人早期探索,后由Jerry Tworek整合并推进。模型的关键进展包括生成连贯的思维链,这标志着研究方向的明确。o1-mini的诞生则是为了降低成本,使更多用户体验到o1系列的推理能力。


团队在研发过程中遇到了许多挑战,如训练大型模型的困难,需要投入大量计算资源,并确保模型不偏离正确轨道。测试模型时,他们采用了从推特上搜寻问题的方式,验证o1是否能做到。o1的推理能力在数学、编码等领域超越人类,让AGI(人工通用智能)的未来更加明朗。团队成员分享了他们的“Aha moments”,其中包括训练出第一个可以生成连贯思维链的模型,以及发现o1在临近截止时间前迅速给出答案的能力。


o1模型的成功展示了通过规划、纠错,AI能够解决世界上的新问题。这一新范式解锁了模型以前无法完成的任务,不仅仅是回答某些查询,而是实际上已经通过规划、纠正错误,泛化出新的能力。研究者表示,在短时间内,模型将成为自身发展,越来越强大的贡献者。


图片
人工智能初创公司的新融资


1. 马斯克支持的AI图像Black Forest Labs筹资1亿美元,估值10亿美元


Black Forest Labs,一家专注于生成性AI图像模型的初创公司,正在以10亿美元的估值进行1亿美元的融资,可能吸引到Lightspeed的投资。该公司开发的生成性AI图像模型Flux.1,已被埃隆·马斯克的X.ai用于其Grok聊天机器人的图像生成服务。Black Forest Labs计划推出更多技术产品,包括一款先进的文本到视频工具,尽管尚未公布具体发布日期。


Black Forest Labs由Stability AI背后技术的工程师团队共同创立,公司的创始人和团队成员包括Andreas Blattmann、Patrick Esser、Dominik Lorenz和首席执行官Robin Rombach,他们在图像生成领域具有颠覆性技术背景。


该公司两个月前刚刚结束了3100万美元的融资,估值为 1.5 亿美元。吸引了包括Andreessen Horowitz、General Catalyst等知名投资机构的支持,以及Nvidia的Timo Aila、Oculus联合创始人Brendan Iribe、苹果AI研究科学家Vladlen Koltun等科技巨头的个人投资者。


2. Harmonic完成7500万美元A轮融资,红杉资本领投


人工智能初创公司Harmonic已经完成了7500万美元的A轮融资,投后估值达到3.25亿美元,这笔资金将用于推动其数学超级智能(MSI)项目的研发。本轮融资由红杉资本领投,Index Ventures、Jasper Lau的Era Funds、GreatPoint Ventures、DTS Global Partners、Palo Alto Networks Inc.等公司参投。


Harmonic成立于2023年,专注于开发超越人类数学能力的人工智能系统。创始人Tudor Achim认为,现有语言模型在数学推理上存在不足,因此Harmonic致力于构建能够精确推理的AI系统。Harmonic的第一个MSI模型亚里士多德(Aristotle),基于微积分编程语言Lean 4开发,能够将自然语言中的数学问题形式化,并验证推理过程的正确性,已在MiniF2F数学基准测试中取得了90%的成绩。


Harmonic的MSI技术预计将应用于对准确性要求极高的行业,如航空航天、计算机芯片设计、工业系统和医疗保健。此外,Harmonic还积极探索将AIGC(人工智能生成内容)与MSI技术结合,拓宽AI的应用范围。借助AIGC,Harmonic可以将复杂的数学推理简化为自然语言解释,让非专业用户也能理解,并生成高质量的合成数据,增强AI的学习能力。


3. 保险科技企业Akur8完成1.2亿美元C轮融资,由One Peak领投


保险科技企业Akur8宣布完成了1.2亿美元的C轮融资,使得其总筹集投资额达到1.8亿美元。本轮融资由One Peak领投,Partners Group和历史投资者Guidewire Software, Inc.(NYSE:GWRE)参与。


Akur8依赖其尖端的透明人工智能技术(Transparent AI),实现了保险定价模型的自动化构建,这一过程保持高度的透明度和可控性,符合全球监管机构的标准。该公司的SaaS云服务平台融合了机器学习技术,极大提升了保险定价的速度和精确度,从而增强了整体的工作效率。


新资金将用于以下几个方面:(1)推动产品创新,为其保险定价平台增加两个新模块:保险定价决策Optim与新定价引擎Deploy;(2)利用Arius收购推动增长,针对保险准备金领域进行市场细分;(3)推动Akur8在北美等关键增长市场的战略扩张。


Akur8在2023年实现了显著的增长,客户群扩大了一倍,目前为40多个国家的250多家客户提供服务,包括AXA、Generali、Munich Re、MAPFRE、HDI、Tokio Marine和MS&AD等,超过3000名精算师每天使用Akur8构建他们的定价模型和储备预测。


4. 印度初创公司Nurix AI获2750万美元种子轮融资,General Catalyst和Accel共同领投


位于印度班加罗尔的Nurix AI公司宣布已完成2750万美元的种子轮融资,由General Catalyst和Accel共同领投,Merkai Labs也参与其中。公司将致力于在构建平台时考虑到不同的系统和数据类型,以保持一致和准确的响应。为了推动增长,公司将把新资金用于扩大亚洲和北美的运营,加强研发能力,并在行业内与AI硬件和产品制造商建立战略联盟。

Nurix成立于2024年初,创始人Mukesh Bansal是MyJio、PhonePe和Cred等知名初创公司的前高管。Nurix AI专注于为企业服务如销售和客户支持构建定制AI agent,并在Bansal的创业孵化器Meraki Labs中孵化,目前团队约有20人。Nurix的平台可以访问企业数据,实现实时响应,并使用专有语音技术来提升客户和员工的体验。Nurix还提供Agent Assist,使员工能够获得生成式AI能力,以提供AI增强的生产力。该公司的愿景是利用AI代理处理大量任务,从而提高生产力和质量。

5. 由Nvidia前工程师创立的Vsim,种子轮为机器人模拟技术筹集了2400万美元


位于曼彻斯特的初创公司Vsim,由Nvidia的两位前工程师创立,该公司正在开发一种新的物理模拟框架,并已从EQT Ventures和其他投资者那里筹集了2150万美元的种子资金。此前,Vsim已秘密筹集了大约250万美元,使得总筹资额达到了2400万美元。这笔最新投资使公司的估值约为1亿美元。


Vsim的联合创始人Michelle Lu和Kier Storey在纽卡斯尔大学攻读物理专业时相识,并在近二十年的职业生涯中一直并肩工作。他们在Bizarre Creations游戏工作室开始了自己的创业生涯,该工作室后来被Activision收购,之后两人又转战Nvidia,专注于模拟技术的开发超过十年。


Lu表示,他们选择机器人训练作为首个应用案例,是因为市场上存在缺口。随着处理能力、机械学和AI的进步,机器人似乎正处于一个转折点。Vsim的技术潜力远不止于此,它可能会被用于研究、娱乐、制造业、制药和机器人等多个领域。


尽管Nvidia等公司也在构建机器人模拟技术,但Vsim正在将这些技术提升到一个新的水平。EQT Ventures的合伙人Sandra Malmberg表示,Vsim正在构建的高性能模拟平台,可以实时、准确、快速地行动,并考虑到环境和现实世界的动态和不可预测性。

6. Scribenote已完成820万美元的种子轮融资,利用AI为兽医生成医疗记录


初创公司Scribenote已完成820万美元的种子轮融资,美国私人风险投资公司Andreessen Horowitz领投,参与此次融资的还有风投公司Inovia Capital和Velocity Fund。


Scribenote的创始人Ryan Gallagher因为看到自己作为兽医的妹妹所面临的问题而开发了这款产品,旨在帮助兽医减少编写医疗记录的时间,让他们能够专注于患者护理和与客户建立关系。


Scribenote的AI Scribe产品专门为兽医提供服务,通过AI技术自动化医疗记录的生成,已经为北美数百家诊所的数千名兽医提供服务,显著提高了工作效率。该产品在不到一年的时间里自动化了超过150万条医疗记录,每天为兽医节省多达两个小时的时间。产品主要生成SOAP(主观、客观、评估和计划)笔记报告,专注于B端兽医机构,整合了PIMS等系统,价格相对较高。

本文由阿尔法公社综合自多个信息源,并在ChatGPT的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。


关于阿尔法公社