AI创投周报是阿尔法公社推出的聚焦于以生成式AI为代表的人工智能新浪潮的创投资讯周报。阿尔法公社发现和投资非凡创业者(Alpha Founders),相信非凡创业者们在技术、商业和社会方面的巨大推动力,他们指引着创投生态的风向。
本周,我们观察到以下AI领域的新动向和新趋势:
1. 姚班马腾宇团队数学证明:推理链足够长,Transformer模型问题解决无极限。斯隆奖得主马腾宇与Google Brain推理团队创建者Denny Zhou的研究证明,Transformer模型在足够长的推理链(Chain of Thought, CoT)支持下,能够模拟任意多项式大小的数字电路,论文已被ICLR 2024收录。实验验证了CoT在模运算、置换群组合等四个核心问题上的有效性,显示深度较浅的模型也能解决复杂问题。此外,研究表明,存在常数层数的Transformer,通过思维链模拟布尔电路计算,理论上具备解决可计算问题的潜力。
2. 微软Office全家桶革命性升级,o1模型助力重塑工作流。微软发布Office引入o1模型,强化AI在办公自动化中的应用,展现三个亮点:1、Copilot Pages作为多重AI协作工具,提升团队效率。2、Excel、PPT、Word等应用通过o1模型增强,如Excel集成Python代码,PPT的Narrative Builder功能简化演示文稿制作。3、Copilot智能体受GPTs启发,支持低代码创建,简化企业自动化流程创建。
3. 李飞飞创办的空间智能公司World Labs完成2.3亿美元融资,英伟达参投。斯坦福大学教授李飞飞创办的World Labs完成2.3亿美元首轮融资,估值超10亿美元。融资由Andreessen Horowitz、New Enterprise Associates和Radical Ventures领投,AMD、Intel Capital、NVentures等参与。World Labs团队由24人组成,1/3为华人,专注于开发理解3D世界的空间智能大世界模型(LWM),旨在为艺术家、设计师等提供支持。公司计划2025年推出首款产品,推动AI技术发展。
人工智能产品和技术的新突破
1. 姚班马腾宇团队数学证明:推理链足够长,Transformer模型问题解决无极限
近期,一项由斯隆奖得主马腾宇与Google Brain推理团队创建者Denny Zhou联合进行的研究,为人工智能领域带来了突破性的进展。这项研究通过数学方法证明了Transformer的能力可以模拟任意多项式大小的数字电路,论文已被ICLR 2024收录。这意味着Transformer模型在足够长的推理链(Chain of Thought, CoT)支持下,理论上能够解决任何问题。
研究指出,传统的Transformer模型在表达能力上受限,但引入CoT后,即使是固定深度和常数精度的模型,也能处理更复杂的问题。实验在模运算、置换群组合、迭代平方和电路值问题等四个核心问题上验证了CoT的有效性,证明了即使是深度较浅的模型,也能通过CoT解决复杂问题。
此外,研究还证明了,对于任意可以用多项式大小布尔电路计算的函数,存在一个仅有常数层数的Transformer,通过足够多步数的思维链来模拟电路的计算过程。这意味着,理论上,Transformer可以模拟任意T(n)大小电路,从而具备了解决可计算问题的潜力。
尽管这项研究在理论上为Transformer的能力提供了强有力的支持,但实际应用中仍面临诸多挑战,如如何将实际问题用布尔电路表示。
2. 微软Office全家桶革命性升级,o1模型助力重塑工作流
微软在最新发布会上宣布了Office办公全家桶的革命性升级,引入了先进的o1模型,旨在推动AI技术在办公自动化领域的广泛应用。这一升级标志着AI时代下办公方式的重大革新,推出全新的工作流——Web+Work+Pages。
Copilot Pages是一个专为多重AI协作而设计的全新AI工具,集成了上网搜索、内容策划和团队写作的界面,提供了动态、持久的“画布”,使团队协作更加高效。
此外,Office全家桶中的Excel、PPT、Word等应用都得到了o1模型的加持,提高了推理性能和响应速度。Excel中Python代码的集成,与数据分析库如pandas、Matplotlib等直接交互,使得数据分析和处理更加便捷。而Narrative Builder功能,让用户能够通过简单的提示快速生成PPT,大大简化了制作演示文稿的过程。
微软还推出了Copilot智能体,它受到GPTs的启发,但功能更加强大,支持低代码方式创建智能体,简化了企业自动化流程的创建。微软表示,财富500强中有60%的企业正在使用Copilot,其用户数量正在快速增长。
3. OpenAI投资的1X公司推出专用世界模型,推动人形机器人技术发展
人形机器人初创公司1X,获得OpenAI的重金投资后,近日公布了其背后的“世界模型”技术,预示着机器人领域可能即将迎来类似ChatGPT的突破性时刻。
1X发布的“世界模型”是一个虚拟模拟器,能够根据真实数据生成针对不同场景的行为预测,使NEO能够能够预测物体的相互作用、掉落物体的影响、部分可观测性、可变形物体和铰接物体等行为。这个模型能够生成高保真视频,并在神经网络中重新规划、模拟和评估,这对于机器人与物理世界的交互至关重要。尽管NEO展现出了自我反思的能力,但尚未觉醒自我意识。
1X创始人兼CEO Bernt Bornich强调,这一技术首次证明了人形机器人数据正显著地推进Scaling Law,即随着数据、算力、模型规模的增加,AI系统的能力将如何扩展。谷歌DeepMind的高级研究员Ted Xiao认为,1X的“学习型”世界模型能够随着物理交互数据的增加而不断改进,这可能是在多智能体环境中实现可重复和可扩展评估的唯一方向。
尽管1X的世界模型在物体一致性和物理定律遵守方面存在一些问题,但它在模拟物体交互方面展现出了巨大潜力。例如,它能够模拟抓取盒子、叠T恤、拉开窗帘等动作。1X研究团队通过收集超过5000小时的EVE人形机器人数据,训练出了能够根据观察和动作预测未来视频的模型。
4. Google DeepMind发布了ALOHA和DemoStart,为机器人的灵巧性研究提供了新的方向
Google DeepMind在机器人灵巧性研究领域取得了显著的AI进展,宣布了两项新技术:ALOHA Unleashed和DemoStart,使机器人能够学习执行更复杂和新颖的双手操作任务。
ALOHA Unleashed基于斯坦福大学的ALOHA平台,专为为双臂远程操作设计,使机器人能够通过观察人类的演示来学习新任务。该系统通过改进的人体工学设计和强化学习过程,使机器人能够通过少量演示快速学习新任务。研究团队通过远程操作收集数据,然后采用扩散方法预测机器人行为,使机器人能够独立执行如系鞋带、挂衬衫等高难度任务。
DemoStart则利用则利用开源物理模拟器MuJoCo,通过强化学习算法,帮助机器人在模拟环境中学习灵巧行为,这些行为对复杂的多指手机器人尤其有用。该系统首先从简单的状态开始学习,逐步过渡到更复杂的状态,直到掌握任务。在模拟任务中的成功率超过98%,而在现实世界中的成功率也相当高,尤其是在立方体调整方向和提升任务中的成功率达到了97%。
这两个系统的结合使用,不仅提高了机器人的灵巧性,还减少了实际物理实验的成本和时间。DemoStart的渐进式学习能够自动生成课程,弥合模拟与真实之间的差距,从而更容易地将知识从模拟转移到物理机器人中。
Google近期宣布了DataGemma,这是首个旨在将大型语言模型(LLMs)与现实世界统计数据相连接的开放模型。这一创新是为了减少AI生成内容时的“幻觉”现象,即模型有时错误地提供不准确的信息。
DataGemma通过利用Google的Data Commons中的数据,通过两种不同的方法来提升语言模型的准确性:检索式生成(RIG)和增强式检索生成(RAG),增强了LLMs的事实性和推理能力。Data Commons是一个包含超过2400亿个数据点的公共知识图谱,涵盖了来自联合国、世界卫生组织等权威机构的统计变量。
RIG通过主动查询可信来源并用Data Commons中的数据进行事实核查,增强了语言模型Gemma 2的能力。RAG方法则使语言模型能够整合超出其训练数据的相关信息,吸收更多上下文,从而产生更全面和丰富的输出。
DataGemma在模型开始生成响应之前,从Data Commons中检索相关上下文信息,从而最小化幻觉风险并提高回答的准确性。Google的初步研究结果显示,使用RIG和RAG方法在处理数字事实时显著提高了语言模型的准确性。Google计划将这些增强功能逐步集成到Gemma和Gemini模型中。
6. Snap抢跑Meta发布新一代AR眼镜Spectacles '24,未来将合作OpenAI集成AIGC带来沉浸式体验
在2024年Snap全球合作伙伴峰会上,Snap公司发布了新一代Spectacles '24 AR眼镜,这是一款由全新 Snap OS 提供支持的独立 AR 眼镜,集成了新的 AI 功能,并通过增强现实增强社交互动。
为了实现这些功能,Snap在眼镜框架中采用了波导+LCoS光学技术,包括两个处理器、散热室、四个摄像头用于捕捉周围环境和手势跟踪,以及通过微投影仪显示图像。这款设备创造了一个高大、深的视野,Snap声称其视野类似于在10英尺外的100英寸显示屏,而且设备相对轻巧(226克),并且能够根据外部光线自动调暗。
Snap还推出了全新的Snap OS系统,采用“手势+语音”交互方式,允许用户与 My AI 交互。启动沉浸式镜头,并将 Snapchat 体验扩展到 3D 体验。新系统尝试注入社交功能,包括识别附近其他眼镜并无缝加入会话以获得共享AR体验的能力。此外,支持“旁观者”模式,允许使用智能手机的人查看AR会话,以及将手机应用镜像到Spectacles中。
Spectacles 现已面向美国的开发人员推出,需要99 USD/month为期一年的订阅费用。未来,Snap将通过与OpenAI的合作,将云托管的多模态AI模型功能引入Spectacles眼镜。
法国AI初创公司Mistral AI发布了首个多模态模型Pixtral 12B,集成了语言和视觉能力,能识别手绘稿、理解复杂公式和图表。该模型基于文本模型Nemo 12B训练,通过上传图片或提供链接,模型能回答问题,展现出强大的图像识别和文本理解能力。在多项基准测试中,Pixtral 12B的性能超越了其他开源模型。
Pixtral 12B的架构包含多模态Transformer解码器和视觉Transformer编码器,能处理原生图像和文档。模型的上下文长度为128k,具有40层,14336个隐藏维度,32个注意力头。在视觉方面,它支持1024×1024图像分辨率,用于高级图像处理。
Mistral AI自去年成立以来,完成6.4亿美元融资,估值60亿美元。公司并推出了与GPT-4相当的模型Mistral Large 2,还推出了专家混合模型Mixtral 8x22B,包含编码模型Codestral和数学推理模型。尽管Mistral AI的模型在性能上给人留下深刻印象,但Hugging Face技术负责人发现评测数据存在问题,指出Pixtral 12B在多项评测中的成绩不如参数量更少的模型Qwen 2 VL 7B。
OpenAI的公司首席运营官Brad Lightcap宣布ChatGPT目前已拥有超过1100万的付费用户,这些用户包括超过1000万的个人用户以及通过高级商业选项注册的100万用户。这一庞大的用户群体为OpenAI带来了每月超过2.25亿美元的收入,预计年收入将超过27亿美元。
OpenAI为满足企业客户需求,推出了针对商业团队的高级计划,这些计划包括为企业提供更高级的功能和增强支持。ChatGPT在不同行业的应用展现了其在AI领域的影响力和广泛的实用性,满足了多样化的用户需求。
此外,据MSN报道,OpenAI正在考虑对其非盈利结构进行变更,以适应业务发展的需求。对非盈利结构的调整可能涉及资金筹集、投资增加以及与商业伙伴的合作等多个方面。
1. 李飞飞创办的空间智能公司World Labs完成2.3亿美元融资,英伟达参投
斯坦福大学教授、被誉为人工智能领域“教母”的李飞飞所创办的公司World Labs宣布完成2.3亿美元的首轮融资。此次融资由Andreessen Horowitz、New Enterprise Associates和Radical Ventures领投,AMD、Intel Capital、英伟达的NVentures等也参与了投资。融资完成后,World Labs的估值超过了10亿美元。
World Labs团队由24人组成,其中1/3为华人,包括李飞飞本人以及斯坦福大学助理教授吴佳俊等。团队成员多为计算机视觉和图形学领域的专家,拥有深厚的3D重建技术积累。公司的目标是开发能够理解、推理3D世界的空间智能大世界模型(LWM),并期望未来训练出具有广泛功能的模型,为艺术家、设计师、开发者和工程师等专业人士提供支持。该公司计划在2025年推出首款产品,将推动AI技术的进一步发展,并为相关行业带来新的机遇。
2. 人力资源AI初创Mercor 以 2.5 亿美元估值完成 3000 万美元 A 轮融资,Benchmark领投
人力资源科技初创公司Mercor完成了 3000 万美元的 A 轮融资,估值为 2.5 亿美元。本轮融资由 Benchmark 领投,Victor Lazarte 加入董事会。其他参与者包括 Peter Thiel、Jack Dorsey、Adam D'Angelo、Larry Summers 等。该公司打算利用这些资金来扩大运营和业务范围。
Mercor 提供一个人工智能平台,该平台使用先进的算法来审查数十万份个人资料,进行个性化面试,并将候选人与合适的机会联系起来,减少传统招聘中固有的偏见和低效率。用户可以上传简历并完成 20 分钟的面试。之后,Mercor 会将求职申请发送给数千家公司,为应聘者寻找最佳职位。
Mercor由Brendan Foody、Adarsh Hiremath和Surya Midha于2023年1月共同创立,起初团队在哈佛大学和乔治敦大学的宿舍里自主创业,迅速将业务扩展到年度营收达到七位数。目前,Mercor已在20多个国家开展业务,与50多家公司合作,拥有超过20万的人才库。
3. AI 云服务初创Fal.ai 获得 2300 万美元种子轮及A轮融资,a16z和Kindred Ventures分别领投
Fal.ai 是一家利用人工智能技术开发音频、视频和图像生成平台的初创公司,近期宣布已完成2300万美元A轮与种子轮的融资,投资者包括Andreessen Horowitz(a16z)、Black Forest Labs联合创始人Robin Rombach,以及Perplexity首席执行官Aravind Srinivas。这笔融资分为两轮,1400万美元来自Kindred Ventures领投的A轮融资,剩下的900万美元则来自此前未公开的由a16z领投的种子轮融资。这笔资金将用于加速公司在AI生成媒体领域的研发和市场拓展。
Fal.ai 由Burkay Gur和Gorkem Yurtseven在2021年创立,他们洞察到疫情期间AI云基础设施需求的增长,尤其是对于运行生成式AI模型的需求。
公司推出的Fal平台,提供私有管理的计算和工作流服务,以及开源模型API,旨在满足企业对高效、安全的AI模型运行环境的需求,并使开发者能够轻松集成AI生成能力到自己的应用中。Fal.ai 还是首批托管Black Forest Labs的Flux模型的平台之一,该模型曾在X公司的聊天机器人Grok中用于图像生成。目前,Fal.ai 已经吸引了包括Perplexity、Photoroom、Freepik和PlayHT等在内的客户群体,证明了其在AI媒体生成领域的竞争力和市场潜力。
4. 虚拟员工公司11x.ai获2400万美元A轮融资,Benchmark领投
5. AI 编码助手 Supermaven 获 1200 万美元A轮融资,OpenAI 与Perplexity联合创始人鼎力支持
AI编码助手领域的新星Supermaven获得了1200万美元的A轮融资,这一轮融资由Bessemer Venture Partners领投,同时获得了OpenAI联合创始人John Schulman和Perplexity联合创始人Denis Yarats的支持。融资所得资金将用于技术研发、市场推广、用户体验优化和建立合作伙伴关系,以提升产品的智能化水平和市场覆盖范围。
Supermaven自2024年2月推出以来,市场份额稳步增长,其产品以自然语言处理能力、多功能支持和用户友好界面为主要特点,能够理解和处理复杂的编程需求,自动生成代码解决方案,并支持代码优化、错误检测和修复以及自动化测试等功能。公司内部数据显示,Supermaven的用户增长率在过去六个月内达到了150%,每月新增订阅用户超过5000人。
公司计划持续投入资源进行技术研发,特别是在自然语言处理和机器学习领域,以确保产品的技术领先优势,并快速响应市场需求,推出符合用户期望的新功能。同时,Supermaven也将注重数据的隐私和安全,避免数据泄露和滥用。公司将通过线上线下多种渠道在全球范围内有效推广产品。
本文由阿尔法公社综合自多个信息源,并在ChatGPT的辅助下写作,封面图片由Hidream.ai的Pixeling(千象)生成。