追问weekly | 过去一周,AI领域有哪些新突破?

全文10580字,阅读约需31分钟,帮我划重点

划重点

01特斯拉推出20辆Cybercab自动驾驶巴士,展示未来交通新面貌,其中部分车辆具备L4自动驾驶能力。

02OpenAI完成66亿美元融资,估值飙升至1570亿美元,创AI领域融资新纪录。

03Liquid AI推出非Transformer模型的革新之路,旨在构建高效基础模型。

04Pika Labs推出新款模型Pika 1.5,为AI视频特效界带来魔法体验。

05此外,多尺度洞见、RAG-Modulo等方法旨在提升AI在理解和执行人类指令方面的能力。

以上内容由腾讯混元大模型生成,仅供参考

图片

█ 政策法规与新闻

特斯拉的未来之车:20辆Cybercab闪耀登场

特斯拉惊爆新品:Robovan自动驾驶巴士

AI驱动的网络钓鱼和深度伪造带来的网络安全新威胁

用合成文本突破AI训练瓶颈,助力企业数据安全“变身”

长记忆AI助手:从技术奇迹到伦理挑战

OpenAI创下融资纪录,66亿美元估值飙升至1570亿

Pika 1.5来袭:AI视频特效界的"魔法师",物理法则都不好使了!

█  大模型与基础建设

MIT孵化的Liquid AI:非Transformer模型的革新之路

大语言模型的"假如"世界:反事实推理能力的突破

大语言模型的“瘦身”之道:高效搜索最优子结构

从理论到实践:解密Transformer如何学会多步推理

OpenAI发布Swarm:简化多智能体系统开发的实验性AI框架

交互式持续学习:快思考与慢思考的奇妙结合

█ 技术与研发

RAG-Modulo:让机器人学会"记忆"与"反思"的AI新方法

多尺度洞见:MSI-Agent如何提升智能体的决策与规划能力

Recall:让手机成为无所不能的记忆宫殿

Jagged Flash Attention:让推荐系统飞起来的秘密武器

GEM-RAG:让AI拥有"人性化"记忆

联邦学习中的优化新星:FedRepOpt的神奇之旅

PCMC:让AI像人类一样持续学习新知识

谷歌推出Astute RAG:应对LLM检索增强与知识冲突新方法

Embodied-RAG:让机器人像人一样思考和行动

多脑协作:让四足机器人在失明时依然健步如飞

多智能体协同决策的新突破——图生成器助力强化学习

解锁记忆的秘密:现代Hopfield网络在序列学习中的奇妙冒险

█ 应用与实践

SAP的AI助手Joule升级:开源LLM加持,企业级AI协作新纪元

人工智能血压监测新突破:Aktiia的11亿数据点训练成就

Rovo来了!Atlassian的AI小伙伴正式上岗,办公效率要起飞啦

弹琴也能"挥斥方遒"?Roli新品Airwave让你化身AI指挥家

Inflection AI推出企业版"有情有义"AI

QuikTok:AI陪伴老年人,科技温暖"银发族"

AI开发"傻瓜化",Python大神秒变全栈

AI医生上线!LLM驱动的智能医疗问答系统来了

Databricks推出5分钟AI应用开发神器

Anthropic推出批量处理API:AI界的“团购”时代来临

微软Copilot和Bing升级:AI助手变身全能选手

Facebook大变身:老牌社交网站如何用AI和本地化吸引Z世代?

英特尔携手谷歌云推出第四代至强处理器驱动的机密计算实例

█ 交叉与创新

Cove获600万美元融资,挑战传统对话模式

从大脑到AI:用霍普菲尔德视角解读思维链推理

KARMA:让机器人拥有“记忆”,家务变得更智能

记忆网络:一种全新的生物启发式人工智能学习方法

在多智能体系统中,团队合作的数学游戏

AI学会“人话”:让机器人与人类无障碍沟通的突破性研究

因果AI市场蓬勃发展,引领AI进入新纪元


*如需定位对应内容,请使用微信的检索功能

(点击右上方三点,找到查找页面内容按钮)


政策法规与新闻


特斯拉的未来之车:20辆Cybercab闪耀登场


在10月10日的“我们,机器人”(We, Robot)活动中,特斯拉正式展示了20辆Cybercab,揭开了这一新型自主驾驶车辆的神秘面纱。这些车辆的设计类似于更小、更流线型的Cybertruck,标志着特斯拉在自动驾驶技术领域的新探索。特斯拉CEO埃隆·马斯克不仅带来了车队,还在华纳兄弟迪斯科弗里工作室进行了简短的现场演示。


此次发布的Cybercab展示了特斯拉在全自主驾驶领域的长期愿景,特别是在实现不依赖方向盘和踏板的完全自动驾驶。然而,现阶段的自动驾驶软件(Full Self-Driving, FSD)仍依赖摄像头感知周围环境,并需要人类随时准备接管驾驶。虽然马斯克曾在2019年预测,到2020年将有超过100万辆配备完全自主驾驶功能的车辆上路,但这一目标尚未实现。


Cybercab原型揭示了特斯拉未来的商业计划:一方面,特斯拉将运营专用的机器人出租车队伍;另一方面,车主也可以将配备自主驾驶硬件的车辆加入特斯拉的叫车平台以赚取收入。这种策略类似于Uber或Airbnb的共享经济模式。尽管如此,Cybercab在法规合规性、车辆安全性和硬件升级方面仍面临诸多挑战,特别是在全自主驾驶的安全性证明和符合联邦车辆安全标准方面。

相关阅读:


特斯拉惊爆新品:Robovan自动驾驶巴士,未来交通的新面貌


10月10日,特斯拉在洛杉矶的“We, Robot”发布会上揭幕了一款全新的自动驾驶巴士——Robovan。这款电动巴士专为高密度区域的人员和货物运输设计,预计可搭载20人。虽然CEO埃隆·马斯克(Elon Musk)在现场对Robovan的介绍非常简短,但其独特的设计风格迅速引起了广泛关注。


Robovan的设计融合了未来感和复古元素,外观介于《飞天小女警》中的未来巴士与1950年代的烤面包机之间。车身为银色金属,搭配黑色细节和灯条,车门为滑动式,内部空间宽敞,窗户采用遮光玻璃。由于是全自动驾驶,车内并没有方向盘,充分体现了未来交通工具的特色。


虽然马斯克未透露关于Robovan的成本、生产方式和具体上市时间,但他强调了这一设计将改变道路的面貌,就像Cybertruck那样。Robovan的概念与Zoox、Cruise等自动驾驶出租车类似,但体积更大。在中国,类似的自动驾驶巴士也由WeRide开发。


然而,Robovan目前仅为原型,上市时间和具体细节尚未确定。特斯拉此前在2023年投资者日上曾提到过新车型的规划,包括Cybercab和一款更大的车型,可能正是此次展示的Robovan。尽管马斯克在活动中并未提供明确的生产计划或时间表,但他预计Cybercab的生产将在2026年或2027年启动。

相关阅读:


Elastic报告揭示AI驱动的网络钓鱼和深度伪造带来的网络安全新威胁


企业搜索技术提供商Elastic N.V.发布的《2024年Elastic全球威胁报告》揭示了网络犯罪的新动态,特别是在生成式AI技术的帮助下,网络钓鱼和深度伪造攻击的复杂性大幅提升。该报告基于数十亿安全事件的数据,分析了网络犯罪分子如何利用AI生成高度个性化的钓鱼邮件,增加欺诈成功的概率。AI生成的钓鱼邮件以其逼真的外观让用户难以辨别真假,极大地提高了网络钓鱼的有效性。


此外,报告还详细探讨了AI生成的深度伪造在政治干预和勒索活动中的应用。随着这一技术的成熟,深度伪造带来的潜在风险正在显著增加。Elastic报告强调,组织需要将AI专项培训纳入安全策略,以应对这些新兴威胁。


在操作系统层面,Windows仍然是恶意软件的主要目标,但Linux系统,尤其是在服务器环境中的应用,正迅速成为网络攻击的重点。报告显示,木马攻击占据了恶意软件的主导地位,而加密货币挖矿软件的使用则大幅下降。


同时,报告指出,云环境中的凭证访问攻击占据了重要比例,企业需要加强对凭证的保护,防止未经授权的访问,从而减轻基于云的攻击影响。

相关阅读:


Mostly AI:用合成文本突破AI训练瓶颈,助力企业数据安全“变身”


在AI领域,数据被视为“粮食”,但如今公开数据资源已逐渐枯竭,导致AI模型的质量提升遇到了瓶颈。合成数据初创公司Mostly AI提出了创新方案,通过企业专有数据生成更多可用于AI训练的“合成粮食”。该公司的CEO Tobias Hann指出,AI训练正面临“数据短缺”危机,尤其是公开数据源难以满足需求,而企业内部的数据由于隐私保护等问题难以直接使用。


Mostly AI的解决方案犹如数据的“变形金刚”,通过生成安全的合成文本,将企业的数据资源转化为可用的AI训练材料。这不仅保护了隐私,还保留了数据的结构化洞察,使得这些数据在不泄露敏感信息的前提下,依然具备商业价值。


Gartner预测,到2026年,75%的公司将采用生成式AI技术来创建合成客户数据,而目前这一比例不到5%。这表明,越来越多的企业将利用合成数据技术来打破数据短缺的瓶颈。


此外,Mostly AI宣称其生成的合成文本在训练AI分类器时表现优于GPT-4o-mini,性能提升高达35%。这一技术不仅解决了数据不足的问题,还在隐私保护和数据质量提升方面取得了显著进展。分析师Holger Mueller称之为“一箭三雕”的方案,堪称AI行业的革命性突破。

相关阅读:


长记忆AI助手:从技术奇迹到伦理挑战


随着具有长期记忆功能的AI伴侣和助手逐渐兴起,人机交互的未来引发了广泛讨论。这些AI应用不仅能够记住用户的偏好,还能随着时间推移进行学习和适应,为用户提供高度个性化的体验。然而,这一技术进步也带来了复杂的伦理和社会挑战。


长记忆机制的演变从早期符号系统发展到现代大型语言模型(LLMs),例如长短时记忆(LSTM)和Transformer架构中的注意力机制,使AI能够保持更长的上下文信息。然而,LLMs在处理长期交互时仍面临高计算成本和信息保留不均衡等问题。研究者提出了多种改进方案,如增加上下文长度、利用外部知识库、引入外部记忆组件以及集成记忆模块,以提高AI的长期记忆能力。


市面上已有多种AI伴侣和助手涌现,如SiliconFriend、Replika、Personal.ai等,它们通过不同方式提供情感支持、个性化服务及深度互动。然而,随之而来的数据隐私与安全问题成为首要关注点。用户应对个人数据拥有控制权,同时应采用联邦学习和差分隐私等技术保护数据安全。此外,AI伴侣可能引发人工亲密关系的风险,导致人们对其过度依赖,影响现实中的人际关系。

相关阅读:


OpenAI创下融资纪录,66亿美元估值飙升至1570亿


OpenAI近期宣布完成了66亿美元的新一轮融资,使公司估值飙升至1570亿美元,创下了AI领域的融资新纪录。此轮融资由Thrive Capital领投,微软、英伟达、软银等投资巨头也参与其中。Thrive Capital投入16亿美元,并获得了明年底前再投10亿美元的选择权。软银和科斯拉创投等知名投资机构也分别注资5亿美元,展现了市场对OpenAI的高度认可。


此次融资或与OpenAI即将进行的组织架构调整有关。目前,OpenAI是一家非营利组织,旗下的营利性子公司负责产品开发。据悉,该子公司计划重组为“公益公司”,并取消对投资者回报的限制。然而,投资者也获得了保护条款,如若OpenAI在两年内未完成重组,他们可要求退款,并且投资者不得支持竞争对手,如目前正寻求融资的Anthropic。


OpenAI的快速增长还体现在其收入和用户数据上。据内部消息,今年OpenAI收入预计达到37亿美元,并计划到2025年增至116亿美元。此外,目前每周有超过2.5亿活跃用户使用OpenAI的服务,其中1100万订阅了ChatGPT Plus,约100万家企业注册了其商业版服务。


尽管OpenAI预计今年将亏损50亿美元,但此次融资将为其提供更多资源,推动AI研究及计算能力的发展,优先考虑技术创新而非盈利。此外,市场传言OpenAI或将在AI硬件领域发力,或有望推出自主设计的机器学习加速器芯片。

相关阅读:


Pika 1.5来袭:AI视频特效界的"魔法师",物理法则都不好使了!


Pika Labs推出了他们的新款模型Pika 1.5,为AI视频生成带来了全新的“魔法体验”。这款模型通过Pikaffects功能,允许用户对视频中的物体进行任意变形——从爆炸到变成蛋糕,打破了物理法则的限制。Pika 1.5不仅能自动识别视频中的物体,还能模拟出匪夷所思的物理特效,给用户带来无限创意的可能性。


Pika 1.5的技术亮点包括自动识别视频主体、物理模拟以及道具插入。这些功能不仅适用于特效,还提升了整体视频生成的质量。Pika 1.5现在可以生成5秒长的高质量视频,并支持更加复杂的动作模拟和电影级镜头控制,如子弹时间、眩晕效果等。


虽然Pika 1.5的订阅价格不变,但每个5秒的视频需要15个信用点,体现了更强大的功能所需的“魔力消耗”。此外,Pika还通过社区挑战让用户有机会赢取免费信用点,鼓励更多人参与创意视频的制作。


Pika的奇幻特效策略与其他AI视频生成工具如Runway和Luma AI的高真实度追求形成鲜明对比,走出了一条以创意和奇幻为核心的独特道路。这一选择可能会引发视频创意内容的爆发,并带动行业变革。同时,如此强大的编辑能力也引发了对潜在滥用风险的伦理思考。

相关阅读:


大模型与基础建设


MIT孵化的Liquid AI:非Transformer模型的革新之路


由麻省理工学院(MIT)计算机科学与人工智能实验室(CSAIL)前研究人员创立的初创公司Liquid AI,推出了其首批多模态AI模型——Liquid基础模型(LFMs)。与目前主流的Transformer架构不同,LFMs采用非Transformer的设计思路,从“第一性原理”出发,探索构建高效基础模型。结果显示,LFMs在性能上已经超越了Meta的Llama 3.1-8B和Microsoft的Phi-3.5 3.8B等同等规模的Transformer模型。


Liquid AI推出了三个版本的LFMs,分别为LFM 1.3B、LFM 3B和LFM 40B MoE。尤其是LFM 1.3B在多个基准测试中表现优异,超越了Meta和Microsoft的同类模型。除此之外,LFMs的内存占用也大幅优化,例如LFM-3B仅需16GB内存,而同类Transformer模型需要48GB。这种内存效率使得LFMs非常适合应用于从企业级到边缘设备的多种场景。


Liquid AI通过采用动力系统理论、信号处理和数值线性代数的计算单元,开发出一种能够处理视频、音频、文本等多种数据类型的通用模型。这种创新使LFMs在推理过程中能够实时调整,处理多达100万个令牌,同时显著降低内存使用。


Liquid AI计划在10月23日举行正式发布会,并邀请早期用户进行测试反馈。LFMs的问世为AI模型的未来发展提供了非Transformer架构的全新选择,或将引发一场模型技术的革命。

相关阅读:


大语言模型的"假如"世界:反事实推理能力的突破


反事实推理,一直被视为人类智能的独特标志,涉及回答“假如”问题,如“如果历史某事件未发生,世界将如何变化”。如今,来自马克斯·普朗克软件系统研究所的研究团队为大语言模型(LLM)赋予了这种能力,提出了一种新的因果模型,使LLM能够模拟反事实情景。这一突破为探索AI的推理与世界观提供了全新视角。


研究团队通过引入Gumbel-Max结构因果模型(SCM)来实现反事实推理。在传统LLM中,模型会从改动点重新生成文本,而忽略之前的内容。新方法通过保留原有选择,只调整部分条件,使得故事或推理的其他部分保持连贯。Gumbel-Max SCM的引入为LLM提供了更稳定的推理框架,同时无需大量计算成本或对模型进行微调。


实验结果显示,当更改故事主角的名字时,AI能够保持故事的连贯性,并根据不同条件进行相应调整。此外,研究人员利用这种推理方式检测了模型中的潜在偏见。例如,将人物性别从男性改为女性时,模型生成的收入预期往往降低,揭示了模型可能存在的性别偏见。


这项技术为AI的未来发展带来了广阔的前景,特别是在决策支持、科学研究和创意写作等领域。不过,随着反事实推理的能力增强,也引发了关于模型偏见、事实与虚构的界限及伦理问题的讨论,如何在这些领域中平衡AI的潜力与风险将是未来的重要课题。

相关阅读:


大语言模型的“瘦身”之道:高效搜索最优子结构


大语言模型(LLMs)在人工智能领域的成功伴随着巨大的计算和存储成本。为应对这一挑战,最新研究提出了一种无需训练的架构搜索方法,能够在保持模型性能的同时,大幅缩小模型规模并降低推理成本。该方法的核心是从预训练的LLMs中搜索最优的子结构(subnets),并通过进化算法来优化这一过程。


研究者首先基于权重重要性构建初始子结构,随后通过变异和交叉操作产生候选子结构,再用少量训练样本快速评估其性能。与传统的神经网络架构搜索(NAS)不同,该方法直接从预训练模型开始,并引入特殊的mask变异算法来确定保留的通道索引,而非简单地减少通道数量,从而加快了搜索过程的收敛。


实验结果表明,该方法在多个数据集(如WikiText2、PTB)上生成的高效LLMs,在困惑度和零样本准确率方面优于现有的结构化剪枝方法,如LLM-Pruner和SliceGPT。以LLaMA-7B模型为例,在60%保留率下,该模型的困惑度为10.21,显著低于LLM-Pruner的38.27和SliceGPT的279.52。此外,该方法还能直接减少GPU显存占用,并加速推理过程,使LLaMA-7B模型在50%保留率下的推理速度是原模型的两倍以上。

相关阅读:


从理论到实践:解密Transformer如何学会多步推理


大型语言模型(LLM)的“思维链”(Chain of Thought, CoT)能力是人工智能领域一个备受关注的话题。最近,RPI和IBM研究院的研究论文首次从理论角度深入分析了如何训练非线性Transformer获得CoT能力,并探讨了在应对新任务时,模型如何保持推理的准确性,即使上下文示例中存在噪声或错误。


研究的核心发现之一是,Transformer的训练动态与上下文示例的相关性密切相关。具体来说,模型在获得CoT能力时,需要更多与查询共享相似模式的上下文示例,其训练所需的总样本数和迭代次数也与此呈反比。此外,研究揭示了Transformer的注意力机制是如何帮助模型在每一步推理中聚焦于最相似的示例,从而保证了CoT的推广能力。


相比传统的上下文学习(ICL),CoT在应对噪声和分布偏移的新任务时表现更优。ICL需要上下文提示中占主导地位的正确示例,而CoT只需依赖于相似的上下文示例即可实现多步推理,这为在复杂任务中选择推理策略提供了新的理论依据。


尽管研究基于简化的单层单头Transformer模型,实验结果表明这些理论见解对多层Transformer同样具有指导意义。这项研究不仅深化了我们对Transformer多步推理机制的理解,还为未来设计更高效的提示生成方法及应对复杂模型推理挑战奠定了基础。

相关阅读:


OpenAI发布Swarm:简化多智能体系统开发的实验性AI框架


2024年10月11日,OpenAI发布了一个名为Swarm的实验性AI框架,旨在简化多智能体系统的开发、部署和管理。Swarm提供了一套灵活的工具和API,允许开发者使用Python定义自定义的智能体类型,支持从状态表示到奖励函数的广泛配置,适应不同的场景需求。


Swarm的分布式设计使其能够在成百上千的CPU和GPU上并行训练和模拟大规模智能体群,并通过基于MPI(消息传递接口)的通信机制实现高效的节点间协作。开发者还可以将任务无缝迁移至云端,利用云计算资源的弹性。此外,Swarm集成了多种强化学习算法,如PPO和MADDPG,开发者仅需简单配置即可使用,同时还支持用户自定义算法的扩展和集成。


为了加速开发,Swarm提供了基于Web的场景编辑器,允许用户通过拖拽快速创建虚拟环境并预览智能体的行为。它还具有强大的3D可视化能力,可以生动展示智能体群的运动轨迹与交互。


在技术上,Swarm采用层次化多智能体强化学习范式,使智能体不仅要优化个体策略,还需权衡对整体群体的影响。通过引入中央控制器,Swarm能够协调各智能体的全局任务,实时跟踪状态并生成反馈。此外,它还运用了前沿技术,如多智能体信用分配与联合行动价值估计,提升智能体群的协同与决策能力。

相关阅读:


交互式持续学习:快思考与慢思考的奇妙结合


传统的机器学习模型在处理不断变化的数据时,往往会面临“灾难性遗忘”的问题。哈尔滨工业大学的研究人员提出了“交互式持续学习”(Interactive Continual Learning, ICL)系统,旨在为AI引入类似人类的持续学习能力。


ICL系统结合了人类大脑的“快思考与慢思考”理论。系统1以视觉transformer(ViT)模型为基础,负责快速直觉判断,并在学习新知识时不会忘记旧知识。系统2则由大型多模态语言模型组成,专注于复杂推理任务。当系统1遇到难题时,系统2会介入,协助系统1进行深入分析和推理。


ICL的核心创新在于将信息的存储方式优化,模仿人类记忆,将信息内容和查找信息的方法分开存储。这一方法采用von Mises-Fisher(vMF)分布来组织记忆,保证了AI系统在需要时能够快速找到所需信息,并通过期望最大化(EM)算法不断优化记忆机制。实验表明,ICL系统在多个数据集上均表现优异,尤其是在ImageNet-R数据集上,其准确率相比传统方法提升了3%以上。


系统2还引入了vMF-ODI机制,通过计算AI的置信度指标来识别难题,并将复杂问题转交给更强大的推理模块处理。这一设计使得AI系统在处理复杂任务时的表现进一步提升。

相关阅读:


技术与研发


RAG-Modulo:让机器人学会"记忆"与"反思"的AI新方法


莱斯大学的研究团队最近提出了一种新方法RAG-Modulo,旨在让机器人具备类似人类的"记忆"与"反思"能力。这项研究展示了机器人在自主学习与任务执行方面的突破。


RAG-Modulo的核心由三大组件组成:大语言模型(LLM)作为"大脑",负责任务理解与生成计划;批评者(Critics)评估行动的可行性,类似人类的理性思考;交互记忆(Interaction Memory)则存储机器人过去的经验,相当于人类的长期记忆。这三者协同工作,让机器人能够自主调整任务执行策略,并从中学习改进。


举例来说,当机器人接到"把蓝色钥匙放在绿色门旁边"的任务时,大语言模型会生成初步计划,如“拿起蓝色钥匙,走到绿色门旁,放下钥匙”。批评者会判断行动是否可行,例如当机器人手中已有其他物品时,批评者会指出这一问题。然后,系统会从交互记忆中检索类似经验,生成更优的计划,如“先放下手中物品,再拿起蓝色钥匙”。通过这种过程,RAG-Modulo不仅能够高效完成任务,还能不断优化自身决策能力。


在BabyAI和AlfWorld环境下的测试显示,RAG-Modulo在BossLevel任务中的成功率达到57%,比基线方法高出33个百分点,且任务执行效率提升显著。其泛化能力也同样出色,面对新任务时的成功率达到54%。


RAG-Modulo的成功源于其高效的记忆检索、及时的批评者反馈以及持续学习能力,这让机器人能够像人类一样从经验中不断成长与优化。


相关阅读:


多尺度洞见:MSI-Agent如何提升智能体的决策与规划能力


来自清华大学等机构的研究团队最近提出了一种名为“多尺度洞察智能体”(MSI-Agent)的新方法,旨在增强AI在理解和执行人类指令方面的能力。“多尺度”指该系统能够从不同层面理解和总结经验,类似于人类在学习技能时,既掌握具体操作,也领会普遍规律。而“洞察”则意味着该系统能够从过去的经历中提取出有价值的见解,指导未来行动。


MSI-Agent的核心包括三个组件:经验选择器、洞察生成器和洞察选择器。经验选择器从历史任务中挑选成功和失败的案例,洞察生成器则将这些经验提炼为三个层级的洞察:通用洞察、环境洞察和子任务洞察,帮助AI灵活应对不同场景。最后,洞察选择器会根据任务特点,筛选出最相关的洞察,辅助AI决策。


在TEACh和Alfworld两个家庭环境测试集上,MSI-Agent在完成任务的成功率上显著领先于其他方法。尤其在TEACh测试集的已知环境和未知环境中,成功率分别达到了12.70%和14.54%,远高于基准方法HELPER的8.84%和10.62%。


此外,研究表明MSI-Agent能够通过结合成功与失败经验提高系统的适应性,并在领域迁移时展现出更强的泛化能力。这种多层次的洞察机制,使得MSI-Agent能够更灵活地应对复杂任务,在智能体的规划与决策能力上取得了显著进展。

相关阅读:


Recall:让手机成为无所不能的记忆宫殿


来自北京邮电大学的研究人员提出了一个名为"Recall"的系统,将智能手机转变为强大的多模态记忆助手,能够记录和快速检索图片、文字、声音及传感器数据。通过这种技术,用户不仅能够更高效地管理日常信息,还为未来的AI助手应用铺平了道路。


Recall的核心在于“多模态嵌入模型”(MEM),它能将不同类型的数据统一转化为数字表示,方便进行信息的比较与检索。然而,这项技术消耗巨大,直接运行在手机上会迅速耗尽电池。因此,研究团队引入了“提前退出”技术,即模型在得出满意结果时可以中断计算,既节省能耗,又保证效率。


为提升Recall的性能,研究人员还开发了数据感知预退出预测器、渐进式LoRA修复、推测性细粒度检索等创新技术,使得Recall相比传统方法,处理速度提高了14.9倍,能耗降低13.1倍。在Twitter数据的实验中,Recall表现出4倍的处理速度,5倍的内存节省和10倍的能耗降低。


未来,Recall不仅可以作为个人信息管理的助手,还为移动AI助手的发展奠定了基础,带来更加智能、个性化的用户体验。尽管其数据存储仍有一定的占用,但在智能手机上运行并不会造成太大负担。

相关阅读:


Jagged Flash Attention:让推荐系统飞起来的秘密武器


推荐系统在当今数据驱动的世界中扮演着关键角色,从短视频推荐到网上购物,背后都有着复杂的AI算法。然而,随着推荐模型的日益庞大和复杂,如何提升模型的效率和降低内存消耗成为了重要挑战。Meta的研究团队最近推出了一项突破性技术——Jagged Flash Attention,为推荐系统的“瘦身”提供了全新解决方案。


传统的推荐模型通常通过“填充”数据方式统一特征长度,这就像把不同尺寸的衣物强行塞进同一个行李箱,造成大量空间浪费。Meta团队创新性地提出了“锯齿状特征交互内核”(Jagged Feature Interaction Kernel),利用TorchRec库中的锯齿状张量紧凑存储不同长度的特征,大幅提升了计算效率和内存使用,效率提升接近两倍。


在此基础上,团队进一步开发了Jagged Flash Attention,将“闪电注意力”(Flash Attention)机制与锯齿状张量相结合,令推荐系统的速度提升至传统密集注意力机制的9倍,内存使用减少22倍。即便与现有的密集闪电注意力相比,Jagged Flash Attention仍能实现3倍的速度提升和53%的内存节省。这使得同样硬件条件下,可以训练更大、更复杂的模型或处理更长的特征序列。


在生产环境中,Jagged Flash Attention的实际表现同样亮眼:查询性能(QPS)提升了10%,内存使用减少了18%。这意味着用户可以获得更快速、精准的推荐,企业则能在相同的硬件资源下处理更多数据,进一步提升系统的复杂性与效率。

相关阅读:


GEM-RAG:让AI拥有"人性化"记忆


在人工智能领域,让机器像人类一样记忆和处理信息一直是个挑战。康奈尔大学的研究团队提出了一种新的检索增强生成方法——GEM-RAG(图谱特征记忆检索增强生成),旨在让AI的“记忆”更接近人类。现有的RAG技术主要依赖文本相似度,但忽视了信息的实用性,而GEM-RAG则通过引入图谱结构来更好地组织和检索信息。


GEM-RAG首先将长文本分割为小块,并生成“实用性问题”,为每个文本块贴上“用途标签”。这些标签用于构建一个加权图,表示记忆之间的关联网络。通过特征分解,GEM-RAG提取出文本的核心主题,并构建层次化的记忆结构。当需要回答问题时,系统通过搜索“记忆图谱”来找到最相关的信息,从而更准确地提炼出核心内容。


在两个标准问答数据集上的测试结果表明,GEM-RAG在准确性上超越了其他先进的RAG方法,尤其是在QuALITY数据集上使用OpenAI的文本嵌入模型和GPT-3.5 Turbo时,准确率达到了63.37%,比基线方法高出3个百分点。这种改进使得AI的“思考方式”更接近人类,不仅能够找到相关信息,还能理解信息之间的联系。


尽管如此,GEM-RAG仍有提升空间,特别是在生成“实用性问题”和构建记忆图谱的过程中耗时较长。未来研究将侧重于优化计算效率和提高检索速度。