忙着开AI大会时,这些最重要的论文可能错过了|AI周

超长上下文(Long Context)被认为将引领大模型的下一次突破。
单次输入的序列长度,也是大模型一直寻求突破的方向。
上周出现了一篇论文,介绍如何用Transformer的变种,实现了序列长度达10亿token!
他们引入了LongNet,称之为Transformer的一个变种,提出了扩张注意力(dilated attention),随着距离的增加,注意力场逐渐扩大。LONGNET有显著的优势,为建模非常长的序列,例如将整个语料库甚至整个互联网作为一个序列,开辟了新的可能性。
还有100万token的论文。
一种基于隐性卷积的大型语言模型Hyena,被证明可以在更长的上下文和更低的时间复杂度的同时,达到与注意力相匹配的质量。HyenaDNA是一个在人类参考基因组上进行预训练的基因组基础模型,其上下文长度可达100万个token,并且是单核苷酸级别的 - 这比之前的基于密集注意力的模型高出了最多500倍。
较早还有一篇百万级token的。
图片
这份技术报告展示了如何应用循环记忆机制以扩展BERT的上下文长度,BERT是自然语言处理中最有效的基于Transformer的模型之一。通过利用循环记忆Transformer架构,研究团队成功地将模型的有效上下文长度增加到前所未有的二百万个标记,同时保持了高记忆检索精度。
但是,那么长的序列,恐怕要出问题。大语言模型擅长检索文档开头的信息。如果信息包含在文档中间,他们在检索信息方面表现较差,文档结尾的信息也远逊于开头。Nelson F. Liu等斯坦福、伯克利和Samaya AI的研究团队发现,当相关信息出现在输入上下文的开始或结束时,模型的表现通常最好,而当模型必须访问长上下文中部的相关信息时,性能明显下降。此外,随着输入上下文的增长,性能会显著下降,即使是对于明确设计处理长上下文的模型也是如此。
图片
一般来说,如果文本序列很长的话,最前面的容易忘记。之所以出现这种情况,有一种可能的原因,是训练数据和人类的写作方式:最重要的信息通常在开头或结尾(想想论文摘要和结论部分),然后是大模型在训练期间参数化了注意力权重。
过去几天,OpenAI安全部门负责人LilianWeng的一篇梳理智能代理优秀论文的文章,在国内外炒得火热。(LLM Powered AutonomousAgents )
她将代理定义为大语言模型、记忆、任务规划以及工具使用的集合,其中大模型是核心大脑,记忆、规划技能以及工具,则是代理系统实现的三个关键组件。在文章中,她还对每个模块下实现路径进行了细致的梳理和说明。到今天,构建AI代理的工具箱已经相对完善,但仍需要面对一些限制,例如上下文长度、长期规划和任务分解,以及大模型能力的稳定性等。
从今年3月AutoGPT 推出后,Generative Agent、GPT-Engineer、BabyAGI 项目的爆发,把大模型的热潮持续推高,从“超级大脑”到真正有可能成为“全能助手”。Lillian 也认为 “ 这可能真是一个新时代。”
本周,还有这些发生在AI领域的事件值得关注:
一、风险、监管与伦理
联合国安理会将首次讨论AI对世界和平的潜在威胁。该会议安排在7月18日,将是英国担任7月安理会轮值主席国的核心内容。英国对领导全球AI安全充满兴趣。联合国也有意推动AI监管,计划在今年设立人工智能咨询委员会。
OpenAI组建人工智能对齐团队。新团队Superalignment主要研究超级智能(Superintelligence)的对齐问题,由 Ilya Sutskever(OpenAI 联合创始人兼首席科学家)和 Jan Leike(对齐负责人)共同领导。OpenAI 声称在未来四年内,将 20%的计算资源用于解决超级智能对齐问题。OpenAI 认为人类目前无法可靠地监督那些比人类还聪明的人工智能系统,提出了自动对齐研究员(automated alignment researcher)的新概念。
英国高校推动道德地使用生成式AI的指导原则。包括牛津、剑桥在内的24所罗素大学集团(The Russell Group),提出了一系列关于道德使用生成人工智能(AI)的指导原则,试图在学术界日益频繁使用该技术的情况下,在负责任使用技术和避免滥用之间取得平衡。就在几个月前,上述集团中的部分大学几乎完全禁止在学习中使用 AI。
ChatGPT联网功能因滥用被暂停。ChatGPT Browse with Bing 允许 ChatGPT 搜索互联网,以帮助 AI 从实时信息中获得更好的答案。但随着大量用户的测试使用,一些安全、版权或隐私问题正在逐步显现。在测试中,人们发现ChatGPT 会绕过付费墙和隐私设置,以完整文本进行响应。官方还没有给出功能重新上线的时间表。
格莱美有限接受AI元素。艺术界正在学习如何与AI相处。上月,格莱美奖规则修订,其中,只有“人类创作者”的作品才有资格获奖的规则备受关注。本周,格莱美CEO解释新规称,AI或包含AI创建元素的音乐,有资格获得提名,但AI部分不会获奖。比如,人类创作的歌曲,AI主唱,那么该曲目符合创作类别的资格,但不符合表演类别的资格;但如果AI创作,人类演唱,则不符合创作类别的资格。他预测,今年肯定会有包含 AI 元素的作品申请提名。
二、中美科技巨头
GPT-4 API全面开放使用。现所有付费API用户都可直接访问8K上下文的GPT-4,无需任何等待。OpenAI还计划推出包括 GPT-3.5 Turbo、Whisper 及其 DALL·E 图像生成在内的更多 API。在未来,OpenAI将允许开发人员用自己的数据微调GPT-4和GPT-3.5 Turbo。
阿里云推出AI绘图大模型“通义万相”。除了能根据文字内容生成不同风格的图像外,它还能将用户上传的任意图片,生成风格相似,或指定风格的图片。它是“通义”大模型系列第三个产品,此前的通义千问、通义听悟分别具备文字问答和语音文字处理的功能。目前已有超过30万企业申请测试通义千问,通义听悟累计用户数达到36万。阿里还介绍了MaaS灵积模型服务平台与开发者生态AI模型社区魔搭。
华为云推出盘古大模型3.0。这是一个完全面向行业的大模型系列,既提供自然语言、视觉、多模态、预测、科学计算5个基础大模型,也包含数个行业大模型与更多细化场景模型。它最高1000亿参数,预训练数据中包含了超3万亿tokens。华为昇腾AI云服务也正式推出,为国内企业提供GPU架构以外的算力支持。此外,本周华为盘古气象大模型登上Nature,是盘古大模型在行业及基础科研领域成功探索之一。
三、大模型和行业应用
中国三大运营商悉数推出大模型。4月,中国电信透露正在研发预训练大模型,本周,TeleChat大模型正式发布,赋能数据中台、智能客服和智慧政务三个方向的产品。上周,中国联通刚发布了图文大模型“鸿湖图文大模型1.0”,面向运营商增值业务。中国移动也将正式发布“九天”1+N 大模型,优先选择政府、客服两大场景进行落地。
国产大模型批量亮相WAIC。第四范式推出“式说”大模型,云天励飞披露大模型“云天天书”,鹏城实验室将打造2000亿参数大模型底座,上海AI实验室发布书生通用大模型体系。此外,多个基于大模型的应用公布,如网易有道推出虚拟人口语教练,天眼查发布可信商业助理“天眼妹”。
零一万物已实现百亿参数规模模型内测。李开复创办的AI初创企业定名“零一万物”,3月成立至今,已实现百亿参数规模的模型内测,目前正向300亿到700亿参数规模扩大。
文远知行获得阿联酋首张自动驾驶路跑牌照。至此,文远知行可在阿联酋开展各类自动驾驶车辆的路跑测试和运营。中东正在加快自动驾驶布局,文远知行是国内较早布局中东市场的自动驾驶公司,去年的融资中出现了中国-阿联酋共同投资基金的身影,今年正式落户中阿(联酋)产能合作示范园。除阿联酋以外,文远知行也进入了沙特市场。
继Adobe后,Shutterstock承担AI图片商用赔偿。只要具备企业账户的客户,正确使用由 AI 生成的图片,并满足美国商业图库Shutterstock 的基本协议,即可为用户造成的纠纷给予全额补偿。该公司称,AI已经不再是新奇的技术,现在的关键是将其应用到真实的业务流程中。游戏公司Valve则拒绝了在审核标准出台前让AI内容游戏上架旗下平台Steam。
ABB将把GPT-4引入工业应用。该工业应用主要指ABB Ability™ Genix工业分析和AI套件。这是一个综合性的模块化工业物联网、分析和AI平台,植入了特定行业领域知识。ABB希望新的生成式AI能帮工业客户从运营数据看到更多隐藏的洞见。
四、资金流向
英伟达或已收购OmniML。后者成立仅两年,其研发的软件可以缩小机器学习模型的规模,让模型可以在边缘设备上高效运行。今年1月,OmniML与英特尔合作。但外媒称,英伟达已于今年2月收购了这家初创企业。
DigitalOcean以1.11亿美元收购Paperspace。对 GPU 驱动的云服务的需求正在飙升,云托管服务商DigitalOcean收购Paperspace后,将拥有一个强大而简单的GPU计算平台。Paperspace成立于2014年,早期为云中的设计、可视化和游戏提供高性能工作站,在人工智能兴起后,推出了一套旨在开发、训练、部署和托管人工智能模型的工具。
五、基础设施
大模型语料数据联盟成立。中央广播电视总台、上海AI实验室、中国科学技术信息研究所、国家气象中心、人民日报社传播内容认知全国重点实验室、上海数据集团、上海报业集团、上海市数商协会等为发起单位。此外,信通院等还发起了大模型生态合作共同体与创立大模型产业工作组。上海则成立了“算筑申城”上海市算力产业联盟。
腾讯云发布AI原生向量数据库。过去的向量数据库常和推荐、反欺诈等关系紧密,Tencent Cloud VectorDB是AI原生的向量数据库,应用于大模型的训练、推理和知识库补充等场景。目前该数据库可以单独对外提供。
达摩院发布大模型测试基准M3Exam。测试基准对于促进模型的发展至关重要,英文模型有MMLU等,中文社区也涌现了例如 C-Eval 以及 GAOKAO,但对多语言 / 多模态大模型的评测基准相对较少。基于多语言多模态测试基准M3Exam,不少模型在高资源语言例如英文甚至中文上已经可以取得还不错的效果,但在低资源或者非拉丁字符语言上表现不佳,仅GPT-4取得了高于60%的正确率。
六、开源生态
东北大学开源大模型TechGPT。与当前其他各类大语言模型相比,TechGPT主要强化了对计算机、材料、机械、冶金等十余种垂直专业领域自然语言文本的分析和处理能力。
北大开源首个中文法律大模型。这个名为ChatLaw的大模型系列,ChatLaw-13B基于姜子牙-13B、ChatLaw-33B基于Anima-33B,ChatLaw-Text2Vec基于BERT。它使用了大量法律新闻、法律论坛、法条、司法解释、法律咨询、法考题、判决文书等原始文本来构造对话数据,支持文件、语音输出,同时支持法律文书写作、法律建议、法律援助推荐。
七、其他
研发超大规模智能模型,数据要素是关键。北京印发《关于更好发挥数据要素作用进一步加快发展数字经济的实施意见》的通知,提出支持北京经济技术开发区等开展数据基础制度先行先试,打造政策高地、可信空间和数据工场;推进国家数据知识产权试点,探索数据知识产权的制度构建、登记实践、权益保护和交易使用;建立社会数据资产登记中心,建设数据资产评估服务站,先行探索开展数据资产入表;建设数据要素创新研究院,支持数据驱动的科学研究;完善人工智能数据标注库,探索打造数据训练基地,促进研发自然语言、多模态、认知等超大规模智能模型。
ChatGPT访问量首次环比下滑。网络分析公司Similarweb发布数据称,ChatGPT6月份的全球访问量环比降幅9.7%,独立访客数量环比下滑了5.7%,为2022年11月推出以来首次。今年前五个月,ChatGPT的访问量环比增幅分别为131.6%、62.5%、55.8%、12.6%和2.8%。此外,Character.AI过去几个月访问量快速攀升,但在6月也出现下滑。