微软推出个人版ChatGPT与新的Edge浏览器；AI教父离开Google；亚马逊重启Alexa｜Weekly Summary

有新Newin

2023-05-06 08:55发布于浙江

Inflection AI，由前DeepMind领导人创立的初创公司，推出了名为Pi的聊天机器人

Inflection AI，由前DeepMind领导人创立的初创公司，推出了名为Pi的聊天机器人，它提供比竞争对手更个性化、更富有对话性的体验，并能够记住过去的互动并帮助用户完成各种任务。由CEO Mustafa Suleyman于今日推出的Pi旨在成为一个“积极的听众”，最终将协助组织日程安排、会议准备和学习新技能。虽然AI市场已经充斥了聊天机器人，但Inflection AI凭借其注重提供“与您的兴趣单一对齐”的个性化AI，以及2.25亿美元的资金支持，希望在市场中脱颖而出。

MOOCs推出两门关于大型语言模型和生成AI的在线开放课程

第一门课程教授如何构建自己的应用程序，第二门课程则教授如何从头开始在数据湖上构建大型语言模型。

亚马逊计划利用AI技术强化Alexa

据Insider透露，亚马逊首席执行官Andy Jassy有大笔计划，要用类似ChatGPT的功能重新启动语音助手。

ChatGPT可能引领心理健康革命

半岛电视台讨论了AI驱动的治疗工具的崛起，突出了潜在的好处，例如增加的可访问性和方便性，以及关注的问题，包括有效性、隐私和替代人类交互在心理健康护理中的风险。

Google已经完全整合了Checks，这是一个AI驱动的平台

Google已经完全整合了Checks，这是一个AI驱动的平台，可协助公司实现Google Play和iOS应用程序的隐私合规性。Checks由Google的大型语言模型和应用程序理解技术提供支持，可通过直观的仪表板提供自动化分析、监视和建议。该平台已帮助全球各个领域的公司，包括游戏、健康、金融、教育和零售，有效地遵守隐私合规要求。

微软可能会提供个人版ChatGPT

据Ars Technica报道，微软计划为需要保密的企业提供“以隐私为先”的ChatGPT版本。这个版本被设计为完全离线工作，消除了通过基于互联网的AI模型泄露敏感信息的风险。这一发展反映了隐私在AI应用中的日益重要性，特别是在机密信息安全至关重要的敏感领域。

H100芯片驱动的DGX超级计算机

GPU几乎驱动了现今所有的AI应用。Nvidia的下一代H100芯片已经发布，并且正在社区中迅速被采用。使用这些芯片最简单的方式之一是通过DGX工作站。这是一台完整的计算机，通常装有8个GPU，可以直接使用。带有h100芯片的最新版本刚刚开始发货！

安迪·沃霍尔版权案可能会改变生成式AI

美国最高法院即将在Andy Warhol Foundation for the Visual Arts, Inc. v. Goldsmith的裁决中，可能会改变公平使用法律的解释，以及所有依赖该法律进行保护的人、工具等。

三星禁止使用AI聊天机器人

根据Engadget的报道，三星已向其员工发出指示，要求他们避免使用像ChatGPT和谷歌的Bard这样的AI工具。该公司的决定凸显了其对机密数据泄露的担忧，考虑到这些工具的学习和基于输入文本生成的能力。三星可能正在着重保护其知识产权，并保护内部通信免受潜在的侵犯。

Stability AI发布DeepFloyd IF

Stability AI发布了DeepFloyd IF，这是一种创新的文本到图像模型，利用人工智能将文本描述转换为详细而生动的图像，为数字艺术和设计开辟了新的可能性。

AI 教父 Hinton 离开谷歌

AI 教父 Hinton 博士离开谷歌的事实是值得注意的。他在Twitter上声称，他的目标是远离谷歌，这样他就可以更加公开地讨论人工智能的潜在危害。他声称，他之前的雇主在AI产品发布方面表现得很负责任。

Microsoft Edge现在具有Bing AI

Microsoft Edge在其右键上下文菜单中引入了一项基于人工智能的功能。这个功能由Bing提供支持，可以为用户在浏览时提供AI生成的查询建议。它旨在帮助用户快速找到相关信息，而无需打开新标签页或执行其他搜索。

微软推出基于 AI 的设计师工具预览版

微软推出了基于 AI 的设计师工具预览版，旨在通过自动建议设计元素和布局选项，简化和增强设计流程，从而显著提高用户体验和生产力。

亚马逊正在开发一种LLM，以提升Alexa的功能

亚马逊正在开发一种改进的大型语言模型（LLM），以增强其语音助手Alexa的功能。

StabilityAI 的 Vicuna 聊天机器人

ChatGPT等聊天系统的动力来自大型语言模型，并通过人类偏好进行调整，以生成逼真和有用的对话。驱动这些系统的模型被保密。Stability AI发布了一种语言模型，其行为类似于ChatGPT，但是大部分是开源的。它并不像ChatGPT那么强大，并且有一些商业许可限制。

OpenAI威胁要起诉GPT4Free

由于存在潜在的法律和伦理问题，OpenAI向独立组织GPT4Free发出了关闭通知信，该组织一直在托管和提供访问其先进的语言模型。

Mark Zuckerberg 表示Meta希望向数十亿人介绍AI代理

Meta 的 CEO, Mark Zuckerberg 表示，公司计划以有意义的方式向数十亿用户介绍AI代理。在公司最近的财务电话会议上，他提到了在WhatsApp和Messenger中探索聊天体验、为Facebook和Instagram提供视觉创作工具，并最终将AI扩展到元宇宙的计划。

Pinecone的1亿美元B轮融资

Pinecone似乎是向量数据库的首选之一，需要语言模型与外部数据交互时，这非常有用，将该数据嵌入为向量并将其存储在此类数据库中。

OpenAI首席技术官Mira Murati的采访

这篇AP新闻文章采访了OpenAI的首席技术官Mira Murati，她讨论了ChatGPT、GPT-4和DALL-E的开发和潜在应用，同时还涉及了伦理考虑、可能的滥用以及确保这些尖端AI技术的负责任部署的重要性。

每个人都对小模型感到兴奋，但Ta们能抓住么？

大型语言模型往往比小型模型具有更好的推理能力。这种推理能力有助于解决难题，可能使语言模型成为下一代计算平台/操作系统的基础。对代码进行训练、思维链提示和强化学习（RL）等技术往往可以提高推理能力。然后问题就变成了这些技术能否弥合小型和大型模型之间的差距。

GPT4在因果推理方面表现出色

GPT4在因果推理方面表现出色。我们知道相关性不等于因果关系，但是经过训练以找到相关性的模型是否能够发现因果关系？最近一批OpenAI模型在许多有趣的基准测试中表现出惊人的能力，包括因果发现和因果推理。然而，它们也展示了令人惊讶且有些非直观的失败模式，这意味着我们仍有很长的路要走。

Unlimiformer是一种新方法，可以与任何基于Transformer的模型一起使用

Unlimiformer是一种新方法，可以与任何基于Transformer的模型一起使用，使其能够处理无限长度的输入文本。这种酷炫的技术改进了模型，如BART和Longformer，使它们能够摘要非常长的文本，甚至整本书，而无需删减任何内容。

在一周内训练一个SOTA代码LLM

一次独家采访，让Replit的AI主管Reza Shabani讲述了Replit的数据平台、GhostWriter的构建以及现在训练其自己的LLM的故事，为2200万开发人员服务。

Pick-a-Pic：一个用户喜好的文本到图像生成的开放数据集

创建了一个名为Pick-a-Pic的Web应用程序，让人们生成图像并分享自己的喜好，从而创建了一个大型开放数据集，用于训练一个名为PickScore的超级智能评分系统。PickScore非常擅长预测人们喜欢什么，并且比其他方法更适用于评估文本到图像模型，因此建议在未来使用它。

AI歌手非常出色且已经无处不在

介绍了使用SoftVC VITS Singing Voice Conversion（或So-Vits-SVC），一个免费、开源和本地运行的程序，轻松制作AI音乐的过程。

GPT记住了哪些书？

大型语言模型今天已经“看到了整个互联网”。这并不完全正确，但它们确实看到了许多不同的书。结果表明，这些大型语言模型已经记住了许多这些书的内容。这篇有趣的论文试图通过一些巧妙的实验来推断它们已经记住了哪些书，并发现许多最流行的著作，甚至一些不太知名的著作，都被这些大型语言模型几乎完全记忆。有趣的是，一些基于知识的基准测试的性能需要书本的记忆，因此这可能是模型版本之间性能显著提高的一个解释。

生成3D人形头像的纹理

科学家们在仅有一张图片的情况下创造出了一个可移动的3D人形头像，取得了很大的进展。但是，从同一张图片中生成头像的纹理或皮肤并没有得到足够的关注。为了解决这个问题，研究人员提出了一种方法，使用两个网络来合成缺失的纹理，基于图像中可见的纹理和人形的形状，从而得到更准确和详细的最终产品。

StyleAvatar：从单一视频生成实时逼真的肖像头像

研究人员创建了一种名为StyleAvatar的新方法，可以生成高保真度的肖像头像，并可以控制其表达各种情感。这种方法使用了多种不同的网络，并采用了新技术，如滑动窗口增强方法和预训练策略，从而产生了可以实时渲染的高质量肖像视频。StyleAvatar方法在图像质量、完整肖像视频生成和实时重现方面优于现有的面部复制方法。

从单一示例生成3D自然场景

这项工作将2D基于补丁的框架适应到3D场景生成中，引入了算法设计，使得可以创建具有逼真结构和外观的多样化、高质量的自然场景。

训练稳定扩散花费$50k

Mosaic ML正在构建一个工具包，使模型训练变得极其简单。他们在公共云上复制了稳定扩散训练，花费了47,000美元。代码已经开源。他们的平台可以自动从硬件故障中恢复。有趣的是，这个模型的用户偏好得分很高，可能是由于许可的图像训练问题。无论如何，这是如何使用他们的工具，特别是StreamingDataset来处理100T的数据并训练一个相当复杂的模型的有力示例。

Open GPT模型针对医疗数据进行调整

Llama是Meta的一种语言模型，采用了大多数开放式许可证进行发布。它的训练时间比GPT-3长得多，甚至比Deepmind的Chinchilla建议的最佳训练时间还要长。它在医疗任务上表现良好，但是当进行更多的调整后，分数提高了30%以上。很多人一直在谈论参数高效微调，它只更新底层模型的一小部分。这篇论文表明，虽然使用PEFT更便宜，但有时性能会显著降低。

带有约束的扩散模型

扩散模型是一类机器学习模型，它们学习从数据中慢慢去除噪声以产生高质量的输出。稳定扩散文本到图像模型就是这样一个例子。这些模型的一个挑战是对输出设置约束（想象一下只想使用蓝色像素的应用程序）。本文在输出上引入不等式约束，以便您可以为批准区域内的任何内容生成扩散路径。他们展示了扩散模型在约束非常严格的生物医学应用程序中的示例。

扩散模型合成数据提高ImageNet分类

这篇论文探讨了利用大规模文本到图像扩散模型进行生成性数据增强以改善具有挑战性的判别任务的潜力。研究表明，这些模型生成的经过精细调整的类别条件模型具有最先进的FID、Inception得分和分类准确度得分。通过从生成的模型中添加样本来增强ImageNet训练集，可以显著提高ImageNet分类准确度，超过强大的ResNet和Vision Transformer基线。

NeutralSpeech2

Natural Speech 2 项目旨在通过开发新的算法和模型来推进语音识别技术的发展，使其更好地处理人类语音的内在复杂性和微妙性，从而提高基于语音的人工智能系统的性能和可用性。

Godot-Dodo

godot-dodo项目提供了一种管道，可以在GitHub上检索到人类创建的特定语言代码上对开源语言模型进行微调。

Whisper Jax

现在在Jax中运行，这个版本的whisper可以在短短几秒钟内转录1小时的音频。底层模型已经是最强大的语音识别系统之一，现在几乎毫不费力地实现了快速转录。

H20GPT

GPT的开源版本。

InstructCTG：通过自然语言指令进行受控文本生成

INSTRUCTCTG是一种受控文本生成框架，通过使用自然语言描述和演示来整合各种约束。这种灵活的方法可以保持生成质量和速度，并允许模型通过少量任务泛化和上下文学习来适应新的约束。

LLaMA-Adapter V2

LLaMA-Adapter V2是一种改进的、参数高效的模型，增强了大型语言模型遵循指令和整合视觉知识的能力。通过优化可学习参数和整合专家模型，它在多模态推理和聊天交互方面表现更好。

ChatVideo：一种多模态视频理解系统

ChatVideo是一种用于多功能和多模态视频理解的原型系统，使用以轨迹为中心的范式和视频基础模型（ViFMs）来注释属性。这种方法在解决现实场景中各种与视频相关的问题方面表现出有效性。

AI的代码能力比较

在Hacker Noon的比较中，对包括Bing、Claude、Co-Pilot、GPT-4和Bard在内的AI机器人的编码能力进行了评估，揭示了这些先进工具在软件开发中的潜力和限制。

ChatGPT是否应该存在偏见？

本文探讨了像ChatGPT这样的大规模语言模型中存在偏见的挑战和风险，讨论了它们的起源、伦理关切和潜在的缓解策略。它强调了需要跨学科、协作的努力来开发更加公平、透明和负责任的AI系统，鼓励AI社区内对偏见的作用和追求伦理AI进行深思熟虑的对话。

语言控制的记忆

SCM是一个新系统，允许LLMs处理长输入。它由三个关键模块组成：语言模型代理、内存流和内存控制器。SCM已被证明在处理长输入方面非常有效，并且具有在各种任务中使用的潜力。

SparseFormer：通过有限潜在标记实现稀疏视觉识别

SparseFormer是一种新颖的方法，受人类稀疏视觉识别的启发，使用有限数量的潜在标记表示图像，以较低的计算成本实现具有竞争力的性能。这种方法提供更好的准确性和吞吐量平衡，并且可以轻松扩展到视频分类，可能激发对稀疏神经结构的进一步研究。

使用强化学习学习灵活的足球技能

在这项研究中，研究人员使用深度强化学习（Deep RL）训练了一个低成本、小型的人形机器人，它有20个关节可以运动，以玩一个简化的1v1足球比赛为目标，最终开发出了强大和动态的运动技能和基本的战略理解

使用文本指导进行几何变形

本研究介绍了一种基于文本提示自动变形三角形网格的技术，利用可微分渲染和预训练的图像编码器，如CLIP和DINO。

多视角图像生成中的照片真实性

该研究专注于多视角图像生成，用于3D相关应用，如图像视角编辑。所提出的射线调节方法使用一种无几何约束的方法生成多视角图像，将2D GAN置于光场先验条件下，提供了更好的照片真实性、身份一致性和明确的视角控制，同时最小化了几何伪影和细节缺失。

CHI 2023的研究

这是一组与编程和人工智能相关的论文，将在CHI会议上展示。

OpenLLaMA (GitHub Repo)

Meta AI的LLaMA大型语言模型的许可开源复制。

Chat Chat (GitHub Repo)

Chat Chat允许您使用OpenAI、Microsoft Azure、Claude、Cohere、Hugging Face等多个API，使您的AI对话体验更加丰富。

folk 2.0 (Product Launch)

folk是适合您的CRM，而不是反过来。它轻量级、可定制，并配备了AI，让您轻松建立更牢固的关系。

GPT导师角色提示

语言模型有出人意料的能力，可以根据您的提示以不同的人物或代理人身份出现。其中一个例子是DAN jailbreak，它是聊天GPT的解锁方式，代表着“现在做任何事情”。但在这种情况下，Mr. Ranedeer是GPT4的导师角色，可以作为一种强大的教育工具，用于学习您不熟悉的概念。

NewsBytes

NewsBytes是一个由AI生成的播客，大约在5分钟内涵盖全球头条新闻。

Landing AI

使用生成AI解释您的产品、品牌，并获得独特的着陆页面。

GPT4Free

该存储库为GPT-4/3.5提供了反向工程的第三方API。

Wonnx

Wonnx是一个GPU加速的ONNX推理运行时，使用100% Rust编写，可用于Web。

Guidde AI

Guidde是一种生成式AI平台，使团队能够以11倍的速度传递专业知识，以便与客户或员工轻松共享。

WasmGPT

WasmGPT是一个类似ChatGPT的聊天机器人，使用ggml和emscripten在浏览器中实现。

Chatscout

Zevi的购物助手建立在他们的神经搜索引擎和OpenAI之上，为品牌提供个性化和引人入胜的体验，帮助客户找到他们寻找的内容，同时为品牌提供独特的声音。

Chegg归因于ChatGPT业务下滑

教育技术平台Chegg表示，ChatGPT正在损害其业务后，该公司的股价下跌了40％。

Grimes推出可以模仿她的声音的软件

格莱姆斯推出了一款名为Elf.Tech的AI语音软件，邀请您录制或上传声音以用格莱姆斯的声音重现。

Geoffrey Hinton谈为什么他害怕人工智能

AI先驱Geoffrey Hinton解释了他为什么要从谷歌辞职，并解释了他为什么现在害怕人工智能可能造成的伤害。

为什么聊天机器人不是未来

在Wattenberger的博客文章中，作者对聊天机器人提出了批评，包括那些由AI驱动的聊天机器人，如ChatGPT。作者认为，尽管它们越来越复杂，但聊天机器人往往无法提供有意义和具有相关上下文的响应。他们还提出了聊天机器人取代人类工作的担忧，以及其使用的伦理问题，例如数据隐私和潜在的操纵可能性。这是一个深思熟虑的批评，敦促人们对这些技术保持谨慎和批判性的参与。

生成AI的未来是专业化的，而不是通用的

麻省理工科技评论指出，生成AI的未来可能会是专业化的，而不是通用的，这表明人们越来越需要定制的AI解决方案，以满足特定行业或应用程序的需求，而当前一刀切的AI模型在解决独特和多样化需求方面存在限制。

可能会让我们与AI同归于尽的想法

这篇《时代》杂志的文章探讨了某些心态和假设，这些心态和假设可能会导致与AI相关的灾难性后果，强调了负责任的AI开发和使用的重要性，以及对思考深入的监管和伦理考虑的需求。

一位作者通过AI克隆自己，并欺骗了银行和家人

《华尔街日报》一篇文章探讨了一位作者创造自己的AI克隆的经历。结果令人惊讶地令人信服，AI成功地欺骗了作者的银行和家人。这引发了有关AI技术的问题，特别是在隐私和安全方面的影响。

美国最高法院驳回AI专利案

美国最高法院拒绝审理一起案件，该案件主张AI算法应该被认定为专利申请中的发明人，受到法律保护。

意大利恢复ChatGPT

ChatGPT聊天机器人在OpenAI解决了意大利数据保护机构提出的问题后，周五得到了意大利机构和公司的确认并重新启动。

ChatGPT是一项炙手可热的技能

一项新的调查发现，91%的雇主正在寻找具有ChatGPT经验的工人。

查看原图 200K