Meta 真的很想要下个时代的计算平台的入口，小扎觉得 AI 加 AR 是答案

歸藏

2024-09-26 20:06发布于北京科技领域创作者

全文2243字，阅读约需7分钟，帮我划重点

划重点

01Meta Connect 2024发布了Llama 3.2系列模型、Meta AI以及其他软件，提升了AI能力。

02概念AR眼镜Orion解决了虚拟现实设备的操控精细度、佩戴舒适度和计算单元链接问题。

03Orion眼镜将眼动追踪、手动追踪、语音和神经腕带组合控制，观感、触感与重量与普通眼镜无异。

04此外，雷朋Meta眼镜增加了实时AI视频处理、实时语言翻译等功能。

05Quest 3S作为Quest 3的便宜替代品，起价为299美元，256GB版本为399美元。

以上内容由腾讯混元大模型生成，仅供参考

昨天 Meta Connect 2024 Meta 全线内容都获得了更新，核心是 AI 和 AR 两个部分，看来小扎希望从这两个部分一个软一个硬来抢摊下个时代的平台级入口。

从发布会来看可能确实走对了，尤其是世界上最先进的 AR 眼镜 “Orion” 解决了虚拟现实设备几个重要的问题。

下面是 Meta 主要的发布内容：

•发布 Llama 3.2 系列模型•Meta AI 以及其他软件获得更多 AI 能力加持•概念 AR 眼镜 Orion 以及 Quest 3S 还有雷朋 Meta 太阳镜

模型

主要发布了四个模型 Llama 3.2 11B 和 90B 两个多模态 LLM，还有 1B 和 3B 两个小型语言模型：

•11B 和 90B，支持图像推理用例，例如文档级理解，包括图表和图形、图像的描述以及视觉定位任务。•Llama 3.2 视觉模型在图像识别和视觉理解任务中与 Claude 3 Haiku 和 GPT4o-mini 比都具有竞争力。•Llama 3.2 1B 和 3B 支持 128K Token的上下文，并在移动设备常见任务比如摘要、总结、指令遵循上都很强，同时针对 Arm 处理器进行了优化。•发布Llama Stack 发行版，集成了单节点、本地、云和设备，支持即插即用的 RAG 和工具启用的应用程序。

**Daniel Han^[1] 关于 Llama3.2 模型核心优化点的一些总结：**

1.10 亿参数和 30 亿参数模型使用了部分来自 80 亿参数和 700 亿参数模型的知识蒸馏 (distillation) 技术。2.视觉语言模型 (Vision Language Model, VLM) 使用了 60 亿个图像-文本对进行训练。3.采用了 CLIP 式 MLP 结构，使用 GeLU 激活函数和交叉注意力机制。4.视觉编码器中使用了类似 CLIP 的 MLP 结构，采用 GeLU 激活函数。这与 GPT2 的 MLP 结构相似，但与 Llama 3 不同，因为视觉 MLP 没有使用 SwiGLU。5.视觉编码器使用了标准的层归一化 (Layer Normalization)，而非 RMS 层归一化。此外，还引入了一个"门控"参数来调节隐藏状态。6.在注意力层和 MLP 层之后，使用门控机制对隐藏状态进行调节。采用 tanh 函数将向量缩放到 -1 到 1 之间。7.评估结果显示，小型 LLM (10 亿和 30 亿参数) 和多模态 VLM (110 亿和 900 亿参数) 的性能都相当不错。10 亿参数模型在 MMLU (Massive Multitask Language Understanding) 测试中得分 49.3，30 亿参数模型得分 63.4。VLM 在 MMMU (Massive Multitask Multimodal Understanding) 测试中，110 亿参数模型得分 50.7，900 亿参数模型得分 60.3。

模型下载：

模型体验：