xAI方面已发布首个多模态大模型Grok-1.5 Vision

三易生活

2024-04-15 07:36发布于湖北三易生活官方账号

继此前在今年3月推出新一代大模型Grok-1.5后，日前马斯克旗下人工智能创企xAI方面发布了旗下首个多模态模型Grok-1.5 Vision，并表示将于近期邀请早期测试者和现有Grok用户测试Grok-1.5 Vision。

据了解，与此前只具备文本理解与生成能力的Grok-1、Grok-1.5相比，Grok-1.5 Vision已可以处理各种各样的视觉信息，包括文档、图表、图表、屏幕截图、照片等，并能进行多学科推理。在相关公告中，xAI方面还演示了7个Grok-1.5 Vision的应用案例，包括将白板上的流程图草图转化为Python代码、根据食品标签计算卡路里、根据孩子的绘画生成睡前故事、解释流行语与梗图、将表格转化为CSV文件格式等。

性能方面，据xAI方面公布的相关测评结果显示，与GPT-4V、Claude 3 Sonnet、Claude 3 Opus、Gemini Pro 1.5等大模型相比，Grok-1.5 Vision的表现不相上下，而且在一些基准测试中略胜一筹。例如在RealWorld基准测试中，Grok-1.5 Vision的表现明显优于同类模型。

对此xAI方面表示，“Grok-1.5 Vision在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域都能媲美现有的前沿多模态模型”。同时xAI方面还强调，推进多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。据该公司透露，在接下来的几个月里，预计其将在图像、音频、视频等各种模态上对这两种功能进行重大改进。

目前xAI方面已放出招聘链接，邀请更多设计师、工程师、产品、数据、Infra、AI导师加入。而且就在日前，开源大模型LLaVA一作、美国威斯康星大学麦迪逊分校博士柳昊天宣布加入xAI，对此他表示，“我很高兴和一个小而专注的团队一起工作，看看我们能有多快！这仅仅是个开始”‍。

值得一提的是，除相继发布Grok-1.5、Grok-1.5 Vision之外，不久前xAI方面还开源了Grok-1。据悉，Grok-1是由xAI于2023年10月使用基于JAX和Rust的自定义训练堆栈、从头开始训练的模型，其发布版本所使用的训练数据来自截至2023年第三季度的互联网数据和xAI AI训练师提供的数据。其窗口长度为8192tokens、精度为bf16、Tokenizer vocab大小为131072（2^17），与GPT-4接近，参数规模达3140亿，其中25%的参数能够针对特定的数据单元（Token）激活。

据了解，Grok-1遵照Apache 2.0协议开放模型权重和架构，因此意味着其允许用户自由地使用、修改和分发软件，无论是作为个人、还是商业用途。

【本文图片来自网络】

查看原图 14K