xAI方面已发布首个多模态大模型Grok-1.5 Vision

继此前在今年3月推出新一代大模型Grok-1.5后,日前马斯克旗下人工智能创企xAI方面发布了旗下首个多模态模型Grok-1.5 Vision,并表示将于近期邀请早期测试者和现有Grok用户测试Grok-1.5 Vision。
据了解,与此前只具备文本理解与生成能力的Grok-1、Grok-1.5相比,Grok-1.5 Vision已可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图、照片等,并能进行多学科推理。在相关公告中,xAI方面还演示了7个Grok-1.5 Vision的应用案例,包括将白板上的流程图草图转化为Python代码、根据食品标签计算卡路里、根据孩子的绘画生成睡前故事、解释流行语与梗图、将表格转化为CSV文件格式等。
图片
性能方面,据xAI方面公布的相关测评结果显示,与GPT-4V、Claude 3 Sonnet、Claude 3 Opus、Gemini Pro 1.5等大模型相比,Grok-1.5 Vision的表现不相上下,而且在一些基准测试中略胜一筹。例如在RealWorld基准测试中,Grok-1.5 Vision的表现明显优于同类模型。
对此xAI方面表示,“Grok-1.5 Vision在多学科推理、文档理解、科学图表、表格处理、屏幕截图和照片等多个领域都能媲美现有的前沿多模态模型”。同时xAI方面还强调,推进多模态理解和生成能力是构建能够理解宇宙的有益AGI的重要步骤。据该公司透露,在接下来的几个月里,预计其将在图像、音频、视频等各种模态上对这两种功能进行重大改进。
目前xAI方面已放出招聘链接,邀请更多设计师、工程师、产品、数据、Infra、AI导师加入。而且就在日前,开源大模型LLaVA一作、美国威斯康星大学麦迪逊分校博士柳昊天宣布加入xAI,对此他表示,“我很高兴和一个小而专注的团队一起工作,看看我们能有多快!这仅仅是个开始”‍。
值得一提的是,除相继发布Grok-1.5、Grok-1.5 Vision之外,不久前xAI方面还开源了Grok-1。据悉,Grok-1是由xAI于2023年10月使用基于JAX和Rust的自定义训练堆栈、从头开始训练的模型,其发布版本所使用的训练数据来自截至2023年第三季度的互联网数据和xAI AI训练师提供的数据。其窗口长度为8192tokens、精度为bf16、Tokenizer vocab大小为131072(2^17),与GPT-4接近,参数规模达3140亿,其中25%的参数能够针对特定的数据单元(Token)激活。
据了解,Grok-1遵照Apache 2.0协议开放模型权重和架构,因此意味着其允许用户自由地使用、修改和分发软件,无论是作为个人、还是商业用途。
【本文图片来自网络】