阿里国际发布多模态模型Ovis,全部开源可商用

图片

腾讯科技讯(郭晓静)北京时间9月19日,阿里国际AI团队发布了一款多模态大模型Ovis。据官方介绍,Ovis擅长数学推理问答、物体识别、文本提取和复杂任务决策等。例如,Ovis可以回答数学问题、识别花的品种,支持多种语言的文本提取,可以识别手写字体和复杂的数学公式。

从底层技术来看,Ovis模型创新了架构设计,首次引入将连续的视觉特征转换为概率化的视觉token,再经由视觉嵌入词表加权生成结构化的视觉嵌入。其支持处理极端长宽比的图像,兼容高分辨率图像。覆盖了多方向数据集覆盖,包括Caption、VQA、OCR、Table、Chart等各个多模态数据方向。

目前,Ovis系列模型已经全部开源可商用。此系列模型的开源License采用 Apache 2.0。Ovis 1.0、1.5的数据、模型、训练和推理代码都已全部开源,可复现。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。