阿里国际发布多模态模型Ovis，全部开源可商用

腾讯科技

2024-09-19 11:17发布于北京腾讯新闻科技频道官方账号

腾讯科技讯（郭晓静）北京时间9月19日，阿里国际AI团队发布了一款多模态大模型Ovis。据官方介绍，Ovis擅长数学推理问答、物体识别、文本提取和复杂任务决策等。例如，Ovis可以回答数学问题、识别花的品种，支持多种语言的文本提取，可以识别手写字体和复杂的数学公式。

从底层技术来看，Ovis模型创新了架构设计，首次引入将连续的视觉特征转换为概率化的视觉token，再经由视觉嵌入词表加权生成结构化的视觉嵌入。其支持处理极端长宽比的图像，兼容高分辨率图像。覆盖了多方向数据集覆盖，包括Caption、VQA、OCR、Table、Chart等各个多模态数据方向。

目前，Ovis系列模型已经全部开源可商用。此系列模型的开源License采用 Apache 2.0。Ovis 1.0、1.5的数据、模型、训练和推理代码都已全部开源，可复现。Ovis1.6系列中的Ovis1.6-Gemma2-9B也已开源权重。

查看原图 361K