阿里通义或将发布视频生成模型,目前已开放预约

日前有消息源透露,阿里通义方面将在2024云栖大会上发布AI视频生成大模型。据称该模型是由通义实验室自主研发,支持“文生视频”和“图生视频”两种模式。

图片

目前,通义App和通义万相PC端均已上线“视频生成”入口,但尚未正式开放。预约成功后,阿里通义方面将在用户获得使用资格时进行通知,并赠送66灵感值(有效期30天)。

据通义App“视频生成”预约页面显示,即将发布的这款AI视频生成大模型具备强大的画面视觉动态生成能力,擅长概念理解与组合生成。其中在画面视觉方面,其支持复杂与大幅度的运动生成,能够还原真实世界的物理规律,同时还原生支持中文长文本提示词,能够理解复杂的语义,将文字创意精准呈现。

值得一提的是,这款AI视频生成大模型还能够在提供影视级画面质感的同时,支持多语言与可变分辨率生成并针对性优化了对中式元素的概念理解和生成表现力。

使用体验方面,在“文生视频”模式中,用户可通过输入文字控制画面内容与变化过程,还可配合提示词智能扩写功能、让生成的画面更具想象力。而“图生视频”模式则可以将图片作为视频首帧,延续生成更可控、更精准的画面。

图片

不久前,阿里云通义千问方面还宣布开源其第二代视觉语言模型Qwen2-VL,并推出2B、7B这2个尺寸及其量化版本模型。同时通义千问旗舰模型Qwen2-VL-72B的API也已上线阿里云百炼平台,用户可直接调用。

据了解,相比上一代模型,Qwen2-VL模型在综合的大学题目、数学能力、文档表格多语言文字图像的理解、通用场景问答、视频理解、Agent能力6个方面的基础性能,得到了全面提升。

在9月初,阿里通义方面还宣布在通义千问网页版上线了PPT创作功能,并且用户可免费使用。据官方介绍,该功能基于通义大模型打造,由通义实验室全链路自研,可极大简化PPT的制作过程,并具有言之有物、设计精美、智能编排三大特征。

与此同时,阿里通义方面还上线了多款AI学习辅助工具,包括课程实时记录、论文阅读助手、雅思托福口语老师等。其中实时记录功能可进行实时音频记录、并转换为文字内容,确保在课堂上能完整记录教师所讲授的内容。