阿里巴巴的云计算部门刚刚发布了一款全新的 AI 模型 ——Qwen2-VL。这款模型的强大之处在于它能够理解视觉内容,包括图片和视频,甚至可以实时分析长达20分钟的视频,可以说相当强悍。
产品入口:https://qwenlm.github.io/blog/qwen2-vl/
与其他领先的先进模型(如 Meta 的 Llama3.1、OpenAI 的 GPT-4o、Anthropic的 Claude3Haiku 和 Google 的 Gemini-1.5Flash)相比,它在第三方基准测试中表现十分优秀。
阿里从六个关键维度评估模型的视觉能力:复杂的大学水平问题解决、数学能力、文档和表格理解、多语言文本图像理解、一般场景问答、视频理解和基于代理的交互。其 72B 模型在大多数指标上都展示了顶级性能,甚至超过了 GPT-4o 和 Claude 3.5-Sonnet 等闭源模型。值得注意的是,它在文档理解方面表现出显着优势。
具体如下图所示:
超强分析图像和视频能力
Qwen2-VL 旨在提升我们对视觉数据的理解和处理能力。它不仅能够对静态图片进行分析,还能总结视频内容、回答与之相关的问题,甚至可以实时提供在线聊天支持。
正如 Qwen 研究团队在 GitHub 上关于新 Qwen2-VL 系列模型的博客文章中所写的那样:“除了静态图像之外,Qwen2-VL 还将其能力扩展到视频内容分析。它可以总结视频内容,回答与之相关的问题,并实时保持持续的对话流,提供实时聊天支持。此功能使其能够充当个人助理,通过提供直接从视频内容中提取的见解和信息来帮助用户。
更重要的是,官方称,可以分析超过20分钟的视频并回答有关内容的问题。这意味着,无论是在线学习、技术支持,还是任何需要对视频内容进行理解的场合,Qwen2-VL 都可以成为得力助手。官方还展示了一个新模型的例子,正确地分析和描述了以下视频:
另外,Qwen2-VL 的语言能力也相当强大,支持英语、中文以及多种欧洲语言,日语、韩语、阿拉伯语和越南语等多种语言,让全球用户都能轻松使用。为了让大家更好地理解它的能力,阿里巴巴还在他们的 GitHub 上分享了相关的应用示例。
三个版本
这款新模型有三个不同参数的版本,分别是 Qwen2-VL-72B(720亿参数)、Qwen2-VL-7B 和 Qwen2-VL-2B。其中,7B 和2B 版本在开源宽松的 Apache2.0许可证下提供,允许企业随意将它们用于商业目的。
不过,最大的72B 版本目前还没有公开,只能通过专门的许可证和 API 获取。
此外,Qwen2-VL 还引入了一些全新的技术特性,比如 Naive Dynamic Resolution 支持,可以处理不同分辨率的图像,确保视觉解读的一致性和准确性。还有 Multimodal Rotary Position Embedding(M-ROPE)系统,能够在文本、图像和视频之间同步捕捉和整合位置信息。
Qwen2-VL 的发布标志着视觉语言模型技术的又一次突破,阿里巴巴的 Qwen 团队表示,他们将继续致力于提升这些模型的功能,探索更多应用场景。
[免责声明]如需转载请注明原创来源;本站部分文章和图片来源网络编辑,如存在版权问题请发送邮件至398879136@qq.com,我们会在3个工作日内处理。非原创标注的文章,观点仅代表作者本人,不代表本站立场。