2025年2月13日

DeepSeek 震惊世界之后，Qwen 除夕更新，要再次教 ChatGPT，Gemini ，Cluade 等闭源模型做人？

By tony AI聊天评论 0

新年快乐！！！

我们过年的时候，国内的 AI 领域也是年味满满，喜事不断。

DeepSeek R1还没玩透。。。Qwen2.5-VL 又来了。

DeepSeek 又便宜又好用，这已经是国内外共识了。

但是他还有一个短板，就是多模态能力，就是图片视频的理解力。

然后千问VL立马就来了，赶着除夕来的。

模型简介

Qwen2.5-VL 是 Qwen 模型家族的旗舰视觉语言模型，对比此前发布的Qwen2-VL 实现了巨大的飞跃。

Qwen2.5-VL 的主要特点如下所示：

感知更丰富的世界：Qwen2.5-VL 不仅擅长识别常见物体，如花、鸟、鱼和昆虫，还能够分析图像中的文本、图表、图标、图形和布局。
智能体Agent：Qwen2.5-VL 直接作为一个视觉 Agent，可以推理并动态地使用工具，初步具备了使用电脑和使用手机的能力。
理解长视频和捕捉事件：Qwen2.5-VL 能够理解超过 1 小时的视频，并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。
视觉定位：Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体，并能够为坐标和属性提供稳定的 JSON 输出。
结构化输出：对于发票、表单、表格等数据，Qwen2.5-VL 支持其内容的结构化输出，惠及金融、商业等领域的应用。

模型性能

从官方公布的数据来看，模型性能也是非常炸裂了，有 13 项同类最佳。

从上图中可以看到，Qwen2.5-VL 相对 GPT-4o 和 Cluade3.5 而言，已经多维度领先。相比 Gemini-2 也是有来有回。在视频理解方面是全面领先所有主流的闭源模型。

模型开源

Qwen应该是国内开源模型做得最好的团队之一，起步早，步伐稳健，不忘初心，一直秉承开源理念。

即便是在参数如此优秀的情况下，依旧全部开源。

模型开源了三个版本：

3B 适合端侧部署速度最快

7B 能力和速度的平衡

72B 最强性能

这三个版本全部可以下载，所有人都可以下载。

有能力的已经可以在自己的电脑里安装测试了。

在线体验

除了开源模型之外，也可以直接免费在线体验。

打开网址：https://chat.qwenlm.ai/

点击左上方的下拉选项，把模型从 Qwen2.5-Plus 切换到VL-72B 就可以使用多模态能力了。

具体的使用实例，可以查看官网的文档。有非常多实用功能。国产开源模型是越来越好了。相比而言，国内外的闭源模型有点止步不前的感觉。

坚持闭源的百度李彦宏和把牛人都赶走的OpenAI奥特曼接下来的日子应该都不好过咯～～但是对于所有玩家和用户，接下来的日子会越来越好玩，AI也会越来越便宜，亲民。

AI界的乾坤未定，谁都可能是黑马，2025春节开了个好头，未来可期！

相关地址：

项目主页：https://qwenlm.github.io/blog/qwen2.5-vl开源地址：https://github.com/QwenLM/Qwen2.5-VL模型地址：https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5体验地址：https://chat.qwenlm.ai/