DeepSeek 震惊世界之后,Qwen 除夕更新,要再次教 ChatGPT,Gemini ,Cluade 等闭源模型做人?
新年快乐!!!
我们过年的时候,国内的 AI 领域也是年味满满,喜事不断。
DeepSeek R1还没玩透。。。Qwen2.5-VL 又来了。

DeepSeek 又便宜又好用,这已经是国内外共识了。
但是他还有一个短板,就是多模态能力,就是图片视频的理解力。
然后千问VL立马就来了,赶着除夕来的。
模型简介
Qwen2.5-VL 是 Qwen 模型家族的旗舰视觉语言模型,对比此前发布的Qwen2-VL 实现了巨大的飞跃。
Qwen2.5-VL 的主要特点如下所示:
- 感知更丰富的世界:Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局。
- 智能体Agent:Qwen2.5-VL 直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。
- 理解长视频和捕捉事件:Qwen2.5-VL 能够理解超过 1 小时的视频,并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。
- 视觉定位:Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。
- 结构化输出:对于发票、表单、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,惠及金融、商业等领域的应用。
模型性能
从官方公布的数据来看,模型性能也是非常炸裂了,有 13 项同类最佳。

从上图中可以看到,Qwen2.5-VL 相对 GPT-4o 和 Cluade3.5 而言,已经多维度领先。相比 Gemini-2 也是有来有回。在视频理解方面是全面领先所有主流的闭源模型。
模型开源
Qwen应该是国内开源模型做得最好的团队之一,起步早,步伐稳健,不忘初心,一直秉承开源理念。
即便是在参数如此优秀的情况下,依旧全部开源。

模型开源了三个版本:
3B 适合端侧部署速度最快
7B 能力和速度的平衡
72B 最强性能
这三个版本全部可以下载,所有人都可以下载。
有能力的已经可以在自己的电脑里安装测试了。
在线体验
除了开源模型之外,也可以直接免费在线体验。
打开网址:https://chat.qwenlm.ai/

点击左上方的下拉选项,把模型从 Qwen2.5-Plus 切换到VL-72B 就可以使用多模态能力了。

具体的使用实例,可以查看官网的文档。有非常多实用功能。国产开源模型是越来越好了。相比而言,国内外的闭源模型有点止步不前的感觉。
坚持闭源的百度李彦宏和把牛人都赶走的OpenAI奥特曼接下来的日子应该都不好过咯~~ 但是对于所有玩家和用户,接下来的日子会越来越好玩,AI也会越来越便宜,亲民。
AI界的乾坤未定,谁都可能是黑马,2025春节开了个好头,未来可期!
相关地址:
项目主页:
https://qwenlm.github.io/blog/qwen2.5-vl
开源地址:
https://github.com/QwenLM/Qwen2.5-VL
模型地址:
https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5
体验地址:
https://chat.qwenlm.ai/