DeepSeek 震惊世界之后,Qwen 除夕更新,要再次教 ChatGPT,Gemini ,Cluade 等闭源模型做人?

新年快乐!!!

我们过年的时候,国内的 AI 领域也是年味满满,喜事不断。

DeepSeek R1还没玩透。。。Qwen2.5-VL 又来了。

DeepSeek 又便宜又好用,这已经是国内外共识了。

但是他还有一个短板,就是多模态能力,就是图片视频的理解力。

然后千问VL立马就来了,赶着除夕来的。

模型简介

Qwen2.5-VL 是 Qwen 模型家族的旗舰视觉语言模型,对比此前发布的Qwen2-VL 实现了巨大的飞跃。

Qwen2.5-VL 的主要特点如下所示:

  • 感知更丰富的世界:Qwen2.5-VL 不仅擅长识别常见物体,如花、鸟、鱼和昆虫,还能够分析图像中的文本、图表、图标、图形和布局
  • 智能体Agent:Qwen2.5-VL 直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。
  • 理解长视频和捕捉事件:Qwen2.5-VL 能够理解超过 1 小时的视频,并且这次它具备了通过精准定位相关视频片段来捕捉事件的新能力。
  • 视觉定位:Qwen2.5-VL 可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。
  • 结构化输出:对于发票、表单、表格等数据,Qwen2.5-VL 支持其内容的结构化输出,惠及金融、商业等领域的应用。

模型性能

从官方公布的数据来看,模型性能也是非常炸裂了,有 13 项同类最佳

从上图中可以看到,Qwen2.5-VL 相对 GPT-4o 和 Cluade3.5 而言,已经多维度领先。相比 Gemini-2 也是有来有回。在视频理解方面是全面领先所有主流的闭源模型。

模型开源

Qwen应该是国内开源模型做得最好的团队之一,起步早,步伐稳健,不忘初心,一直秉承开源理念。

即便是在参数如此优秀的情况下,依旧全部开源。

模型开源了三个版本:

3B 适合端侧部署速度最快

7B 能力和速度的平衡

72B 最强性能

这三个版本全部可以下载,所有人都可以下载。

有能力的已经可以在自己的电脑里安装测试了。

在线体验

除了开源模型之外,也可以直接免费在线体验。

打开网址:https://chat.qwenlm.ai/

点击左上方的下拉选项,把模型从 Qwen2.5-Plus 切换到VL-72B 就可以使用多模态能力了。

具体的使用实例,可以查看官网的文档。有非常多实用功能。国产开源模型是越来越好了。相比而言,国内外的闭源模型有点止步不前的感觉。

坚持闭源的百度李彦宏和把牛人都赶走的OpenAI奥特曼接下来的日子应该都不好过咯~~ 但是对于所有玩家和用户,接下来的日子会越来越好玩,AI也会越来越便宜,亲民。

AI界的乾坤未定,谁都可能是黑马,2025春节开了个好头,未来可期!

相关地址:

项目主页:https://qwenlm.github.io/blog/qwen2.5-vl开源地址:https://github.com/QwenLM/Qwen2.5-VL模型地址:https://huggingface.co/collections/Qwen/qwen25-vl-6795ffac22b334a837c0f9a5体验地址:https://chat.qwenlm.ai/
 

小尾巴==========================
公众号:托尼不是塔克
交流群
知识星球
==============================

 



发表评论

您的邮箱地址不会被公开。 必填项已用 * 标注