AI大乱斗:识别图中人物,ChatGPT碾压谷歌和国产AI产品
欢迎来到AI大PK系列文章,今天要考验国内外AI助手的问题是:图片中的都是谁?
最近这波人又在开小会,搞事情了。很多人可能认不全里面的人,包括我。所以突发奇想,让AI来帮忙。
本以为这是小菜一碟,没想到是大型翻车现场!!!
尤其是号称国内第一的百度AI,真是没有对比就没有伤害,一对比全部露馅了。
下面来看一下具体的问答情况。
ChatGPT
OpenAI的ChatGPT回答如下:

因为有几个我也不认识,所以抽着来检查下。
第三个是加拿大总理,第六个是美国总统,第八个是英国首相。
顺序,国家,名称全对。
另外人物数量也是全对。
另外做了简单的概括,包括地点,时间,事间全部正确。
看到ChatGPT的表现,我感觉这个问题对AI来说可能太简单了。但是,我显然想得太简单了!
谷歌双子座Gemini

谷歌双子座,直接放弃回答。表示还在学习中…
谷歌是成名已久的科技公司,有全球第一的搜索引擎,主导了安卓系统,还有Gmail,Chrome都知名产品。但是在AI这方面,显然是起步晚了,给人巨头迟暮的感觉。
百度文心一言

百度是国内第一个发布大语言模型的公司,一直号称自己ALLINAI。上面的结果,乍一看也挺不错,要比谷歌好多了。
但是细看,就会发现问题很大。
首选人物数量错了,图片中是九个人,它识别出了10个。
其次顺序错了,第一个绝对不是🇨🇦总理,第二个也绝对不是法国总统…
无中生有,莫迪表示谢谢你!
顺序混乱,无中生有,这种扭曲的信息,还不如像谷歌一样直接说不知道呢!!!!
月之暗面Kimi

Kimi有一段时间很火啊。全网都在夸,它的体验做的还不错,但是有点投机取巧的感觉,底层的模型能力其实比较一般。
多模态的理解能力几乎为零。
它只是简单的识别出了文字内容,没有理解图片中的人物和位置关系。
讯飞星火

讯飞我一直感觉还比较踏实的,但是随着大家快速发展,它明显有点跟不上了,它的表现和谷歌类似,直接摆烂。能力不行,但是至少坦白。没啥好多说的了。
阿里通义千问

千问在开源模型这一块做的非常好,但是能力上限,还是比较有限。
直接把马克龙和老拜之间的女士给省略了。
直接把日本首相替换了韩国总统…
直接自己添加了比利时,印度尼西亚…
它和百度一样
数量不对
人物不对
顺序不对
简单总结下:
这个多模态的识别问题,其实还是有点难度的。首先要识别人,其次要识别是谁,最后还要正确理解左右顺序。
这一圈看下来,我标题说的应该不算夸张了吧!
ChatGPT依旧真的遥遥领先,讯飞和谷歌还算诚实,不会就是不会,起码尊重事实,这应该比较像理科生。
百度和阿里,属于明明不太会,但是又装作很懂,满嘴跑火车,有点像文科生。
事实不重要,重要的是看起来我很会~哈哈哈!
今天的PK就到这里了!
如果你觉得有用,可以点个赞,分享一下。