你说我画,AI艺术家技艺惊人!
如果有人提问,什么职业最容易被AI替代?基本结论肯定是那些重复性很高的职业。那些充满创造力的行业和人很难被取代。比如像艺术家,画家。但是…不一定哦!
最近被各种AI艺术作品刷屏了,特地去了解了一下最新的AI图片生成技术。现在流行用超大语言模型,通过文字去生成图片(Text2Image)。就是你只要用语言描述一下你想画的内容,AI算法就能帮你画出来。
虽然AI不能保证每一次都做得很好,但是确实会出很多惊艳的作品。而且AI的作品似乎更加天马行空,不受人类基础认知的限制。另外AI想要学某个大师的风格也是相当轻松。
下面简单的介绍一下几个能听懂人话的 “AI艺术家” 。
DALL·E (OpenAI)
2021年1月,OpenAI推出了DALL·E。一年后,最新的系统 DALL·E 2 以 4 倍的分辨率生成更逼真、更准确的图像。DALL·E 2 是一个新的人工智能系统,可以根据自然语言的描述创建逼真的图像和艺术作品。
上图是用文字“An astronaut riding a horse in a photorealistic style” 生成的一批图片。
根据官网介绍:
DALL·2 可以从文字描述中创建原创且具体的艺术作品。创作过程可以结合概念、属性和样式等元素。
DALL·2 可以扩展原始画布之外的图像,创建广阔的新构图。
DALL·E 2 可以根据自然语言标题对现有图像进行逼真的编辑
DALL·E 2 可以拍摄一张图片,并根据原图制作不同的变体。
Imagen (Google )
Imagen 由谷歌研究院 谷歌大脑团队研发的一个人工智能系统,可以从输入文本中创建逼真的图像。使用深度语言理解能力创造了具体前所未有的写实感的图像。
Imagen扩散模型可根据用户的书面提示输出绘图、油画、CGI 渲染等
据他们自己介绍,通过和VQ-GAN+CLIP 和DALL-E2进行比较,发现人类评分者更喜欢Imagen生成的图片。
ernie(百度文心)
Ernie 是百度研发的中文语言大模型,在此基础上发布了文图模型ERNIE-ViLG。
ERNIE-ViLG是文生图领域的大模型服务,支持输入一段文字和风格类型,模型就会根据输入的内容自动创作出符合要求的图像。
上面的两个项目输入的文本主要为英文,文心可以直接输入中文。官方提供了网页版和API调用,Paddlehub也已经支持该模型。
玩起来?
上面介绍的三个项目,都是大工程。大量的研究人员,大量的数据,大量的设备,大量的时间,才有现在的效果。一般人要炼丹几乎是不可能的,即便是拿他们的成果来玩都很难。
DALL·E和Imagen 好像还没开源,即便开源,也不知道设备扛不扛得住。DALL·E有内测邀请,我显然不在其中^_^!
文心做了一些大众友好的接口,可以玩一玩。除此之外,现在github上有两个相对平民化的项目,看起来效果也不错,可以搞一搞。后续的文章会一个一个进行具体的介绍。
官方链接:
dall-e-2:https://openai.com/dall-e-2/
imagen:https://imagen.research.google/
ernie:https://wenxin.baidu.com/moduleApi/ernieVilg