2022年9月5日

你说我画，AI艺术家技艺惊人！

By tony 默认分类评论 0

如果有人提问，什么职业最容易被AI替代？基本结论肯定是那些重复性很高的职业。那些充满创造力的行业和人很难被取代。比如像艺术家，画家。但是…不一定哦！

最近被各种AI艺术作品刷屏了，特地去了解了一下最新的AI图片生成技术。现在流行用超大语言模型，通过文字去生成图片（Text2Image）。就是你只要用语言描述一下你想画的内容，AI算法就能帮你画出来。

虽然AI不能保证每一次都做得很好，但是确实会出很多惊艳的作品。而且AI的作品似乎更加天马行空，不受人类基础认知的限制。另外AI想要学某个大师的风格也是相当轻松。

下面简单的介绍一下几个能听懂人话的 “AI艺术家” 。

DALL·E （OpenAI）

2021年1月，OpenAI推出了DALL·E。一年后，最新的系统 DALL·E 2 以 4 倍的分辨率生成更逼真、更准确的图像。DALL·E 2 是一个新的人工智能系统，可以根据自然语言的描述创建逼真的图像和艺术作品。

上图是用文字“An astronaut riding a horse in a photorealistic style” 生成的一批图片。

根据官网介绍：

DALL·2 可以从文字描述中创建原创且具体的艺术作品。创作过程可以结合概念、属性和样式等元素。

DALL·2 可以扩展原始画布之外的图像，创建广阔的新构图。

DALL·E 2 可以根据自然语言标题对现有图像进行逼真的编辑

DALL·E 2 可以拍摄一张图片，并根据原图制作不同的变体。

Imagen 由谷歌研究院谷歌大脑团队研发的一个人工智能系统，可以从输入文本中创建逼真的图像。使用深度语言理解能力创造了具体前所未有的写实感的图像。

Imagen扩散模型可根据用户的书面提示输出绘图、油画、CGI 渲染等

据他们自己介绍，通过和VQ-GAN+CLIP 和DALL-E2进行比较，发现人类评分者更喜欢Imagen生成的图片。

Ernie 是百度研发的中文语言大模型，在此基础上发布了文图模型ERNIE-ViLG。

ERNIE-ViLG是文生图领域的大模型服务，支持输入一段文字和风格类型，模型就会根据输入的内容自动创作出符合要求的图像。

上面的两个项目输入的文本主要为英文，文心可以直接输入中文。官方提供了网页版和API调用，Paddlehub也已经支持该模型。

上面介绍的三个项目，都是大工程。大量的研究人员，大量的数据，大量的设备，大量的时间，才有现在的效果。一般人要炼丹几乎是不可能的，即便是拿他们的成果来玩都很难。

DALL·E和Imagen 好像还没开源，即便开源，也不知道设备扛不扛得住。DALL·E有内测邀请，我显然不在其中^_^！

文心做了一些大众友好的接口，可以玩一玩。除此之外，现在github上有两个相对平民化的项目，看起来效果也不错，可以搞一搞。后续的文章会一个一个进行具体的介绍。

dall-e-2：https://openai.com/dall-e-2/
imagen：https://imagen.research.google/
ernie：https://wenxin.baidu.com/moduleApi/ernieVilg

小尾巴==========================
公众号：托尼不是塔克
 交流群
 知识星球
==============================

I am nobody !