用文字生成图像——AI界的绘画大师DALL·E 2

高观点笃者 2022-12-08 发布于上海

展开全文

人工智能（AI）正在进入传统上由人类运作的各个领域，包括医疗行业、工程项目等。艺术创作领域因其融合了人类的技艺、创造性以及独特的审美趣味，曾一直被认为是人工智能难以攻克的人类的最后堡垒。然而，随着科技的发展，这座人类的最后堡垒似乎也要被攻克。

一家名为OpenAI的人工智能研究实验室在2020年6月开发了GPT-3。GPT-3是一种语言模型，目的是为了使用深度学习分类或产生人类可以理解的自然语言。基于GPT-3，OpenAI开发了DALL·E。看到DALL·E这个名字，有些朋友可能会想，这名字是不是跟西班牙超现实主义画家达利有什么联系。事实确实如此，DALL·E是由达利（Dalí）和知名科幻机器人瓦力（WALL·E）的名字组合而成。

经过专门训练，DALL·E可以基于文字描述生成图像。例如输入“猫头鹰坐在田地上，多边形网格”，即可看到下图所显示的结果。

当然，改变关键词还可以得到不同的猫头鹰。

甚至是X光下的猫头鹰。

2022年4月，OpenAI又推出了DALL·E的全新版本，DALL·E 2。相较于前一个版本，DALL·E 2能生成更高质量、更高分辨率的图片。

DALL·E 1和DALL·E 2生成的图片对比

当然DALL·E 2还包含了其他的新功能，包括编辑现有图像。比如圈中图中的狗狗，输入“可爱的小猫”，图片立马变成了一只可爱的小猫坐在沙发上。

第一步：找一副原图

第二步：圈中目标，输入想更改的关键词

第三步：获得最终图

再来个例子，圈中蒙娜丽莎的头顶，输入“给她来个莫希干式发型”，你就会得到下面这张图。是不是迫不及待也想万一把了？

DALL·E 2的整活时刻

一位在Instagram上很活跃的艺术家是这么试玩DALL·E的——她在文本描述框内输入“一位身穿红色衬衣的女孩正在楼梯上往上走”。点击“生成”后，静等数秒就可以看到DALL·E生成的图片了。

当然，下滑还可以看到更多图片。

小姐姐连连表示满意，并开始把输入框的描述更改为“一位女孩正在一个无尽的楼梯上往上走，数字艺术”。很快，DALL·E就显示出了结果。

此刻，小姐姐开始为DALL·E的表现惊呼，并表示，这些图片看起来都很美。按捺不住心底的兴奋，她开始在输入框中重新输入“一个女孩在云层中的一座由饼干制成的无尽楼梯上行走，数字艺术”。不出数秒，DALL·E给出了它的显示结果。通常来讲，你给的描述越详细，你得到的结果就越让你感觉印象深刻。

看到这，有些人可能会觉得，这看起也没什么，不就是把图片杂糅在一起嘛。但就我们现在看来，事情不是这样的。比如，下图是一只穿着航天服的海豚。那么DALL·E是怎么知道海豚在穿上航天服后的样子的呢？DALL·E为什么为海豚选择了这个姿势？图片上的光为什么是从那个角度过来的呢？那颗行星又为什么是这个颜色的呢？一旦细想，其实这就是一个艺术家日常会思考的问题。

下个例子是一只拿破仑式的猫拿着一块奶酪。同海豚那幅画一样，为什么DALL·E选择了这个姿势？它又是怎么知道这些色彩搭配在一起会在场景中看起来很好看？这几乎看起来就是经过思考的构图。实际上，如果你是一家奶酪公司的经理，也许你会支付艺术家一笔可观的费用来获得这样的一个概念用于海报的呈现上。

OpenAI把这样的概念叫做“填补空白”。与3D渲染引擎不同，3D渲染引擎的输入必须明确且完整，当标题文本暗示图像必须包含未明确的特定细节时，DALL·E通常能够填补空白。这点尤其重要，因为通常来讲，机器并不善于应对不确定性。

下面再来看一个例子，这个庭前花园看起来就是一张照片。

再来看其他的例子。

“骄傲的浣熊艺术家们在他们的作品边摆姿势”

“耳廓狐宝宝冲着草莓打喷嚏，细节，微距，摄影室灯光，水滴，耳朵背光”

“一个尝试学习新语言的机器人”

“独角兽化石”

“一本20世纪60年代动物们打扮得像人类的图片年鉴”

“被猫绊倒的希腊雕像”

“咕噜写自传”

“宇航员骑马”

“疯狂的熊猫科学家正在混合发亮的化学物质”

“泰迪熊在时代广场的滑板上”

下面是跟其他AI工具的对比。下图为一只智者猫在喜马拉雅山上冥想悟道。（左边为DALL·E创作的图片）

下图为两名探险者在他们的帐篷和篝火边观看山边的雪景。

有时候其他的AI可以做得到很好，但是大多情况下，它们的图片会有点糊涂、混乱。对比之下，DALL·E生成的图片看起来更经过深思熟虑。且DALL·E 2生成的图像不管是从构图设计还是色彩搭配上看，几乎都能让人们看了以后觉得很愉悦，简单来讲，普遍符合人类审美。也许你已经发现了其中的一些差距。很多从业人员开始在推特上写道“我要失业了”、“画家遇上麻烦了”等。

未来的蓝图

OpenAI希望在未来可以让这个系统接入第三方的应用程序。基于这一长期目标，参与这一项目的妮可（OpenAI的其中一位研究员）说道，“我们希望这样的工具可以普及，让人们拥有随心创作出所想的能力”。他们希望这样的工具可以成为对设计师们有用的产品，比如杂志封面设计师等。既可以用于激发灵感，头脑风暴，也可以用来创作出最终产品。OpenAI的首席科学家说道，DALL·E 2是OpenAI完成“通用人工智能”这一目标的重要一步。（“通用人工智能”是指计算机系统在广泛任务中实现或超越人类表现的能力。）

总而言之，短短五年前，AI创作艺术的概念在那时候听起来还是那么激进。但自那之后，科技开始指数级增长，这已经不是一个可爱的新颖的小概念，不但如此，它可能会让大家在未来几年感到措手不及。现在和以后，我们会问我们自己“这项技术会让艺术家们更有力量，还是会一点点在他们的领域中削弱他们？”实际上，什么是艺术？如果创意创作中没有任何人类的参与，如果机器可以完美模仿人类，这还是不是艺术？什么才是真正的创造？这些问题都足够使你的脑子运转。对待这样的工具，你怎么看呢？是感兴趣，觉得能发现新机遇，还是完全被这样的工具吓到或是觉得担忧？欢迎在评论区留言。

来源：

https://www./watch?v=U1cF9QCu1rQ

https://www./watch?v=X3_LD3R_Ygs