AI设计师“鲁班”进化史：每秒制作8000张双11海报，没有一张雷同！

昵称46341144 2017-11-11

展开全文

在过去，每年双11，设计师们都会开启狂加班模式：做海报、改文字、换商品、调设计、换 banner，每个设计师对接几个运营人员，富士康流水线一样的重复性工作。一年双 11 下来，完成上亿张海报。

然而，这一切正在成为过去。

AI 改变了围棋，现在也在改变海报设计。这是一个名为 ' 鲁班 ' 的 AI 设计师，它将担纲今年双 11 的 banner 海报设计，数量高达 4 亿张。

但考虑到鲁班平均 1 秒钟就能完成 8000 张海报设计，一天可以制作 4000 万张，4 亿只能算一个小小小小目标。

这个海报设计 AI' 鲁班 '，诞生也与双 11 有关。

每年双 11，都是阿里设计师的大考：海量的设计需求，需要保证所有人都统一规范，遇到紧急设计需求，还要快速出稿，对每一个设计师都是脑力、体力双重考验。

△ 千人千面需求的 banner 设计

于是，2015 年双 11 后，阿里内部开始萌生想法，当年阿里正式在商品推荐上实现 ' 千人千面 '，所以希望强营销导向的广告资源位的设计也能实现 ' 千人千面 '。

因此 ' 鲁班 ' 项目正式成立，并不断发展至现今的 ' 阿里智能设计实验室 '：让鲁班学习人类设计师的成果和经验，不断进化，到今年双 11，鲁班的水平已经达到了阿里内部 P6 水准。

鲁班的学习进化，主要有三大技术原理：风格学习（规划元素）、行动器，以及评估网络。

首先是风格学习模块。

△ 鲁班风格学习

鲁班先将大量设计素材的设计数据进行结构化标注，最后经过一系列的神经网络学习，输出空间视觉的设计框架。

框架设计中，首先通过人工标注的方式，让机器理解该幅设计有哪些元素组成，比如它的商品主体，花的背景，蒙版。往上一层，还需要通过设计的经验知识，定义一些设计的手法和风格。手法指的是这些元素为什么可以这么构成。最上面这一层是风格，当这些元素构成之后，它从美学或者视觉角度看是一个什么感受，让机器知道它是用什么组成。

下一步是准备设计的原始文件，比如一系列花朵和设计方法，输入到深度学习网络中。该网络具备一定记忆功能，可以记住设计步骤中复杂的过程。

经过这层神经网络学习之后，会得到一个设计框架。从技术上理解，它是一堆空间特征和视觉特征构成的模型。从设计师的视角来看，它相当于设计师脑里在做一组设计之前那个大概的框架印象。

在设计框架的同时，元素中心也在批量输入元素（如底图，主产品图、修饰元素等），由元素分类器进行学习，按照视觉特征和类型分类。

具体来说，鲁班团队会提前收集一些版权图库，以及自己造设计元素的方式，输入到元素分类器中。这个分类器会把这些元素分布到各个类型里，比如背景、主体、修饰，也会完成图片库的提取。

其次是行动器。

△ 鲁班行动器元素分类

行动器的主要作用，是根据需求从风格学习模块中选择设计原型，并从元素中心中选取元素，规划出多个最优生成路径，完成图片设计。

这与设计师实际工作过程非常相似，如设计师要设计一朵花，也会在软件里会不断去调每个位置、每个像素、每个角度。同时，整个过程也是一个强化学习的过程，行动器会在不断试错中更聪明、更智能。

此过程完成后，将输出多个设计图，并最终交给 ' 评估网络 ' 对输出产品进行评分。

最后是评估网络。

△ 鲁班评估网络

评估网络的工作原理是输入大量的设计图片和评分数据，经过训练后，让机器学会判断设计的好坏。

鲁班的基础是来源于设计师的设计模板素材和元素素材，因此会有两个设计师角色每天去训练鲁班，一个负责帮助鲁班完成最新的风格学习（风格学习），让鲁班不断进化，不断掌握更好的设计技巧。

另一个的角色则是对鲁班设计出来的成果进行评估（评估网络），告诉鲁班什么样的设计才是最好的。

设计师的核心职责，在于把设计变成数据化。目前，鲁班已经学习了百万级的设计稿，拥有了演变出上亿级的海报设计能力。

这背后，阿里的设计师和算法工程师做了三大功课。

第一，领域研究。找到该领域专家深入研究该领域的经验知识，构建一套机器可以学习的数据模型。视觉设计专家把设计问题抽象成 ' 风格 - 手法 - 模板 - 元素 ' 这样一套数据模型，即把多年视觉设计经验变成机器可学习的 ' 数据 '。

第二，数据链路。定义好数据模型后，抓取和标注数据，并对数据集进行分类和管理。在这个过程汇总，如果处理数据给算法训练的更新频次，用什么数据去验证模型，如何评估模型效果，离线模型与在线数据在产品端如何打通？这一系列的数据问题就需要一套清晰的数据链路设计。

第三，算法框架。算法框架由算法科学家来制定，数据和算法的关系就像汽油和发动机，两者密不可分。产品设计师需要与算法讨论，把业务场景和数据问题输入给算法。

这也是阿里内部让产品设计师学习机器学习的原因，因为搞懂算法框架和技术原理，才能更好理解工作原理。

但三方面功课背后，也不是没有挑战。整个鲁班打造过程中，遭遇了三方面技术挑战。

首先是缺少标注数据。今天所有的人工智能都基于大规模结构化标注数据，设计这件事情连数据都没有完成在线化，更别说标准化、结构化的数据。

其次是设计的不确定性。设计是个很不确定的东西，设计需求把握和结果评估都存在人类主观意识。比如你无法给机器输入 ' 高端大气的海报 ' 这样的指令。

最后是无先例可循。整个行业中没有一些现成的技术或者框架可以参考，这和 AlphaGo 带来的福利不同。当时 AlphaGo 团队公布论文后，全世界围棋 AI 都照此提升了战力。但对于鲁班来说，并无先前经验可以参考，一切全凭自己摸索。不过也并非完全没有收获，在探索中的一年，阿里鲁班团队对 AI 产品有了更为清晰的定义。

他们内部认为，鲁班做的 AI 是可控的视觉生成。可控，指的是根据商业的需求、业务的需求，智能地进行控制；视觉生成，则表明鲁班解决的是视觉从无到有的问题。

在 2016 年双 11，鲁班首次登场。它最终制作了 1.7 亿张广告 banner，点击率提升 100%。