【原】对话IDEA研究院张家兴：预训练模型将成AI未来「底层设施」，支持 AIGC的所有商业化机遇

明亮公司 2022-12-05 发布于上海

展开全文

作者：苏打

出品：明亮公司

时至今日，人类与AI似乎仍处于“磨合期”。但AIGC（AI-Generated Content）发生的一些新进展，正让这件事变得有趣起来。

10月17日，当前AI绘画领域独角兽公司、英国开源人工智能公司Stability AI宣布获得1.01亿美元融资，估值达10亿美元。其“爆款”产品Stable Diffusion是一款功能强大、免费且开源的文本到图像生成器。

在国内，被视为“中文版Stable Diffusion”的太乙 Stable Diffusion“火速跟进”，于今年11月1日成功推出纯中文版本和中英文双语版本。

据其研发方IDEA研究院认知计算与自然语言研究中心（IDEA CCNL）负责人、讲席科学家张家兴介绍，该模型由封神榜团队研发，11月9日其于机器之心发起的技术解读直播现场，场观人数破万，20日内下载量突破10万，且在迅速增加中。

“AIGC的应用场景已经开始变得广泛，未来也呈现出非常强劲的渗透前景。”近日，张家兴与「明亮公司」进行了一场关于AIGC及预训练模型的深度对话，以期展现当前该领域的新进展以及商业化前景。

不久前，AIGC初创公司Jasper曾宣布以15亿美元估值获得1.25亿美元A轮融资。而早在2019年便获得微软10亿美元投资的曾人工智能公司Open AI，当前估值已蹿升至200亿美元。

可以确定的是，伴随AI绘画工具的进步，插画、海报、数字人制作、游戏及视频原画设计等领域正开始有节奏地使用AIGC相关的预训练模型，以减轻创作过程中因大量而枯燥的基础工作导致的低效等问题。未来，更多与生活相关的产品设计，比如服装、鞋帽等，都将可能出现AIGC及其背后预训练模型的身影。

“我们认为，未来AI将成为完全由模型驱动的产业，有什么样的模型就会有什么样的产品。而预训练模型作为'底层设施’，将以底层架构的角色被铺设在未来AIGC的应用之前，分享随之产生的所有商业化机遇。”

他认为，以一支团队为单位形成一个算法集群，生产出一个或多个模型，将成为未来的主要发展路径。“一方面，新的模型可直接催生一些相应的产业。另一方面，对于已经存在的成熟产业，亦可通过这些模型催生出相应的产品，而产品反过来又需要大量模型进行迭代”。

进入IDEA前，张家兴曾任微软亚洲研究院研究员、蚂蚁集团资深算法专家、360数科首席科学家，从零到一创建了阿里巴巴和蚂蚁集团的深度学习团队，落地了智能客服等多个自然语言技术方向，并于任职360数科期间组建了AI数据融合中台部门。

「明亮公司」了解到，封神榜已经开源88个预训练模型，成为中文最大的预训练模型体系。张家兴带领的封神榜团队正受邀与阿里和华为进行接洽生态入驻，目前已在迁移当中。

在张家兴及其团队的眼中，AI绘画是一件“可激发人类创造力”的事情，它可以成为工具，亦具备情绪价值，而非人类智慧的替代或者颠覆。

以下为明亮公司与张家兴对话内容（有删节）

Q：明亮公司

A：张家兴 IDEA 研究院认知计算与自然语言研究中心（IDEA CCNL）负责人、讲席科学家

（IDEA 研究院CCNL讲席科学家张家兴）来源：IDEA

Q：11月初我们刚刚完成了太乙Stable Diffusion中文版和双语版的开源，这对于IDEA研究院和开发者而言意味着什么？

A：从模型本身而言，功能并不复杂。使用者输入一个文本，模型在文本的指导下从一张完全白噪声的图片开始，一点一点精细化，最后生成一张清晰的图片。Diffusion可以理解为加噪的过程，而生成图片则是一个去噪的过程。

人类在作画时，也是一个逐渐从模糊到清晰的过程，而Diffusion Model便是模仿人类大脑的动线——先有一个想法，然后加一点新的启发，生成一张大概的图像，再增加更多启发，最后令作品愈加精细和复杂。

人类艺术家的能力有两个优势，一是在每一个启发之间具备强关联能力，即可以通过上一个想法启迪下一个想法；二是对细节充满各种想象。

这两种能力如果对应到Diffusion模型中，首先要实现的就是，从最初的文本到最终的图片，中间所有环节都具备强关联性，即模型可以像人类一样去思考下一步；其次，能够实现最后呈现出的作品足够清晰并具备丰富的细节。目前我们的模型通过从海量数据中不断的学习，已经可以达到这个效果。

在中文世界里用中文描述去生成图片，是一个质变。生产的结果图片会更有中国元素、更符合中国文化，对中文的语义理解更准确，而不是此前以英文为模型将中文翻译过去进行生产，比如输入“女孩”一词，可能生成的图片是国外的一个女孩子。

Q：此前是否也经历过多次迭代？

A：2022 年 7 月，IDEA CCNL开源了第一个中文 CLIP 模型，目前已经有 4 个版本。以其中一个 Taiyi-CLIP-Roberta-large-326M-Chinese 版本为例，IDEA CCNL用中文语言模型替换了开源的英文 CLIP 中语言编码器，在训练过程中冻结了视觉编码器并且只微调这个中文语言模型，在 1 亿级别的中文数据上训练了 24 个 epoch，一共过了约 30 亿中文图文数据，得到了这个包含图片信息的中文表征语言模型，为后续训练中文 Diffusion 相关的模型奠定了重要的基础。

之后，我们又开源了第一个中文Disco Diffusion 模型Taiyi-Diffusion-532M-Nature-Chinese，该模型由Katherine Crowson's 的无条件扩散模型在自然风景图上微调而来。结合Taiyi-CLIP-Roberta-large-326M-Chinese 可以实现中文生成各种风格的风景图片。

在这些工作的基础上，10月份我们全力投入到Stable Diffusion模型，很快就把太乙 Stable Diffusion做了出来，为时不足一个月。

如果追溯到更早，从去年11月份宣布封神榜大模型开源计划，我们一直在持续生产模型，并已经成功推出自然语言领域很多预训练模型，基本覆盖该领域全部主流模型结构。截至目前，仅一年多时间已经开源了88个模型。而且很多都是目标领域内先进的，多次获得FewCLUE和ZeroCLUE权威榜单的冠军。

Q：我看过“铁马冰河入梦来”太乙版本和Stable版本的AI翻译，差距悬殊，请问我们是如何实现将中文的“意会”进行具像化的？

A：就这句诗词而言，作为文本输入模型时，是作为一整句话被识别的，而非只对应一个字或者一个词，所以我们太乙版本的翻译结果与其他非中文语言版本的结果会呈现出显著不同，更能实现“意会”的目的。

在中国的文化中，词的组合会表现出不同的意境。比如床前明月光这句诗，拆解开来，模型会识别中文语境中如床前和明月、明月和光等组合在一起所表达的意义。而模型在训练的过程中，也是从这些组合所处的上下文中，学到的这些组合所表示的意义。只有在海量的中文预料中训练，这些中文意境才会被模型正确的理解。而这正是太乙模型的优势。

Q：模型识别大致可以产生多少种结果？

A：对于相同的一个输入，模型几乎可以产生无限多种图片的呈现。

所以，其中的评判标准不应是多少张图片，而是使用者对图片的满意度有多高。由于产生的图片每次都是随机的，所以对使用者而言每次看到相同的文本指引出不同的图片，本身也是一件很有乐趣的事情。

Q：模型是否会主动进行审美筛选，尽量给出好看的图片？

A：我们背后是有审美模型的，通过寻找一些高质量的图片，会训练数据挑选好看的图，而生成图片也可以按审美设备模型去排序。未来或许可以获得更多海量用户反馈，作为训练数据，能够让我们的审美模型的效果越来越好。所以归根结底，什么是美的，还是取决于人的标准。

Q：封神榜团队目前在该领域处于何种水平？

A：封神榜是目前国内唯一的以开源模型为目的的团队。我们希望把这件事做到极致。我们也在积极的与各个开源模型社区，比如阿里巴巴的ModelScope、华为昇腾生态等进行合作，把我们的中文预训练模型加入到他们的生态中。通过加入更加广泛的开源生态，我们希望封神榜模型能够让更多人使用，这也是做所有开源人的理想。

根据在Huggingface网站上的统计，目前全球的预训练模型总计约8万个，而其中的中文预训练模型不到1000个，只占到1%。这与中国人工智能的规模和总体经济体量很不相称，我们也希望更多的中国人工智能团队能够加入到开源模型的队伍中。

Q：AI绘画除了文生图还有哪些功能是需要去实现的？

A：比如图片编辑类的模型，这是我们正在做的一件事。

具体而言，假如我想生成一张“鸟蹲在树枝上”的图片。输入这些文字后，发现鸟的翅膀是收起来的，我只需要输入“鸟张开翅膀”，那么在背景都不变的情况下，鸟就张开了翅膀。这是一种图片局部编辑的技术，背后有很大的算法探索的空间。

之前绘画需要从场景到细节一一把握，现在你想要一张精美的图片只需要首先画出场景即可，然后再应用局部编辑技术增添各种细节。比如你想用AI形成一个热带雨林这种场景，但你从来都没见过热带雨林，通过这一模型便可以先创造一张雨林的图片。然后进行自由编辑，添加各种元素。

Q：能否举例说明这种技术未来的应用场景会在哪里？

A：比如插画师，因为本身就需要配合文字进行图像的创作。还有海报设计，需要生成非常多的创意进行选择。另外游戏和影视的原画设计也非常需要这一技术手段，来拓展想象空间。甚至修图类软件中，图像的编辑技术也有广泛的应用。

还有一种个性化的训练模型，你可以训练一个只属于你的模型。比如，用几张你的各种角度的照片去训练模型，然后把这些照片一个名字“小张”，然后输入“小张站在沙滩上”，模型会生成一张你站在沙滩上的照片，而且可能生成你的任何角度和任何形象，并且完美的融入环境。这样的个性化训练，代价也不大，可以在10分钟左右完成。

我们正在把这种个性化训练的能力做成一个引擎。使用者无需懂算法，即可在个人电脑上训练自己的个性化模型，生成个性化的照片。这个引擎也会开源，也欢迎各个公司在这个引擎基础上进行各种产品创新。

Q：这一部分我们有想法亲自参与吗？

A：作为有益尝试，当然我们也会做C端产品，积极进行产品创新和尝试。但生产AIGC基础预训练模型仍是我们的主要工作。

我们会坚持作为基础设施的角色，其商业逻辑是“等风来”——我们提供基础模型，只要生态中下游有一个行业成为机遇，那么我们也是机遇，因为大家都在使用我的底层设施。从这个角度来说，我们首先想成为英特尔、AMD这样的公司，铺设在所有的机遇面前，成为下游生态的必要前提。

Q：目前我们的模型是否主要针对中国市场？未来计划拓展其他市场吗？

A：我们首先以中文AIGC市场作为出发点，但同样也面向全球市场。因为AIGC是天然的有文化和语言区分的，每个国家和文化，都该有自己的AIGC模型。如果看当下的开源Stable Diffusion模型，也仅有英语、中文、日语和韩语四种语言版本。因此这里还存在一个很大的市场开拓空间。

Q：是否有统计过我们的模型有多少人在使用？

A：11月1日发布之后，20天模型下载量超过10万，在所有开源Stable Diffusion模型中，下载量排名全球第三，仅次于原版的Stable Diffusion，也说明了中国对AIGC模型的旺盛需求。而且下载量每天都在增长，速度非常快。大家对太乙Stable Diffusion模型的关注度非常高，11月9日在机器之心直播仅仅30分钟内，在线观看人数已破万。

Q：目前看来Stability AI是用一个Stable Diffusion的大单品/爆款横扫市场的逻辑，我们对此如何看待？

A：商业的成功可能要借助于爆款，但不能固步自封在一个爆款，因为这种模式不长久。可以依赖一个爆款的前提是，可以针对这款产品进行不断升级，并具备可持续性，但任何一个技术最终都会饱和。

比如某个算法，其他人准确率只有50%而你可以做到90%时，的确有巨大优势。但别人也能做到90%，你能做到95%，在应用方面差别就很不明显了。且后面5%的提升，需要投入的成本会非常昂贵。

我们真正应该做的，不是坚守一个爆款，而是具备持续不断打造新AIGC的能力，尤其是全球范围内还没有出现的新能力，这是我们追求的目标。

Q：可否透露一下这些新能力以及未来的应用场景？

A：比如3D和视频生成，以及我们已经具备领先优势的文本生成技术。目前可以透露的是，我们目前投入了很多精力在做因果推理的文本生成，可以直接生成多步的因果推理链路。一方面，我们非常想将其在传统领域推广，比如应用于金融领域，进行事件推理；另一方面，我们更希望它作为（针对元宇宙的）数字人/虚拟人的底层驱动，因为我认为，人的思考实际上是一个永不终止的因果推理链路。

Q：AI绘画未来会沿着一个什么样的轨迹发展？

A：我认为其中有两大市场前景，一是成为专业人员的生产力工具，同时让更多人能够通过技术实现专业化效果；一是对非专业人员的日常生活产生巨大影响，能够为个人生成大量个性化、多模态的沉浸式体验。

比如预训练模型与视频3D结合后。设想一下，你带上VR眼镜，说“我想体验一下亚马逊丛林”，系统可以为你生成逼真的沉浸式场景。这种实现目前尚有难度，因为3D场景的生产成本比较高。我们把AIGC扩展到3D生成，可以大大提升行业效率。

Q：“用AI生产AI”会是未来AI发展的终局吗？

A：技术就是“套娃”，大家都是在用旧的技术生产新的技术，用之前的模型生产第二个模型，然后用第二个模型再去生产第三个模型。所以技术没有终局，他是一个不断演进的过程。

其实AI生产AI这个事情也是非常值得讨论的，现在AI模型的都是算法工程师在生产，用模型生产模型还是比较值得期待的。我们也刚刚开源了GTS乾坤鼎引擎，这是一种模型自动生产引擎，在中文权威的FewCLUE榜单上，这个引擎自动生产的模型已经击败了国内各个顶尖的算法专家所训练的模型，取得了冠军的成绩。

Q：AI绘画再演进之后，如何与人类和平相处？

A：首先，AI要变成专业人员或者说人类的生产力工具。其次，就艺术而言，它其实是一个被技术影响最大的一个领域。回顾美术发展史，文艺复兴时首先出现了湿壁画，诞生了文艺复兴三杰。接下来很快就出现了油画技术，整个欧洲开始步入一个新时期。后来，由于颜料可以随身携带，从而艺术们可以从工作室走出步入乡间田野，印象派出现。

我认为，对艺术最大的一次冲击应该是相机的诞生。但实际上，照片尽管极大冲击了肖像画这一类别，但同时也直接催生了另一个新的艺术门类——摄影艺术。这世界背后有无数的逻辑在推动某些事情发生，他就一定要发生，无法阻挡，也不必固守。

技术的发展就是一个人类不断被'异化’的过程，从互联网普及后，很多东西已经被'异化’了。但同时，我们也会具备一些新能力，世界也因此变得更加丰富。人类具有很强的调试能力，并在其中发现新优势。