深度学习下AI生成印象派美术及全景画的微观艺术研究

守山学堂 2023-12-03 发布于山东

展开全文

深度学习下 AI 生成印象派美术及全景画的微观艺术研究
文 / 王利陈宇综张辉
摘要：本文通过分析印象派美术作品的内存频率特征，联系蛋白质序列内部各级微观结构特征，描述结构特点、微观空间结构表达方式、氨基酸振动频谱等自然属性，分析生成式对抗网络的模型与算法特征，建立起蛋白质自然属性与绘画艺术的深度学习框架。基于蛋白质的自然性、多样性、随机性、继承性、特殊功能的组织性等自然特征，为采用深度学习中的生成式对抗网络技术，研究基于蛋白质微观结构的印象派美术作品生成、风格转移与全景画融合、全景画拼接等提供了新的思路和方法。
关键词：AI 深度学习蛋白质微观结构印象派美术全景画融合
引言
图像，作为艺术最直接的表现方式深入生活，而在基于深度学习的数据处理领域，很多问题都可以被看做是图像转换任务，图像转换的技术成果既可以用于创作当代新形式的艺术作品，也可以应用于更多的其他数据处理领域。近年来，随着深度学习研究的更加深入，图像转换模型和相应的算法得到迅速发展，特别是生成式对抗网络（Generative Adversarial Network，GAN）的出现及改进，图像转换的研究出现了新的进展，其应用也更加广泛[1]。

目前常见的应用主要包括：
模仿艺术大师的绘画风格，比如莫奈，将普通图片变成艺术作品；将图片中的春季变成冬季、白天变成黑夜，实现时间的更迭；将普通的马变成斑马、猫变成狮子实现跨物种变换；将人物头像变成漫画人物形象 [2~6] 等等。除此之外，GAN 以及图像转换技术同样被用于解决现实中的实际问题，例如，模型预测与参数辨识 [7,8]、图像语义分割 [9]、图像高分辨率重构 [10,11]、图像修复 [12,13]、图像深度估计 [14] 等。这些成果表明，生成式对抗网络以及图像转换技术能够被用于解决不同领域数据处理和图像转换等问题。
蛋白质微观结构来自于生物的遗传信息，基于生物的多样性，决定着生物的种类、外形特征、个体差异、生命体构成部分的功能等，而组成生命体的蛋白质更为丰富。人类自身的特定蛋白质的差异，决定着人类的种族、外貌、肤色等外部特征，特殊生理、心理时期产生的蛋白质也会影响到人的性格、情绪、行为方式等内在变化，而美术、音乐等艺术恰恰也是与人类的各种内外特征相关，是否在蛋白质与艺术之间有着某种联系？目前国内外对蛋白质与艺术相关性的研究并不多见，但是已经引起科学界的重视。氨基酸分子，是蛋白质的基本构成单位，由一定数量的氨基、羧基和 R 基团组成，为了解氨基酸分子结构特征，利用红外光谱仪、可见光光谱仪、气相谱仪等设备，采用密度泛函理论、哈特里福克从头算法、量子化学方法等计算方法，对氨基酸的振动频率与模式进行分析，得到氨基酸的红外光谱和拉曼光谱、太赫兹光谱等，进而用于分析物质的结构和组成成分 [15-20]。

人工智能领域中生成对抗网络（GAN），是深度
学习与艺术融合研究中发展最为快速的一个较新的研
究方向，训练过程是生成图像网络、判别真假图像网
络相互竞争，最终判定平衡的特殊的对抗过程。
由于生成式对抗网络在图像处理、图像生成等领
域的独特优势，国内外已经进行了很多应用研究，成
果也已经得到较好的应用。文献 [21] 提出了循环 GAN结构模型 --CycleGAN，分别定义源数据到目的数据的正向 GAN 网络和目的数据到源数据的反向 GAN 网络，构成一个环形的网络结构，并引入循环一致性损失函数。在缺少图像标签配对数据的情况下，该方法完成了定性的分析，结果显示了其优越性。文献 [22] 针对基于监督的模型训练过程需要大量图像与标签一一配对的训练数据，不同领域的图像进行转换，数据量更为巨大的问题，提出了 CoGAN( Coupled GenerativeAdversarial Network) 模型，使用两个耦合的 GAN 网络共享两个 GAN 网络中的权值约束，无监督地学习两个域中图像的联合分布，分别控制和处理两个不同领域的图像生成过程，实现跨域的图像生成。文献 [23] 为解决图像超分辨率重建过程中会产生伪纹理，且原始图像局部信息利用不充分的问题，基于注意力生成对抗网络的超分辨率重建方法，通过使用注意力递归网络，引入密集残差块结构，实现生成器提取图像局部特征，判别器完成图像修正，从而完成图像超分辨率重建的目标。文献 [24] 针对不同的图像转换任务需要各自特定转换方法，没有通用方法的问题，基于条件生成对抗网络Conditional Generative Adversarial Network,

CGAN）提出了一个通用的图像转换解决方案，可以
有效地实现下列从标签图合成图片、从线稿重构图像
对象以及给图片上色等任务，并且应用此框架可以不
再人工设计映射函数，或者不进行手动设计损失函数，也可以达到合理的图像转换效果。文献 [25] 在无书写风格约束的手写文字情况下，针对大类别、小样本、多风格、未知语种等复杂文字难以实现自动补全的问题，采用全局和局部一致性保持的生成式对抗网络 (GLC-GAN)，建立二级补全系统，并对文字不同缺失部分实例时所遇到的问题进行了讨论，在无约束手写汉字补全上具有较好的效果。

本文结合生物学与人工智能、绘画的理论研究成果，通过建构生物蛋白质、美术艺术、深度学习等多领域交叉学科的基础理论模型，设计对应研究过程，应用深度学习这一最新的技术方案，探索生物学、绘画艺术与自然科学融合的可行路径、研究方法和相关理论。包括基础理论研究、应用研究，属于学科建设发展中的重要问题，既有原创性、开拓性、集成性和创新性价值，又有文理交叉特征的复杂性、综合性、前沿性的跨学科特点；课题研究目标明确、问题意识鲜明、学术分量厚重，既能够推出具有重要学术创新价值的标志性成果，又能够有效推动新兴学科及交叉学科的创新发展。

一、研究方法及模型建立

本文将生物的蛋白质微观结构与绘画艺术跨界融
合，以图像融合与美术作品风格转移为基本应用对像，以深度学习中的生成式对抗网络为基础模型，实现基于 AI 深度学习的蛋白质印象派美术全景画的研究目标。本研究的主要目标：采用多模态可变自动编码机为编码中心，建立蛋白质、美术作品风格分类、风格转移规则、图像融合规则的统一编码，形成整个模型的输入与输出；设计可行的条件控制 GAN 结构、生成器与判别器模型以及损失函数、目标函数等，完成模型训练过程，实现计算机生成印象派绘画作品；利用计算机生成印象派绘画作品、名家画作分析、再生成过程，建立生物蛋白质多样性与深度学习生成绘画作品的相关理论。课题的跨领域成果，除了可以用于图像和机器视觉等方向，也可以被应用于数据处理、数据分析和辅助决策等领域。
针对蛋白质结构的生物多样性的基础特征，建立蛋白质结构与图像的联接关系问题，涉及到设计深度学习模型、建立模型训练数据库、验证数据库、设计、研发相关算法和软件系统，基本研究思路和方法如下：
（1）研究的技术路线：

（2）建立模型训练数据库，选择蛋白质数据、原始绘画图像、目标比对图像、绘画作品风格指标，建立满足蛋白质结构、原始图像与目标图像分布规则的数据集。

本项目所涉及的技术方案，包括绘画艺术、生物蛋
白质、新近流行起来的深度学习三个不同的领域，需要大规模的模型训练数据和测试数据。根据蛋白质序列多样性中的 T 、A、 G、 C 等理化特性、螺旋特性、亲疏水特性等特征，依据蛋白质序列的结构、生理和化学特征，对蛋白质序列数据进行筛选、整理和分类，建立蛋白质序列可分类高维数据集 , 并根据蛋白质的序列特征，对数据进行合理标注，形成蛋白质序列与美术作品的基本关系。对于绘画作品，需要进行风格分类、融合规则分类，同时图像数据一般是三通道数据，与蛋白质链的数据结构相距甚远，需要建立可以同时满足于蛋白质、绘画作品之间的联合分布数据集。
项目的最终成果，将实现蛋白质与绘画艺术创作、图像融合的跨领域合并，除了需要基本的蛋白质基本数据、图像数据、绘画作品风格等要求，也要设计原始数据（包括图像、画风、蛋白质、蛋白质结构规则）等的编码方式，使不相关联的跨界数据建立统一的数据编码方式、数据格式。

（3）设计蛋白质微观氨基酸结构振动谱与绘画图像频谱映射关系

Buehler 通过采用 DFT B3LYP 数据库和
MDCHARMM 数据库的氨基酸数据，并使用密度泛函
理论等计算化学方法，研究、分析和确定 20 种氨基酸的振动频率范围，并将频率与人能听到的声音范围进行对应，图 2 是 20 种氨基酸的频率特征 [26]。

图像，除了日常所见到的时域信息以外，还有着丰富的频谱信息，可以为图像的研究、分析和处理提供更多的可行方法，已经被广泛的应用于图像配准、图像优化、基于频谱的医学图像分析、遥感图像地物识别等各个方面 [27-29]。通过对图像实现傅立叶变换的解析，可以得到图像在频域中所包含的高频信号和低频信号，分别反映出纹理、灰度变化的快慢。高频部分是图像中灰度、纹理变化强烈的情况，低频部分是图像灰度、纹理变化缓慢的部分，时域图像的直观感觉就是图像给出柔和、舒缓还是剧烈、强对比的不同。

图 3 是梵高的《葡萄园》，以及通过变换得到的二维、三维频谱图。

图 3（a）是原画，图像内容比较复杂，颜色和纹理边界变化明显，图 3（b）是图像频谱图，由于原图中纹理变化明显，因此图中亮点比较多。图 3（c）是三维频谱图，可以看出立体的图像频谱变化，图 3（d）是从三维频谱中取出的 x 方向局部二维图像频谱，与一般的信号频谱相近。
采用离散傅里叶变换等方法，得到特定风格画作、
图像的频谱图，采用密度泛函理论和化学计算等方法，得到蛋白质中氨基酸的频谱图，综合二者频谱特征，研究两种频谱的映射关系，设计合适的滤波器，并且采用相位变换等方法完成图像的平移、旋转等操作，就可以改变图像的频谱，从而改变时域中的图像内容，完成图像的融合与转移。
（4）根据绘画理论和深度学习相关理论，选择生成式对抗网络 (Generative Adversarial Networks, GAN)，建立适合于印像派绘画作品分析、生成、修改的生成式对抗网络模型，设计判别器和生成器的网络结构，完成绘画作品的风格迁移、印象派绘画作品的生成。
基本 GAN 结构图：

图 4 基本 GAN 结构图

图 4 是标准 GAN 方法的结构图，基于零和博弈问题，即 0，1 二分类问题，目的在于以真实的理想绘画作品为参考目标，训练生成器和判别器，使生成器能够生成接近真实作品的画作，使判别器能够更好的区分真实作品与计算机生成作品，最终生成器可以输出非常接近真实画作的作品，判别器也达到最高的判别能力。框架结构中包括两个核心部分：生成器和判别器。向生成器输入绘画规则、照片等，或者输入随机的数据，努力生成接近真实作品的计算机绘画作品。判别器努力区分输入的是真实画作还是计算机合成作品。生成器与判别器通过深度学习技术，互相影响，共同训练，共同调整整个框架的模型参数，增强生成器的生成能力，增强判别器的判断能力。
图 5 是向 GAN 输入一幅照片，最终可以根据规则
和需要，得到不同画家风格的绘画作品 [21]。通过 GAN框架，学习不同画家，如莫耐、凡高、塞尚等人的绘画风格，就可以建立起深度学习的模型，适度加入人工干预，输入一张拍摄的照片，就可以得到几可乱真的作品。

本研究模型将对印象派绘画作品生成和全景画生

成，设计不同的 GAN 网络结构，并且与图 4 中的框架相区别，增加控制条件参数集 C，负责控制编码器的编码规则，同时也对模型训练过程进行引导，避免无序、随机搜索，提高训练效率，指定输出风格。加入编码器和解码器，完成多样数据的统一处理，编码器和解码器实现异构输入数据的自动编、解码，统一数据格式。生成器将采用深度循环神经网络和深度卷积神经网络，建立新数据生成模型。判别器将采用深度卷积神经网络，提取数据特征，完成数据对判别。
基于 AI 深度学习的蛋白质微观结构的印象派美术（基于 GAN 的图像转换）的网络结构：

图 6 生成印象派美术作品网络结构
基于 AI 深度学习的蛋白质微观结构的全景画（基于 GAN 的图像合成）的网络结构：

图 7 图像融合生成全景图作品网络结构

二、主要结论与创新
随着科学技术和人文环境的进步与发展，确信我们所处的世界的内在和谐，确信各学科之间彼此关联，确信艺术学与数学交叉融合可以成为大科学体系的一部分。蛋白质是组成生命体的基本单位，其复杂、丰富的结构特征、理化特征等决定着生物多样性，与人们创作多样的艺术作品遥相辉映，相辅相成。利用现代深度学习的方法，在高维艺术研究的基础上 [30-36]，
找到生命体与艺术的联系，必然可为艺术作品的甄别、修缮、完美化等带来更多的便利，可加深对于艺术现象的认识水平，填平生命与艺术之间的鸿沟，从而提高艺术作品的总体设计水平。
本文的重点和难点：
（1）建立模型训练数据集：从大规模的蛋白质数
据库中，去除冗余、不合适的数据，按比例保持蛋白质结构多样性，合并或者剔除相近数据，并选择蛋白质一级结构为待处理蛋白质基础数据；以多种美术作品的作者、流派、国家、画种等为区分标准，选择多种绘画风格，建立作品风格识别数据库；以美术作品的审美、鉴赏标准为基础，建立作品融合规则数据库；
（2）如何得到氨基酸频谱和特定图像频谱，基于
二者之间的映射模型，设计滤波器；
（3）为消除蛋白质数据、美术作品、风格等异构
数据对模型训练、计算的影响，统一不同类型数据的
格式，以可变自编码机思想为基础，设计可行自动编
码器和解码器；
（4）GAN 模型结构和损失函数、目标函数；
（5）异构数据种类多，并跨跃多个学科，选择和
建立合适的数据集困难；
（6）基于可变自动编码器，同样也要求建立相应
的模型和计算方法，需要设计可行的编码器和解码器，并且需要进行模型训练和大规模的计算；
（7）建立 GAN 模型，要避免和减少基础 GAN 的
模型坍塌、梯度消失、计算复杂等问题。
创新点：
（1）采用深度学习中目前比较新的热门技术生成
式对抗网络（GAN）为基础，开发实现蛋白质与美术
作品间跨界融合的模型和算法；
（2）依据多样的氨基酸频谱，使用多种分析方法，
得到氨基酸频谱和特定图像频谱，研究二者氨基酸振
动频谱与图像频谱之间的映射关系，建立映射模型，
设计可行的图像变换滤波器；
（3）面向广义应用问题，设计多模态可变自动编码机作为整个模型的输入与输出，实现处理异构数据
的多样性的深度模型；
（4）生命科学到艺术、人工智能的跨界融合，形
成新的交叉学科，可促进对生命奥秘的探索，也可以
加深对艺术的理解和谁知；
（5）发展出一条实现艺术与科学真正意义上完美
融合的可行路径。

注释：
1. 林懿伦 , 戴星原 , 李力 , 王晓 , 王飞跃 . 人工智能研究的新前线：
生成式对抗网络 . 自动化学报 , 2018, 44(5): 775-792.
2.Goodfellow I, Pouget-Abadie J, Mirza M, et al. Generative
adversarial nets[C].Advances in Neural Information Processing Systems.
2014: 2672-2680.
3.Gatys L A, Ecker A S, Bethge M. A Neural Algorithm of Artistic
Style[J]. Computer Science, 2015.
4.Mirza M, Osindero S. Conditional Generative Adversarial Nets[J].
Computer Science, 2014:2672-2680.
5.Liu M Y, Breuel T, Kautz J. Unsupervised image-to-image translation
networks[C]//Advances in Neural Information Processing Systems. 2017:
700-708.
6.Taigman Y, Polyak A, Wolf L. Unsupervised cross-domain image
generation[J]. International Conference on Learning Representations. 2017.
7. 孙秋野 , 胡旌伟 , 杨凌霄 , 张化光 . 基于 GAN 技术的自能源混合
建模与参数辨识方法 . 自动化学报 , 2018, 44(5): 901-914.
8. 郑念祖 , 丁进良 . 基于 Regression GAN 的原油总氢物性预测方法 .
自动化学报 , 2018, 44(5): 915-921.
9.Luc P, Couprie C, Chintala S, et al. Semantic Segmentation using
Adversarial Networks[C]//NIPS Workshop onAdversarial Training. 2016.
10. 吴成东 , 卢紫微 , 于晓升 . 基于加权随机森林的图像超分辨率算
法研究 [J]. 控制与决策 .2019, 34(10):2243-2248.
11.Ledig C, Theis L, Huszár F, et al. Photo-realistic single image
super-resolution using a generative adversarial network[C]. Proceedings of
the IEEE Conference on Computer Vision and Pattern Recognition. 2017:
4681-4690.
12.Li Y, Liu S, Yang J, et al. Generative face completion[C].
Proceedings of the IEEE Conference on Computer Vision and Pattern
Recognition. 2017: 3911-3919.
13.Nazeri K, Ng E, Joseph T, et al. EdgeConnect: Generative
Image Inpainting with Adversarial Edge Learning[J]. arXiv preprint
arXiv:1901.00212, 2019.
14.Zhang L, Li J, Huang T, et al. GAN2C: Information Completion
GAN with DualConsistency Constraints[C]. International Joint Conference
on Neural Networks. 2018:1-8.
15. 燕芳 , 李伟 , 王志春 . 氨基酸官能团的太赫兹振动模式研究 [J]. 光
谱学与光谱分析 ,2020,40(02):397-402.
16. 张天尧 , 张朝晖 , 赵小燕 , 张寒 , 燕芳 , 钱萍 . 基于量子
化学计算的谷氨酰胺太赫兹吸收谱模拟 [J]. 光谱学与光谱分
析 ,2015,35(08):2073-2077.
17. 张寒 , 张朝晖 , 赵小燕 , 张天尧 , 燕芳 , 鲁亿方 . 太赫兹介电谱与
组分含量的关系分析及应用 [J]. 红外技术 ,2014,36(11):873-879.
18. 郭云 . 芳香族氨基酸的结构和振动性质研究 [D]. 扬州大学 ,2008.

19. 王光琴 , 李宁 , 沈京玲 .Gaussian 在 THz 光谱模拟中的应用 [J]. 首都
师范大学学报 ( 自然科学版 ),2007(03):27-32.
20. 岳伟伟 , 王卫宁 , 赵国忠 , 张存林 , 闫海涛 . 芳香族氨基酸的太赫
兹光谱研究 [J]. 物理学报 ,2005(07):3094-3099.
21.Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image
translation using cycle-consistent adversarial networks[C]. Proceedings
of the IEEE International Conference on Computer Vision. 2017: 2223-
2232.
22.Liu M Y, Tuzel O. Coupled generative adversarial networks[C]//
Advances in Neural Information Processing Systems. 2016: 469-477.
23. 丁明航 , 邓然然 , 邵恒 . 基于注意力生成对抗网络的图像超分辨率
重建方法 [J] . 计算机系统应用 ,2020,29(2):205-211.
24.Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with
conditional adversarial networks[C]. Proceedings of the IEEE Conference
on Computer Vision and PatternRecognition. 2017: 1125-1134.
25. 李家勤，杨维信 . 基于生成式对抗神经网络的手写文字图像补全 [J].
图学学报，2019，40(5)：878-884.
26.Chi-Hua Yu, Zhao Qin, Francisco JMartin-Martinez, and Markus J
Buehler. A Self-Consistent Sonification Method to Translate Amino Acid
Sequences into Musical Compositions and Application in Protein Design
Using Artificial Intelligence. ACS Nano, 2019, 13 (7), 7471-7482.
27. 赵晋炜 , 于洵 , 龚昌妹 , 姜旭 . 基于图像质量与频谱特性加权的光
瞳结构优化 [J]. 自动化与仪表 ,2020,35(02):41-46.
28. 陈泽锋 , 吴庆阳 , 陈顺治 , 李奇锋 , 卢晓婷 , 黄浩涛 . 基
于频谱和空域特征匹配的图像配准算法 [J]. 激光与光电子学进
展 ,2020,57(02):90-96.
29. 吴桂平 , 肖鹏峰 , 冯学智 , 王珂 . 遥感影像地物特征识别的频谱能
量分析方法探讨 [J]. 武汉大学学报 ( 信息科学版 ),2013,38(12):1465-
1469.
30. 张辉 . 文化自信引领新时代文化创新——谈 3D 乐谱理论建构及应
用研究，人民日报，2020.4.
31. 张辉 . 高维艺术的理论与应用，人民日报，2018.3.
32. 张辉，程丛电，罗兆麟 . 色彩子空间中绘景解析 [J]. 沈阳师范大学
学报 . 2017,(2)：204-207
33. 罗兆麟，铁梅，张辉 .3Dmax &CorelDRAW 在乐器设计中的应用研
究 [J]. 乐器 . 2016，(2)：28-30.
34. 石卉，王利，张辉 . 乐器音色补偿器运用的理论研究 [J]. 乐器 .
2016，(9)：32-33.
35. 孙洋，杜庆东，张荔，张辉 . 高维艺术与理论实践，中国社会科学
出版社，2019.10；
36. 张辉等 . 高维艺术学概论，科学出版社，2019.12.
本文为国家社会科学基金艺术学重大项目研究成果，项目名称“大数据
时代高维艺术理论与实践研究”，项目批准号：18ZD23。