重磅干货,第一时间送达 摘要 作者提出了一种新颖的基于transformer的风格手写文本图像生成方法HWT,它努力学习样式-内容纠缠以及全局和本地书写样式模式。提出的HWT通过一种自我注意机制来捕捉风格实例中的长期和短期关系,从而编码全局和局部风格模式。此外,提议的基于变压器的HWT包含一个编码器-解码器注意,通过收集每个查询字符的样式表示,它支持样式-内容纠缠。据作者所知,作者是第一个引入基于transformer的生成网络的手写文本生成。 作者提出的HWT生成逼真风格的手写文本图像,并显著优于通过广泛的定性、定量和基于人的评估所展示的最先进水平。建议的HWT可以处理任意长度的文本和任何想要的写作风格在少数镜头设置。此外,作者的HWT很好地概括了具有挑战性的场景,在训练期间,单词和写作风格都不可见,生成了逼真风格的手写文本图像。
框架结构 作者的手写变形器(HWT)的整体架构,以生成风格手写文本图像X~it。HWT包括具有编码器TE和解码器网络TD的条件生成器。编码器和解码器网络都构成了一种混合卷积和多头自我注意设计,它结合了CNN和基于变压器的模型的优点,即在处理有限的手写风格的示例图像时,高度表达的关系建模。因此,作者的设计无缝地实现了样式-内容的纠缠,编码文本内容和作者风格之间的关系,并学习给定输入的全局和局部样式模式(Xis和A)。 实验结果 在变压器解码器的最后一层显示编码器-解码器的注意图。为查询词(统计)中的每个字符计算注意映射,然后将其映射到示例样式图像中的空间区域(热点映射)。这里显示了对应于四个不同查询字符t、i、c和l的热图。例如,左上角的注意力映射对应于字符t,突出显示了包含字符t的多个图像区域。 图1 HWT (c)与GANwriting [14] (d)和Davis等人[5](e)在为给定的查询文本(b)模仿期望的不可见写作风格(a)方面的比较。当[14,5]捕获全局写作风格(例如,倾斜)时,他们很难模仿局部风格模式(例如,字符风格,连写)。HWT (c)既模仿了全球风格,也模仿了本地风格,从而产生了更真实风格的手写文本图像。例如,在(a)中出现的风格n(红线)被HWT模仿,对于包含相同字符n的不同单词。类似地,思想和个性中的一组字符(蓝线和品红线)的样式与(a)中具有一些共同字符的单词(贯穿和品质)相匹配。此外,HWT也保留了word中所有字符的草书模式和连通性(绿线)。
作者介绍了一种基于变压器的手写文本图像生成方法HWT,它包含一个具有编码器-解码器网络的条件生成器。作者的HWT通过自我注意机制捕获了写作风格实例中的长期和短期上下文关系,从而编码了全局和本地的写作风格模式。此外,HWT利用了一种编码器-解码器的注意,通过推断每个查询字符的样式表示,在字符级支持样式-内容纠缠。定性、定量和以人为基础的评估表明,作者的HWT可以产生具有不同长度和任何所需写作风格的写实风格的手写文本图像。 论文链接:https:///pdf/2104.03964.pdf 每日坚持论文分享不易,如果喜欢我们的内容,希望可以推荐或者转发给周围的同学。 - END - |
|