终于！AI可以生成同一个人不同姿势的图片了！MasaCtrl无需训练微调即可实现！

风声之家 2023-05-26 发布于江苏

展开全文

原创穿行者2049 今说新语 2023-05-18 08:31 发表于北京

收录于合集#Stable Diffusion116个

扫除AI绘画的迷雾，全面解读AIGC的秘密！

前几天刚介绍了《使用ControlNet新模型，保持Midjourney人物的一致性！》，近期还有另一个生成图像一致性方面的研究技术公布，是由来自腾讯ARC和东京大学的几位开发人员发布，论文中提出的技术称为MasaCtrl，目前已有开发者开发了WebUI插件。

论文地址：https://arxiv.org/abs/2304.08465

项目地址：https://github.com/TencentARC/MasaCtrl

Demo地址：https://huggingface.co/spaces/TencentARC/MasaCtrl

插件地址：https://github.com/ashen-sensored/sd_webui_masactrl

这篇论文提出的MasaCtrl方法，通过将扩散模型中的自注意力机制转换为互相关注意力机制，可以在源图像中查询相关的局部内容和纹理特征，保证生成图像或编辑后的图像与源图像在风格、细节等方面高度一致，实现无需微调的一致图像生成和编辑。互相关注意力机制的提出，对于解决生成图像或编辑图像与源图像在主题、风格上的一致性问题，具有重要意义。

在AI生成图像、视频等方面，如何保证输出结果在视觉风格、主题表达上与输入文本或源素材高度一致，是实现高质量生成效果的关键所在。MasaCtrl通过引入互相关注意力，实现内容的有目标查询与对齐，为此领域带来重要灵感与借鉴意义。

简单说就是使用这种方法，可以不使用微调模型训练，仅仅通过改变提示语即可生成同一人物不同动作姿势的效果。

以下是一些实际效果演示。

类似的方法在视频生成领域同样发挥重要作用。如在人物视频生成中，为了实现人物在不同镜头中的视觉连贯性，需要在姿态、服装细节、光影等方面进行查询与对齐。MasaCtrl提出的互相关注意力机制可在一定程度上满足此需求，帮助实现人物在不同生成镜头下的高度一致表现。当然，由于视频在时序性、连贯性要求上更加严苛，要实现高质量的人物视频生成，还需要在MasaCtrl的基础上进行更加全面与深入的研究。

目前这个插件还在非常初始的阶段，并且要求Python 3.10，16G以上VRAM更高的显存，修要手动复制代码。目前仅有少数日本用户测试了这个插件，从结果看，不论是生成图像还是生成视频都有不错的表现，可以持续关注，等待程序优化和更强健完善的插件被开发出来。

正好我这几天使用Gen-2生成人物视频时，也在测试维持人物统一性的方法，我使用的是保持提示语和种子数的固定，只通过后面附加特定关键词，实现画面人物的改变，当然我这个仅仅是应用方面的技巧，虽然可以实现人物效果的部分统一，但还很不完美，可以看一下下面这个视频中的人物。

穿行者

总的来说，MasaCtrl提出的互相关注意力机制为保障生成图像和视频在主题与风格一致性方面带来了重要启发，为AI在视觉内容生成这一领域的深入发展与进步奠定了理论基石。但视频生成作为一个更加复杂的领域，实现高质量和连贯性视频生成还需要在MasaCtrl的基础上做更加广泛与深入的工作。我相信，未来AI在这一领域的研究将更加深入，最终实现电影级别的高质量视频自动生成，这样的虚拟演员未来是否会出现不得而知，片酬倒是可以打下去一些。

想跟上AI技术的快速发展，也欢迎订阅我的《2023 AIGC从入门到精通专栏》！

根据你的喜好，推荐阅读以下AI绘画内容：