分享

deforum + kandinsky = 视频工作流

 Mixlab交叉学科 2023-10-17 发布于上海
首先,我们先对deforum和kandinsky做一些基本的介绍:

deforum-art/deforum

Deforum是一个Python包,用于扩散动画工具包。提供了生成动画的实际生成模型、辅助数据、辅助类和实用工具等功能。


生成效果是什么样的?参考以下网友分享的视频:




Kandinsky 2.2
朝着实现照片般逼真效果前进

Kandinsky 2.2是一个图像生成模型,通过引入新的图像编码器CLIP-ViT-G和ControlNet机制,提供更好的图像生成和文本引导图像。


宇航员猫潜入充满可爱鱼的海洋,优雅,高度详细,流畅,清晰焦点,美丽,全身,电影级,8K


Kandinsky 在2023年4月4日发布了2.1,3个月后发布了2.2版本,分辨率进行了提升,达到了1024,同时,支持了ControlNet功能,还有个特别的功能,生成贴纸!

通过在提示的末尾添加“sticker”一词进行生成,然后通过分割模型去除背景。因此,可以生成任何主题的贴纸。


几种典型的任务

更大的模型,参数总量4.6亿。主要是用于训练Image Prior模型的视觉编码器替换为更大的CLIP-ViT-G,从而提高了生成图像的质量。



Kandinsky2.1Kandinsky 2.2
类型
潜在扩散
潜在扩散
参数数量
3.3亿
4.6亿
文本编码器
0.6亿
0.6亿
Diffusion Mapping
1.0亿
1.0亿
U-Net
1.2亿
1.2亿
ViT
0.5亿
1.8亿
MoVQ
0.08亿
0.08亿
数据集规模
12亿对
15亿对
图像质量
良好 (768×768)
很好 (1024×1024),不同的长宽比
发布日期
2023年4月4日
2023年7月12日



deforum + kandinsky
视频工作流


主要借助deforum的几种对镜头控制的功能,加上kandinsky的生成能力,实现了此视频工作流。


图解原理


丰富的视频镜头:




最后,我们借助MixCopilot完成了对代码仓库的阅读理解,从代码层面也理解了整个技术的实现原理:



详细的中文注解,可以加入社群领取:

除了animatediff的视频工作流,我们又多了一个可选方案。
ComfyUI中文社区#文档汉化内测,全新的创作方式等你来探索!

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多