AIGC 时代视频扩散模型的前世今生

天承办公室 2024-02-28 发布于北京

展开全文

【社区开放麦】开播啦！！！技术下饭番追起来，每周一个新芝士。欢迎广大社区同学加入直播间参与讨论的同时，也非常鼓励社区同学拿起话筒登上舞台，社区知识开放麦等你来玩~

本期精彩

最新一波的人工智能生成内容（AIGC）在计算机视觉领域取得了显著的成功，无论是 Sora 还是 Stable diffusion 3 都引起了大众的火热讨论。在这其中，扩散模型扮演了关键角色，不仅在图像生成和编辑方面表现出色，还在与视频相关的研究领域表现出卓越的性能。

然而，现有的综述主要集中在图像生成的背景下讨论扩散模型，对其在视频领域的应用讨论较少。为填补这一空白，本期开放麦，我们特别邀请到复旦大学计算机科学技术学院在读博士生邢桢为大家带来视频扩散模型前世今生的深度解析，带来大家全面回顾 AIGC 时代的视频扩散模型，欢迎收看~

分享内容

图像生成扩散模型基础
文生视频扩散模型的发展
浅谈 Sora 背后技术和复现挑战

分享时间

北京时间

2024 年 2 月 28 日（周三）

20: 00 - 20: 40（分享）

20: 40 - 21: 00（Q&A）

分享嘉宾

邢桢

复旦大学视觉与学习实验室博士生。研究兴趣为计算机视觉和视频理解方向。曾有多篇工作发表在 CVPR、ECCV 等顶会，长期担任计算机视觉和机器学习顶会审稿人。近期研究工作包括高效文生视频模型（SimDA），基于指令的视频编辑模型（VIDiff），以及关于视频扩散模型的最新综述《A Survey on Video Diffusion Models》。

内容详情

人工智能生成内容（AIGC）是计算机视觉和人工智能领域的重要研究方向之一。它吸引了广泛的关注和学术研究，并在多个领域产生了深远的影响，如计算机图形学、艺术和设计、医学成像等。自 2022 年以来，基于扩散模型的视频研究论文数量显著增加，主要分为三个类别：视频生成、视频编辑和视频理解。

现有的综述文章已经涵盖了 AIGC 时代的基础模型，包括扩散模型和多模态学习。一些综述还专门关注文本到图像研究和文本到 3D 应用。然而，这些综述要么只提供了对视频扩散模型的粗略覆盖，要么更侧重于图像模型。本期分享将全面回顾扩散模型的方法、实验设置、基准数据集和其他视频应用，填补这一领域的空白。

本次分享的核心将聚焦于基于扩散模型的文生视频技术，旨在梳理从第一篇视频扩散模型（VDM）到最新发布的 Sora 模型的发展历程。讲者将深入探讨这一领域的多个重要里程碑，从早期的探索到近期的技术革新，以期为大家呈现一个清晰、全面的技术演进图景。

首先，讲者将回顾早期的文生视频扩散模型探索，如 Make-A-Video 和 VideoLDM 等。这些模型初步尝试了将图像扩散模型扩展到视频生成领域，为后续的研究奠定了基础。

随后，我们将进入中期学术界的开源模型阶段。在这一阶段，ModelScope、Show-1 和 VideoCraft 等模型相继问世，它们不仅推动了视频生成技术的进步，也为后来的研究提供了宝贵的参考和启示。

接下来，讲者将介绍一些高效训练的视频生成模型，如 AnimateDiff 和 SimDA。这些模型通过优化训练过程和提高生成效率，进一步提升了文生视频的质量和实用性。

更近地，我们还将关注基于图像提示的文生视频模型，如 SVD，PixelDance，Emu Video。这些模型通过引入图像提示信息，实现了更精细、更可控的视频生成效果，为文生视频的应用拓展了新的可能性。

Sora 生成视频效果

(提示词：A Chinese Lunar New Year celebration video with Chinese Dragon.)

在回顾梳理视频扩散模型方法的发展之路的同时，讲者将详细介绍文生视频领域重要的数据集和评价方式，包括开源数据集（WebVid-10M, HD-VILA 等）和文本视频数据集的可能获得方式，以及当前主流的定性和定量评价指标（FVD，CLIPSIM 等）和评测 Benchmark。此外，讲者将对比视频生成模型的主流骨干架构（UNet 和 Transformer 架构对比），文本嵌入方式，视频文本对训练集规模，以及推理时间等可能的后续研究方向。

最后，讲者将针对最新的 Sora 模型，分析其视频编解码器，网络骨干架构，以及可能的训练数据收集方式。对比Sora 与当前其他视频生成模型的区别和潜在的训练代价以及复现的难度和可能面临的挑战。