分享

VGM:LTX-Video的简介、安装和使用方法、案例应用之详细攻略

 处女座的程序猿 2025-05-11 发布于上海

VGM:LTX-Video的简介、安装和使用方法、案例应用之详细攻略

目录


LTX-Video的简介

LTX-Video是第一个基于DiT的实时高质量视频生成模型。它能够以1216×704分辨率生成30 FPS的视频,速度快于观看视频本身。该模型在一个大型多样化视频数据集上进行训练,能够生成具有逼真多样化内容的高分辨率视频。它支持文本到视频、图像到视频、关键帧动画、视频扩展(向前和向后)、视频到视频转换以及这些功能的任何组合。

总而言之,LTX-Video是一个功能强大且持续改进的实时视频生成模型,它提供了多种功能、模型版本和集成方式,并得到了活跃的社区支持。 其高质量的视频生成能力使其在多个领域具有广泛的应用前景。

GitHub地址GitHub - Lightricks/LTX-Video: Official repository for LTX-Video

1、LTX-Video的特点

>> 实时生成高质量视频:以1216×704分辨率生成30 FPS的视频,速度快于观看视频。

>> 多功能性:支持文本到视频、图像到视频、关键帧动画、视频扩展(正向和反向)、视频到视频转换以及这些功能的任意组合。

>> 高分辨率和逼真度:能够生成具有逼真和多样化内容的高分辨率视频。

>> 大型数据集训练:基于大型多样化视频数据集进行训练。

>> 持续更新:项目持续更新,不断改进模型质量、速度和功能,例如添加了新的模型版本(例如13B和2B模型,以及它们的不同量化版本),支持更高的分辨率,以及改进提示理解和VAE。

>> 多种模型版本:提供不同大小的模型,例如13B和2B模型,以及它们的量化版本 (例如fp8),以平衡生成质量和资源消耗。其中2B蒸馏模型速度更快,实时生成能力更强。

>> 多种集成:支持与ComfyUI和Diffusers库集成。

>> 社区贡献:鼓励社区贡献,并提供了一些社区开发的工具,例如ComfyUI-LTXTricks,LTX-VideoQ8和TeaCache4LTX-Video,进一步扩展了LTX-Video的功能和性能。

>> 优化策略:引入了诸如TeaCache(一种无训练缓存方法,可加速推理)等技术来提升性能。

2、模型

模型版本笔记inference.py 配置ComfyUI 工作流程(推荐)
ltxv-13b0.9.7最高品质,需要更多 VRAMltxv-13b-0.9.7-dev.yamlltxv-13b-i2v-base.json
ltxv-13b-fp80.9.7ltxv-13b 的量化版本即将推出ltxv-13b-i2v-base-fp8.json
ltxv-2b0.9.6质量好,VRAM 要求比 ltxv-13b 低ltxv-2b-0.9.6-dev.yamlltxvideo-i2v.json
ltxv-2b-蒸馏0.9.6速度快 15 倍,具有实时性,所需步骤更少,无需 STG/CFGltxv-2b-0.9.6-distilled.yamlltxvideo-i2v-distilled.json

LTX-Video的安装和使用方法

1、安装

克隆仓库:git clone https://github.com/Lightricks/LTX-Video.git

进入目录:cd LTX-Video

创建虚拟环境:python -m venv env

激活虚拟环境:source env/bin/activate

安装依赖:python -m pip install -e .

使用方法 (使用 inference.py 脚本):

2、使用方法

该项目推荐使用ComfyUI工作流程,但inference.py脚本也提供了基本的使用方法:

脚本代码

文本到视频生成:
python inference.py --prompt "PROMPT" --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml
图像到视频生成:
python inference.py --prompt "PROMPT" --conditioning_media_paths IMAGE_PATH --conditioning_start_frames 0 --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml
视频扩展

输入视频片段必须包含8的倍数加1帧(例如9、17、25等),目标帧数也应该是8的倍数。

python inference.py --prompt "PROMPT" --conditioning_media_paths VIDEO_PATH --conditioning_start_frames START_FRAME --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml
多条件视频生成

可以基于多个图像或视频片段生成视频。

python inference.py --prompt "PROMPT" --conditioning_media_paths IMAGE_OR_VIDEO_PATH_1 IMAGE_OR_VIDEO_PATH_2 --conditioning_start_frames TARGET_FRAME_1 TARGET_FRAME_2 --height HEIGHT --width WIDTH --num_frames NUM_FRAMES --seed SEED --pipeline_config configs/ltxv-13b-0.9.7-dev.yaml

参数说明

PROMPT为提示词,HEIGHT和WIDTH为分辨率,NUM_FRAMES为帧数,SEED为随机种子。 pipeline_config 指定使用的模型配置文件。

ComfyUI 集成:项目提供了与ComfyUI集成的说明,建议使用ComfyUI以获得更好的结果和更高的输出保真度。 https://github.com/Lightricks/ComfyUI-LTXVideo/

Diffusers 集成:项目也支持与Diffusers库集成,官方文档中提供了更多细节。

3、在线使用

  • LTX-Studio 图像转视频
  • Fal.ai 文本转视频
  • Fal.ai 图像转视频
  • 将文本复制到视频和将图像复制到视频

LTX-Video的案例应用

这些例子展示了LTX-Video在生成不同场景、人物和动作方面的能力,也体现了其对细节和氛围的把握。下述描述展现了LTX-Video强大的视频生成能力:

描述一位女子微笑的场景,包括头发颜色、肤色、衣着、妆容和光线等细节。

描述一位女子在夜晚城市街道上走开,然后上楼梯敲门的场景,包括人物动作、环境细节、光线和拍摄角度等。

描述一位女子穿着黑色亮片礼服,带着珍珠耳环,低头悲伤的场景,包括人物表情、服装、灯光和场景氛围等。

描述摄像机拍摄雪山全景的场景,包括山峰、山谷、树木、天空和光线等细节。

描述一位女子穿着蓝色外套和黑色面纱帽子,低头说话的场景,包括人物穿着、表情、发型、背景和拍摄角度等。

描述一位男子在昏暗的房间里使用老式电话,挂断电话后低头悲伤的场景,包括人物动作、服装、表情、灯光和场景氛围等。

描述狱警打开牢房,里面坐着年轻男女的场景,包括人物穿着、表情、环境和拍摄角度等。

描述一位脸上有血迹的女子低头说话的场景,包括人物表情、服装、血迹、灯光和场景氛围等。

描述一位头发花白、留着胡须的男子低头,然后转头看向左边的场景,包括人物外貌、表情、灯光和场景氛围等。

描述清澈碧绿的河流流经岩石峡谷,瀑布和水池的场景,包括河流、峡谷、植被、光线和场景氛围等。

描述一位西装革履的男子进入房间,与两位坐在沙发上的女子说话的场景,包括人物穿着、表情、环境和拍摄角度等。

描述海浪拍打海岸线岩石,浪花飞溅的场景,包括岩石、海水、天空和光线等细节。

描述摄像机横向移动,拍摄高楼林立的城市景观,中间有一个圆形建筑物的场景,包括建筑物、光线和拍摄角度等。

描述一位男子走向窗户,向外看,然后转过身来的场景,包括人物动作、穿着、环境和拍摄角度等。

描述两位穿着深蓝色制服和帽子的警官进入昏暗房间的场景,包括人物动作、穿着、环境和拍摄角度等。

描述一位女子穿过房间说话,然后另一位女子出现在门口大喊的场景,包括人物动作、穿着、表情、环境和拍摄角度等。

    转藏 分享 献花(0

    0条评论

    发表

    请遵守用户 评论公约

    类似文章 更多