LTXVideo 13B AI 视频生成：革新性技术

LTXVideo 13B AI video generation

Source | HN Comments

Lightricks发布的LTXV-13B是一款130亿参数的AI视频生成模型，采用多尺度渲染技术，生成速度比同类模型快30倍。该模型支持文本到视频、图像到视频等多种模式，可在消费级硬件上实现实时性能。关键特性包括增强的提示语一致性和先进的运动质量控制。LTXV-13B于2025年5月发布，提供开源工具，如LTX-Video-Trainer和ComfyUI集成，方便用户进行微调和创作。

LTXVideo 13B AI 视频生成

Lightricks 推出的突破性 13B 参数 AI 模型，以空前的速度和质量彻底改变视频创作。采用先进的多尺度渲染技术，速度比同类模型快 30 倍。

您的浏览器不支持 video 标签。 volume_off 点击启用声音

LTXV 关键要点

LTXV 模型概述

check_circle 130 亿参数，实现高质量视频生成
check_circle 由 Lightricks 开发，2025 年 5 月发布
check_circle 相较于 2B 参数的前代产品，有了显著升级

LTXV 核心能力

check_circle 文本到视频生成 (Text-to-video generation)
check_circle 图像到视频转换 (Image-to-video transformation)
check_circle 在消费级硬件上实现实时性能

LTXV 技术特性

check_circle 多尺度渲染技术 (Multiscale rendering technology)
check_circle 增强的提示语一致性 (Enhanced prompt adherence)
check_circle 先进的运动质量控制 (Advanced motion quality control)

LTXV 模型背景

LTXV 开发背景

LTXV-13B 代表了从其前身 LTX Video 模型的一次重大演进，参数从 20 亿显著增加到 130 亿。该模型于 2025 年 5 月初发布，由 Lightricks 开发，旨在应对 OpenAI 和 Meta 等竞争对手的进步。

发布日期：2025 年 5 月
模型大小：28.6 GB
存储：Git LFS
许可证：LTXV Open Weights

LTXV 技术演进

该模型建立在基于 DiT 的架构之上，引入了多尺度渲染和改进的运动质量等突破性功能。这种演进使得能够以高分辨率生成实时视频，同时保持卓越的质量。

基础模型：基于 DiT
参数：130 亿
分辨率：1216×704
FPS：30（实时）

LTXV 详细特性

LTXV 核心技术

auto_awesome 多尺度渲染：先进技术，首先以较低的细节草拟视频以捕捉粗略的运动，然后细化细节以提高速度和质量。
speed 内核优化：与同类模型相比，即使在消费级 GPU 上也能实现快 30 倍的生成速度。
psychology 改进的提示语一致性：在遵循文本提示语方面具有更高的准确性，从而实现更精确的视频生成。

LTXV 支持的特性

movie 文本到视频：将文本描述转换为具有精确运动控制的高质量视频。
image 图像到视频：将静态图像转换为具有受控运动和效果的动态视频。
animation 关键帧动画：创建流畅的动画，并精确控制运动和时间。

LTXV 性能与硬件

LTXV 硬件要求

memory NVIDIA 4090/5090 GPU
storage 8GB+ VRAM（完整版）
speed 提供量化版本
computer 兼容消费级硬件

LTXV 性能指标

speed 生成速度快 30 倍
timer 实时处理
high_quality 工作室级别质量
low_latency 低延迟输出

LTXV 优化特性

auto_fix 多尺度渲染
tune 内核优化
memory_alt 量化版本
efficiency 内存效率

LTXV 社区与工具

LTXV 开发工具

code LTX-Video-Trainer：用于微调和训练自定义模型的综合工具。
integration_instructions ComfyUI 集成：与示例工作流程无缝集成，用于各种任务。
extension LoRA 支持：使用 Low-Rank Adaptations 创建自定义效果和风格。

LTXV 集成选项

hub Hugging Face Model Hub：通过 Hugging Face 访问模型和相关资源。
code GitHub Repository：GitHub 上提供的开源代码和文档。
api API Access：用于大规模部署的企业级 API 集成。

LTXV 常见问题解答

什么是 LTXV-13B？

LTXV-13B 是 Lightricks 开发的一种先进的 AI 视频生成模型，具有 130 亿个参数。它是对其前身的一次重大升级，以空前的速度和效率提供高质量的视频生成。

LTXV-13B 的主要特点是什么？

主要特点包括多尺度渲染技术、改进的提示语一致性、1216×704 分辨率（30 FPS）的实时生成，以及对各种视频生成模式的支持，包括文本到视频和图像到视频转换。

运行 LTXV-13B 需要什么硬件？

该模型可以在 NVIDIA 4090 或 5090 GPU 等消费级硬件上高效运行。完整版本需要 8GB+ VRAM，而量化版本 (ltxv-13b-fp8) 适用于 VRAM 较少的系统。

与其他模型相比，LTXV-13B 的速度有多快？

得益于其多尺度渲染技术和内核优化，LTXV-13B 生成视频的速度比同类模型快 30 倍。它在保持高质量的同时实现了实时性能。

支持哪些视频生成模式？

该模型支持文本到视频、图像到视频、基于关键帧的动画、视频扩展和视频到视频的转换。它还可以组合这些模式以进行复杂的视频生成任务。

LTXV-13B 是开源的吗？

是的，LTXV-13B 在 LTXV Open Weights License 下可用。该模型及其工具是开源的，允许社区开发和定制。

有哪些开发工具可用？

该生态系统包括用于微调的 LTX-Video-Trainer、带有示例工作流程的 ComfyUI 集成以及对创建自定义 LoRA 的支持。所有工具都可以在 GitHub 上找到。

多尺度渲染是如何工作的？

多尺度渲染首先以较低的细节草拟视频以捕捉粗略的运动，然后细化细节。这种方法提高了生成视频的速度和质量。

0.9.7 版本做了哪些改进？

0.9.7 版本包括改进的提示语一致性、增强的运动质量、更好的精细细节以及对精馏模型中随机推理的支持。

在哪里可以下载并了解更多关于 LTXV-13B 的信息？

该模型可在 Hugging Face 和 GitHub 上找到。完整的文档、示例工作流程和社区资源可通过这些平台获得。

开始使用 LTXV 进行创作

加入 LTXV 13B 引领的视频生成未来。可在 Hugging Face 和 GitHub 上找到。

下载模型在 GitHub 上查看