模型简介
这是一款功能强大的视频生成开源模型,包含 PyTorch 的模型定义、预训练权重以及推理和采样代码。
系统要求
运行 HunyuanVideo 模型时,需满足以下硬件与软件条件:
分辨率 | 设置 | 去噪步骤 | 最低 GPU 内存 |
---|---|---|---|
720px × 1280px × 129f | 高分辨率模式 | 30 | 60GB |
544px × 960px × 129f | 标准分辨率模式 | 30 | 45GB |
- 硬件要求:需要支持 CUDA 的 NVIDIA GPU(推荐 80GB 内存)。
- 操作系统:测试环境为 Linux。
- 建议配置:CUDA 版本 11.8 或更高版本。
快速安装
方法一:GitHub 仓库克隆
方法二:网盘下载
打包好的安装文件可以通过网盘获取:点击下载。
安装步骤(以 Conda 环境为例):
- 创建并激活 Conda 环境:
- 安装依赖:
- 加速工具安装(推荐 Flash Attention v2):
- 如果需要,您也可以通过 Docker 部署模型,具体请参考官方文档。
预训练模型与文本编码器
- 预训练模型
预训练模型可以通过 HuggingFace 模型库 下载,文件总大小约 26GB。 - 文本编码器
- MLLM 模型:建议使用 Xtuner 提供的 llava-llama-3-8b。
- CLIP 模型:可通过以下命令获取 OpenAI 提供的 CLIP 模型。
视频生成与推理
常用分辨率设置
分辨率 | 高宽比:9:16 | 高宽比:16:9 | 高宽比:4:3 | 高宽比:3:4 | 高宽比:1:1 |
---|---|---|---|---|---|
540p | 544×960 | 960×544 | 624×832 | 832×624 | 720×720 |
720p | 720×1280 | 1280×720 | 1104×832 | 832×1104 | 960×960 |
推理示例
以下命令演示如何生成 720p 视频:
常用参数说明
参数 | 默认值 | 描述 |
---|---|---|
--prompt |
无 | 视频生成的文字提示 |
--video-size |
720×1280 | 生成视频的分辨率 |
--infer-steps |
50 | 采样步骤数 |
--use-cpu-offload |
False | 启用 CPU 内存卸载以节省显存 |
开源地址
感谢您的来访,获取更多精彩文章请收藏本站。
© 版权声明
THE END
暂无评论内容