哔哩哔哩(B站)Index团队开源了一款名为 AniSora 的动漫视频生成模型。作为目前最强大的开源动漫视频生成工具,AniSora 能够一键生成多种风格的动漫视频片段,包括番剧剧集、国创动画、漫画改编作品、VTuber内容、动画PV以及鬼畜(MAD)等。
- GitHub:https://github.com/bilibili/Index-anisora
- Hugging Face:https://huggingface.co/IndexTeam/Index-anisora
- 魔塔:https://www.modelscope.cn/models/bilibili-index/Index-anisora
AniSora的核心亮点
在当今影视行业中,动画内容正受到越来越多的关注。然而,尽管像Sora、Kling和CogVideoX等先进模型在自然视频生成方面表现出色,但在处理动漫视频时仍显得力不从心。动漫独特的艺术风格、夸张的运动方式以及对物理规律的打破,使得生成高质量动漫视频成为一项极具挑战性的任务。

为此,B站Index团队提出了 AniSora 系统,涵盖以下三大核心模块:
- 数据处理流水线
- 构建了超过 1000万高质量数据 的完整视频处理系统,显著提升了生成前的数据预处理效率。
- 提供端到端的数据清洗管道,专注于动画内容的高效处理。
- 可控生成模型
- 引入了创新的 时空掩码模块,支持图生视频、帧插值、局部图像引导等关键动画制作功能。
- 在生成过程中,能够灵活控制局部区域和时间轴,实现首帧/尾帧/关键帧插帧、多帧引导等功能。
- 评测数据集
- 收集了 948段多样化动画视频,并配套双盲人评实验及VBench测试。
- 人物一致性与运动一致性均达到当前业界最佳水平(SOTA),为动漫视频生成提供了可靠的评估标准。
项目指南:AniSora版本详解
AniSora V1.0
- 位置:📁 anisoraV1_infer
- 基于 CogVideoX-5B 基础模型训练,完整训练与推理代码已开源。
- 主要特点:
- 支持局部区域控制、时间控制(首帧/尾帧/关键帧插帧、多帧引导)。
- 可在 RTX 4090 上经济部署,覆盖 80%的应用场景。
- 提供完整的训练代码(位于 📁 anisoraV1_train_npu)。
AniSora V2.0
- 位置:📁 anisoraV2_gpu, anisoraV2_npu
- 基于升级版 Wan2.1-14B 基础模型,稳定性更佳。
- 主要特点:
- 蒸馏加速推理,无损画质,速度更快且资源消耗更低。
- 原生支持 华为 Ascend 910B NPU,实现全流程国产芯片训练。
- 高质量镜头生成,覆盖 90%的应用场景。
AniSora V1.0_RL
- 位置:📁 anisora_rl
- 首个面向动漫视频生成的 RLHF(基于人类反馈的强化学习)框架。
- 经过RL优化后,生成的作品更具动漫风格,质量进一步提升。
生态工具与评测体系
生态工具
- 位置:📁 data_pipeline
- 提供端到端的数据集流水线,快速扩充训练数据。
- 包含动画数据清洗管道,确保数据质量与多样性。
- 位置:📁 reward
- 为动漫视频生成定制了评测模型与打分算法。
- 提供适用于强化学习和基准测试的奖励模型。
- 评测数据集包含 948段动画视频片段,每个动作标签包含10-30个视频。
- 文本提示由 Qwen-VL2 自动生成,并经过人工校对以确保文本-视频对齐。
评测体系
- 该评测体系专门针对动漫视频生成进行了优化,与ACG审美高度对齐。
- 通过双盲人评实验和VBench测试,确保生成内容在人物一致性和运动一致性方面达到行业领先水平。

为什么AniSora重要?
- 填补技术空白:当前主流视频生成模型在处理自然视频时表现优异,但面对动漫视频的独特需求却显得捉襟见肘。AniSora的推出填补了这一空白,为动漫创作者提供了专业级的解决方案。
- 降低创作门槛:AniSora的一键生成功能极大地降低了动漫创作的技术门槛,无论是个人创作者还是小型工作室,都可以轻松生成高质量的动漫内容。
- 推动二次元文化发展:作为一款完全开源的工具,AniSora不仅为创作者提供了技术支持,也促进了二次元文化的繁荣与发展。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...