B站Index团队开源动漫视频生成模型 AniSora:一键生成多种风格的动漫视频片段

视频模型1个月前发布 小马良
204 0

哔哩哔哩(B站)Index团队开源了一款名为 AniSora 动漫视频生成模型。作为目前最强大的开源动漫视频生成工具,AniSora 能够一键生成多种风格的动漫视频片段,包括番剧剧集、国创动画、漫画改编作品、VTuber内容、动画PV以及鬼畜(MAD)等。

AniSora的核心亮点

在当今影视行业中,动画内容正受到越来越多的关注。然而,尽管像Sora、Kling和CogVideoX等先进模型在自然视频生成方面表现出色,但在处理动漫视频时仍显得力不从心。动漫独特的艺术风格、夸张的运动方式以及对物理规律的打破,使得生成高质量动漫视频成为一项极具挑战性的任务。

B站Index团队开源动漫视频生成模型 AniSora:一键生成多种风格的动漫视频片段

为此,B站Index团队提出了 AniSora 系统,涵盖以下三大核心模块:

  1. 数据处理流水线
    • 构建了超过 1000万高质量数据 的完整视频处理系统,显著提升了生成前的数据预处理效率。
    • 提供端到端的数据清洗管道,专注于动画内容的高效处理。
  2. 可控生成模型
    • 引入了创新的 时空掩码模块,支持图生视频、帧插值、局部图像引导等关键动画制作功能。
    • 在生成过程中,能够灵活控制局部区域和时间轴,实现首帧/尾帧/关键帧插帧、多帧引导等功能。
  3. 评测数据集
    • 收集了 948段多样化动画视频,并配套双盲人评实验及VBench测试。
    • 人物一致性与运动一致性均达到当前业界最佳水平(SOTA),为动漫视频生成提供了可靠的评估标准。

项目指南:AniSora版本详解

AniSora V1.0

  • 位置:📁 anisoraV1_infer
  • 基于 CogVideoX-5B 基础模型训练,完整训练与推理代码已开源。
  • 主要特点:
    • 支持局部区域控制、时间控制(首帧/尾帧/关键帧插帧、多帧引导)。
    • 可在 RTX 4090 上经济部署,覆盖 80%的应用场景
    • 提供完整的训练代码(位于 📁 anisoraV1_train_npu)。

AniSora V2.0

  • 位置:📁 anisoraV2_gpu, anisoraV2_npu
  • 基于升级版 Wan2.1-14B 基础模型,稳定性更佳。
  • 主要特点:
    • 蒸馏加速推理,无损画质,速度更快且资源消耗更低。
    • 原生支持 华为 Ascend 910B NPU,实现全流程国产芯片训练。
    • 高质量镜头生成,覆盖 90%的应用场景

AniSora V1.0_RL

  • 位置:📁 anisora_rl
  • 首个面向动漫视频生成的 RLHF(基于人类反馈的强化学习)框架
  • 经过RL优化后,生成的作品更具动漫风格,质量进一步提升。

生态工具与评测体系

生态工具

  • 位置:📁 data_pipeline
    • 提供端到端的数据集流水线,快速扩充训练数据。
    • 包含动画数据清洗管道,确保数据质量与多样性。
  • 位置:📁 reward
    • 为动漫视频生成定制了评测模型与打分算法。
    • 提供适用于强化学习和基准测试的奖励模型。
    • 评测数据集包含 948段动画视频片段,每个动作标签包含10-30个视频。
    • 文本提示由 Qwen-VL2 自动生成,并经过人工校对以确保文本-视频对齐。

评测体系

  • 该评测体系专门针对动漫视频生成进行了优化,与ACG审美高度对齐。
  • 通过双盲人评实验和VBench测试,确保生成内容在人物一致性和运动一致性方面达到行业领先水平。
B站Index团队开源动漫视频生成模型 AniSora:一键生成多种风格的动漫视频片段

为什么AniSora重要?

  1. 填补技术空白:当前主流视频生成模型在处理自然视频时表现优异,但面对动漫视频的独特需求却显得捉襟见肘。AniSora的推出填补了这一空白,为动漫创作者提供了专业级的解决方案。
  2. 降低创作门槛:AniSora的一键生成功能极大地降低了动漫创作的技术门槛,无论是个人创作者还是小型工作室,都可以轻松生成高质量的动漫内容。
  3. 推动二次元文化发展:作为一款完全开源的工具,AniSora不仅为创作者提供了技术支持,也促进了二次元文化的繁荣与发展。
© 版权声明

相关文章

暂无评论

none
暂无评论...