NarratoAI:开源影视解说自动化工具,支持文案生成、剪辑与配音一体化
NarratoAI:开源影视解说自动化工具,支持文案生成、剪辑与配音一体化

NarratoAI:开源影视解说自动化工具,支持文案生成、剪辑与配音一体化最新版

官方版无广告25

NarratoAI 是一个自动化影视解说工具,基于LLM实现文案撰写、自动化视频剪辑、配音和字幕生成的一站式流程,助力高效内容创作。

更新日期:
2025年12月20日
语言:
中文
平台:

1.7G1 人已下载 手机查看

NarratoAI 是一个面向影视解说短剧混剪等内容创作者的开源自动化工具。它基于大语言模型(LLM)和多模态技术,实现从剧情理解、文案撰写、视频剪辑、配音生成到字幕同步的完整流程,旨在降低视频内容生产的门槛,提升创作效率。

NarratoAI

项目目前仅供学习与研究使用,禁止商用。所有处理均在本地或通过用户自定义 API 完成,支持主流云服务商与开源模型。

核心功能

  • 智能剧情理解:利用多模态模型(如 Qwen2-VL、DeepSeek-V3)分析视频画面与情节,提取关键事件
  • 自动文案生成:基于剧情摘要,由 LLM 生成符合平台风格(如抖音、B站)的解说脚本
  • 自动化剪辑:根据文案时间轴,自动匹配视频片段、转场与节奏,支持短剧混剪
  • 多引擎语音合成(TTS)
    • 内置腾讯云 TTS、IndexTTS2(支持语音克隆)
    • 可扩展接入更多 TTS 引擎(如本地 Coqui、OpenVoice 等)
  • 字幕生成与同步:自动生成 SRT 字幕,并与配音精准对齐
  • 素材智能匹配:支持根据口播文案、已有视频素材自动推荐匹配片段
  • 剪映草稿导出(开发中):未来可直接生成剪映工程文件,便于二次编辑

运行要求

  • 操作系统:Windows 10/11 或 macOS 11.0 及以上
  • 硬件建议
    • CPU:4 核或以上(剪辑与转录为 CPU 密集型)
    • 内存:8 GB 或以上
    • 显卡非必需(若使用本地视觉模型如 Qwen2-VL,则推荐 NVIDIA GPU)
  • 软件依赖:Python 3.12+

项目计划发布 Windows 整合包(含依赖与运行时),降低部署门槛。

近期更新(2024–2025)

日期版本主要更新
2025-11-20v0.7.5新增 IndexTTS2 语音克隆 支持
2025-10-15v0.7.3引入 LiteLLM,统一管理 OpenAI、DeepSeek、Qwen 等模型供应商
2025-09-10v0.7.2集成 腾讯云 TTS,提升中文语音自然度
2025-08-18v0.7.1支持 语音克隆 与最新多模态大模型
2025-05-11v0.6.0正式支持 短剧解说,优化剪辑逻辑与节奏控制
2025-03-06v0.5.2支持 DeepSeek R1 / V3 模型用于短剧混剪
2024-12-16v0.3.9首次集成 阿里 Qwen2-VL 视频理解模型,支持短剧混剪

实用辅助功能(规划/已实现)

  • ✅ 一键转录(视频 → 文字)
  • ✅ 一键清理缓存(释放磁盘空间)
  • ✅ 主角人脸匹配(自动识别并聚焦主要角色画面)
  • 🔜 一键合并多段素材
  • 🔜 剪映草稿导出(.draft 格式)

使用限制与授权

  • 许可证:非商业用途(学习/研究)
  • 禁止用于:短视频批量搬运、自媒体矩阵变现、未经许可的商业内容生产
  • 商业需求:请联系作者获取授权

适用人群

  • 自媒体初学者:快速生成解说视频,学习内容结构
  • 教育工作者:将影视片段转化为教学素材
  • 开源爱好者:可基于项目扩展多语言支持、新 TTS 引擎或剪辑策略

相关软件

H1111

H1111 - 最新版

H1111 不是一个“一键生成”的玩具,而是一个面向专业用户的视频生成工作站。它将 musubi-tuner 的强大能力封装为图形界面,同时通过 RamTorch、FP8、Block Swapping 等技术,让高质量视频生成在消费级显卡上成为可能。
Doppl

Doppl - 最新版

Doppl 是一款基于 AI 技术打造的虚拟试衣工具,它通过图像识别与动画生成技术,将静态衣物图片“穿”在你的数字形象上,并支持动态展示效果,让你直观感受服装的实际穿着状态。

暂无评论

none
暂无评论...