SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    视频模型

    共 153 篇文章
    用于文生视频、图生视频、视频编辑的模型
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    谷歌升级 AI 视频生成模型Veo 3.1:支持光照编辑、音频生成与视频扩展

    谷歌升级 AI 视频生成模型Veo 3.1:支持光照编辑、音频生成与视频扩展

    谷歌正式发布视频生成模型 Veo 3.1 ,并同步更新其面向创作者的 AI 工具 Flow。新版本在视觉真实感、音频支持和编辑能力上均有显著提升,目标是让 AI 生成的视频更接近专业影视水准。 目前...
    视频模型# Veo 3.1# 谷歌
    2个月前
    0510
    新加坡国立大学推出 PaperTalker:首个从论文自动生成学术演讲视频的多智能体框架

    新加坡国立大学推出 PaperTalker:首个从论文自动生成学术演讲视频的多智能体框架

    对于研究人员来说,将一篇论文转化为一场高质量的学术演示视频,往往意味着数小时的设计、录制与剪辑——即使最终视频只有5到10分钟。 幻灯片排版、语音同步、字幕对齐、讲解节奏控制……这些重复性工作消耗大量...
    视频模型# PaperTalker
    2个月前
    01210
    Code2Video:基于代码智能体的教育视频生成框架

    Code2Video:基于代码智能体的教育视频生成框架

    尽管当前文生视频模型在短片段合成上取得进展,但在生成结构严谨、知识准确、视觉连贯的教育视频方面仍面临挑战。这类内容不仅要求语义正确,还需具备清晰的空间布局、逻辑动画过渡和教学节奏控制。 为此,新加坡国...
    视频模型# Code2Video# 教育视频生成
    2个月前
    01280
    StreamDiffusionV2:支持多显卡的实时视频生成系统

    StreamDiffusionV2:支持多显卡的实时视频生成系统

    由加州大学伯克利分校、麻省理工学院、斯坦福大学、德克萨斯大学奥斯汀分校与 First Intelligence 联合研发的 StreamDiffusionV2 正式开源。这是一个面向交互式直播场景的实...
    视频模型# StreamDiffusionV2
    2个月前
    01250
    SLA:清华与伯克利联合提出可训练稀疏线性注意力,加速DiT视频生成

    SLA:清华与伯克利联合提出可训练稀疏线性注意力,加速DiT视频生成

    在高分辨率、长时序视频生成任务中,扩散变换器(Diffusion Transformer, DiT)已成为主流架构。然而,其核心组件——自注意力机制——面临着一个根本性瓶颈:计算复杂度随序列长度呈平方...
    视频模型# SLA# 可训练混合注意力机制
    2个月前
    0740
    线性注意力 + 恒定内存 KV 缓存!SANA-Video:高效生成分钟级高清视频的新一代文生视频模型

    线性注意力 + 恒定内存 KV 缓存!SANA-Video:高效生成分钟级高清视频的新一代文生视频模型

    在文本到视频(T2V)生成领域,高分辨率、长时长与低延迟三者往往难以兼得。现有大模型虽能生成高质量视频,但动辄数千秒的推理时间与高昂的训练成本严重限制了其落地应用。 为此,由英伟达、香港大学、麻省理工...
    视频模型# SANA-Video# 文生视频模型
    2个月前
    05590
    Wan-Alpha:支持透明通道的高质量文生视频模型

    Wan-Alpha:支持透明通道的高质量文生视频模型

    在视频编辑、虚拟合成、游戏特效和社交媒体创作中,带有透明背景(Alpha 通道)的视频素材具有不可替代的价值——它们可以无缝叠加到任意场景中,无需后期抠像或遮罩处理。 然而,当前主流的文生视频(Tex...
    视频模型# Wan-Alpha# 文生视频模型
    2个月前
    01470
    通义万相 Wan2.5-Preview 正式发布:原生支持音画同步的多模态视觉生成引擎

    通义万相 Wan2.5-Preview 正式发布:原生支持音画同步的多模态视觉生成引擎

    阿里通义实验室Wan项目组正式推出 Wan2.5-Preview——一个在架构层面实现革新、真正实现“音视频协同生成”的新一代视觉大模型。 它不是简单的功能叠加,而是通过原生多模态统一架构,将文本、图...
    视频模型# Wan2.5-Preview
    3个月前
    01060
    Lynx:字节跳动提出的单图驱动个性化视频生成方案,实现高保真身份保留

    Lynx:字节跳动提出的单图驱动个性化视频生成方案,实现高保真身份保留

    在内容创作、虚拟社交等场景中,“基于单张图像生成个性化视频”是重要需求——比如用一张自拍生成动态表情视频,或让历史人物照片“动起来”讲述故事。但这类任务长期面临核心挑战:如何在保证视频自然流畅的同时...
    视频模型# Lynx# 个性化视频生成# 字节跳动
    3个月前
    01430
    字节跳动提出OmniInsert:无需遮罩,任意对象都能自然插入视频

    字节跳动提出OmniInsert:无需遮罩,任意对象都能自然插入视频

    在影视后期、广告制作乃至虚拟内容创作中,“将一个新角色或物体自然地加入已有视频”是一项高频需求。传统方法依赖精确的遮罩标注、关键帧追踪和复杂的合成流程,成本高、耗时长。 近期,基于扩散模型的技术为这一...
    视频模型# OmniInsert# 字节跳动# 视频编辑
    3个月前
    01490
    DecartAI推出 Lucy Edit Dev:全球首个开源、支持自由文本提示的指令引导视频编辑模型

    DecartAI推出 Lucy Edit Dev:全球首个开源、支持自由文本提示的指令引导视频编辑模型

    DecartAI推出 Lucy Edit Dev ——全球首个开源、支持自由文本提示的指令引导视频编辑模型。它允许用户仅通过自然语言描述,即可完成复杂的视频修改任务,如更换服装、替换角色、插入物体或更...
    视频模型# Lucy Edit Dev# 视频编辑模型
    3个月前
    01970
    Wan-Animate:阿里通义实验室推出的统一人物动画与替换框架

    Wan-Animate:阿里通义实验室推出的统一人物动画与替换框架

    阿里巴巴通义实验室 HumanAIGC 团队近日将推出 Wan-Animate —— 一个基于 Wan 系列模型构建的统一人物动画与角色替换框架。 项目主页:https://humanaigc.git...
    视频模型# Wan-Animate# 阿里通义实验室
    3个月前
    01270
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    EdgeOne Pages

    EdgeOne Pages

    EdgeOne Pages 是基于 Tencent EdgeOne 基础设施打造的全栈开发部署平台,提供从前端页面到动态 API 的无服务器部署体验,适用于构建营销网站、AI 应用等现代 Web 项目。通过边缘网络全球加速,确保应用获得快速、稳定的访问体验。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    Ebook2Audiobook

    Ebook2Audiobook

    Ebook2Audiobook是一款将非DRM保护的电子书转换为高质量有声书的工具,并保留章节和元数据。通过结合Calibre、Coqui XTTSv2和Fairseq等开源项目,确保每本有声书听起来自然流畅。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    Flowith

    Flowith

    Flowith 是一个基于 AI 的工具,适合深度工作和内容创作。它提供一个直观的画布界面,让用户可以轻松生成长文本、组织知识和协作。它的 AI 代理 Oracle 可以自动规划复杂任务,无需手动提示工程,并支持多种顶级 AI 模型如 GPT-4o 和 Claude 3.5 sonnet。
    ClickHelp AI

    ClickHelp AI

    ClickHelp 正式推出 ClickHelp AI 套件,标志着ClickHelp迈向智能化文档管理的新阶段。这一套件将多个 AI 功能整合为统一平台,旨在为技术写作团队提供更强的生产力和更高的可扩展性。
    查看完整榜单