SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    视频生成框架

    共 8 篇文章
    排序
    发布更新浏览点赞
    腾讯微信视觉团队发布 Stand-In:轻量级身份保持视频生成新框架

    腾讯微信视觉团队发布 Stand-In:轻量级身份保持视频生成新框架

    在文本到视频(T2V)生成领域,一个长期存在的难题是:如何让生成的视频中的人物始终“长成你想要的样子”? 尽管现有模型能生成流畅、高质量的视频,但在身份一致性(identity-preserving...
    视频模型# Stand-In# 视频生成框架
    3个月前
    04030
    字节跳动提出MAGREF:支持多参考图像和文本提示的高质量视频生成框架

    字节跳动提出MAGREF:支持多参考图像和文本提示的高质量视频生成框架

    近年来,随着扩散模型等深度生成技术的发展,视频生成能力取得了显著进步。然而,在涉及多个参考主体的场景中,如何保证各主体之间的视觉一致性、身份一致性和生成稳定性,依然是一个重大挑战。 为了解决这一问题...
    视频模型# MAGREF# 字节跳动# 视频生成框架
    6个月前
    02240
    字节跳动推出全新视频生成框架 ATI:用“画轨迹”控制视频运动,对象、视角、局部变形一应俱全!

    字节跳动推出全新视频生成框架 ATI:用“画轨迹”控制视频运动,对象、视角、局部变形一应俱全!

    字节跳动 AI 实验室发布了一项令人眼前一亮的视频生成技术 —— ATI(Any Trajectory Instruction),它让普通人也能通过“画轨迹”的方式,精准控制视频中物体的运动、镜头的移...
    视频模型# ATI# ATI-Wan2.1 14B# 字节跳动
    6个月前
    02620
    视频生成框架RepVideo:通过重新思考跨层表示来提高文生视频模型的性能

    视频生成框架RepVideo:通过重新思考跨层表示来提高文生视频模型的性能

    南洋理工大学和上海人工智能实验室的研究人员推出视频生成框架RepVideo,旨在通过重新思考跨层表示来提高文本到视频(Text-to-Video, T2V)扩散模型的性能。该框架通过积累邻近层的特征来...
    新技术# RepVideo# 视频生成框架
    11个月前
    02350
    端到端的高质量ID一致性人类跳舞视频生成新框架StableAnimator

    端到端的高质量ID一致性人类跳舞视频生成新框架StableAnimator

    近年来,人像动画生成模型在图像和视频领域取得了显著进展,但它们在身份一致性(ID一致性)方面仍然面临挑战。传统的扩散模型虽然能够生成高质量的视频,但在长时间序列中保持人物的身份特征(如面部表情、发型等...
    新技术# StableAnimator# 视频生成框架
    1年前
    02900
    新型视频生成框架VideoGuide:改善视频生成模型在时间连续性方面的性能,同时保持甚至提高生成视频的图像质量

    新型视频生成框架VideoGuide:改善视频生成模型在时间连续性方面的性能,同时保持甚至提高生成视频的图像质量

    韩国科学技术研究院推出新型框架VideoGuide,它能够改善视频生成模型在时间连续性方面的性能,同时保持甚至提高生成视频的图像质量。这就意味着,使用VideoGuide,可以让现有的视频生成模型在不...
    新技术# VideoGuide# 视频生成框架
    1年前
    03990
    新型视频生成框架MovieDreamer:专门用于制作长篇视频内容,比如电影

    新型视频生成框架MovieDreamer:专门用于制作长篇视频内容,比如电影

    浙江大学和阿里巴巴的研究人员推出新型视频生成框架MovieDreamer,专门用于制作长篇视频内容,比如电影。与传统的短时视频生成技术不同,MovieDreamer能够处理复杂的叙事结构和情节发展,同...
    新技术# MovieDreamer# 视频生成框架
    1年前
    08630
    阿里推出新型视频生成框架I4VGen:无需训练且即插即用的视频扩散推理框架

    阿里推出新型视频生成框架I4VGen:无需训练且即插即用的视频扩散推理框架

    阿里推出新型视频生成框架I4VGen,这是一个无需训练(training-free)且即插即用(plug-and-play)的视频扩散推理框架,它通过强化图像技术来提升文本到视频(text-to-vi...
    新技术# I4VGen# 视频生成框架
    2年前
    05900
    没有了
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    The Ultra-Scale Playbook

    The Ultra-Scale Playbook

    Hugging Face旗下的Nanotron团队近期推出了一本免费、开源的综合性书籍——《Ultrascale-Playbook》。这本书旨在为读者提供关于如何在大规模GPU集群上高效训练大语言模型的全面指导,涵盖了分布式/并行化技术以及低级优化技巧。
    Open ASR 排行榜

    Open ASR 排行榜

    Open ASR 排行榜 对 Hugging Face Hub 上的语音识别模型进行排名和评估。我们报告平均 WER(字错误率)(⬇️ 越低越好)和 RTFx(实时因子)(⬆️ 越高越好),模型根据其平均 WER 从低到高进行排名。
    InstaSD

    InstaSD

    InstaSD 是一个云平台,旨在让创意团队轻松管理并部署ComfyUI工作流,主要用于生成图像和视频。它的目标是让用户无需编码技能就能使用,特别适合非技术用户。
    OpenAI音频模型

    OpenAI音频模型

    OpenAI正式推出了全新的音频模型,涵盖了文本转语音(Text-to-Speech, TTS)和语音转文本(Speech-to-Text, STT)两大核心功能,为语音交互领域带来了重大突破。
    查看完整榜单