SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    百科

    共 2250 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    零样本视频定制框架DreamVideo-2:根据单一图像和一系列界定框序列生成具有特定主题和运动轨迹的视频

    零样本视频定制框架DreamVideo-2:根据单一图像和一系列界定框序列生成具有特定主题和运动轨迹的视频

    复旦大学、阿里巴巴、南洋理工大学和密歇根州立大学的研究人员推出一个零样本视频定制框架DreamVideo-2,能够根据单一图像和一系列界定框(bounding box)序列生成具有特定主题和运动轨迹的...
    新技术# DreamVideo-2# 视频定制
    1年前
    06060
    TransAgent 框架:提升视觉-语言基础模型(比如CLIP)在新领域中的泛化能力

    TransAgent 框架:提升视觉-语言基础模型(比如CLIP)在新领域中的泛化能力

    中国科学院深圳先进技术研究院、中国科学院大学、上海人工智能实验室和上海交通大学的研究人员推出一个通用且简洁的 TransAgent 框架,它的目标是提升视觉-语言基础模型(比如CLIP)在新领域中的泛...
    新技术# CLIP模型# TransAgent 框架
    1年前
    04740
    条件对比对齐CCA:提升自回归(AR)视觉生成模型的样本质量

    条件对比对齐CCA:提升自回归(AR)视觉生成模型的样本质量

    无分类器引导(CFG)是提高视觉生成模型样本质量的关键技术。然而,在自回归(AR)多模态生成中,CFG 在语言和视觉内容之间引入了设计不一致性,这与统一不同模态的视觉 AR 设计理念相矛盾。受语言模型...
    新技术# CCA# 条件对比对齐# 视觉生成模型
    1年前
    05770
    用于生成同步语音体态手势视频的框架 TANGO:把新的语音和已有的视频动作结合起来,生成高保真的、与语音同步的身体手势视频

    用于生成同步语音体态手势视频的框架 TANGO:把新的语音和已有的视频动作结合起来,生成高保真的、与语音同步的身体手势视频

    东京大学和Cyber​​Agent 人工智能实验室的研究人员推出了一个用于生成同步语音体态手势视频的框架 TANGO,它可以从一个几分钟长的参考视频(里面有一个说话者的身体动作)和目标语音音频出发,生...
    新技术# TANGO# 同步语音体态手势
    1年前
    04030
    Fluid: 基于连续令牌和随机顺序生成的文生图模型

    Fluid: 基于连续令牌和随机顺序生成的文生图模型

    在视觉领域,自回归模型的扩展并没有像在大语言模型中那样取得显著的成功。为了探索这一问题,Google DeepMind 和麻省理工学院的研究人员进行了一项研究,重点探讨了两个关键因素:模型是使用离散还...
    新技术# Fluid:# 文生图模型
    1年前
    04580
    Ollama 与Hugging Face合作!Ollama可以使用 Hugging Face上所有GGUF格式模型了

    Ollama 与Hugging Face合作!Ollama可以使用 Hugging Face上所有GGUF格式模型了

    Ollama 是一个基于 llama.cpp 的应用,可以直接在本地运行开源的大语言模型,之前只能在官网上下载模型或者从Hugging Face上导入,有点麻烦,现在Ollama 与Hugging F...
    教程# Hugging Face# Ollama
    1年前
    01,8140
    Adobe MAX大会亮点!Adobe旗下多个应用发布新功能,视频生成功能已上线Adobe Premiere Pro和Adobe Firefly

    Adobe MAX大会亮点!Adobe旗下多个应用发布新功能,视频生成功能已上线Adobe Premiere Pro和Adobe Firefly

    今天,在美国迈阿密海滩举行的Adobe MAX大会上,Adobe发布了最新版本的Adobe Creative Cloud,其中包括超过100项新功能,涵盖了Photoshop、Illustrator...
    早报# Adobe Firefly# Adobe MAX# Adobe Premiere Pro
    1年前
    05650
    图上下文感知扩散模型InstructG2I:根据多模态属性图(MMAGs)生成图像

    图上下文感知扩散模型InstructG2I:根据多模态属性图(MMAGs)生成图像

    多模态属性图(MMAGs)作为一种强大的数据结构,能够以图的形式表示实体之间的关系,节点中包含图像和文本信息。尽管 MMAGs 在图像生成中具有多功能性,但它们受到的关注相对较少。这是因为 MMAGs...
    新技术# InstructG2I# 多模态属性图
    1年前
    05950
    图像编辑新方法DICE:用于改进离散扩散模型在可控编辑任务中的性能

    图像编辑新方法DICE:用于改进离散扩散模型在可控编辑任务中的性能

    罗格斯大学、麻省理工学院-IBM Watson AI 实验室、谷歌 DeepMind、NEC 美国实验室、纽约大学、 沃尔玛全球科技公司、澳大利亚国立大学和 麻省理工学院阿灵顿分校的研究人员推出图像编...
    新技术# DICE# 图像编辑
    1年前
    05870
    FSC-CLIP:提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能

    FSC-CLIP:提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能

    韩国科学技术院、世宗大学和汉阳大学的研究人员推出FSC-CLIP,提升预训练视觉和语言模型(VLMs)在理解图像和文字组合任务上的能力,同时保持在多模态任务上的性能。简单来说,就是让计算机能够更好地理...
    新技术# FSC-CLIP# 多模态
    1年前
    04820
    矩形扩散Rectified Diffusion:提高扩散模型的生成速度

    矩形扩散Rectified Diffusion:提高扩散模型的生成速度

    香港中文大学、北京大学和普林斯顿大学的研究人员推出Rectified Diffusion,它用于加速生成扩散模型(diffusion models),这些模型在视觉生成领域取得了显著的进展,比如生成高...
    百科# Rectified Diffusion# 矩形扩散
    1年前
    06100
    长视频生成新方法PA-VDM:现有的模型可以自然地扩展为自回归视频扩散模型,而无需改变架构

    长视频生成新方法PA-VDM:现有的模型可以自然地扩展为自回归视频扩散模型,而无需改变架构

    石溪大学和Adob​​e 研究中心的研究人员推出长视频生成新方法PA-VDM,它能够生成高质量的长视频。在解释这个主题时,我们可以把它想象成一个能够将静态图片或简短视频变成长篇电影的魔法盒子。 项目主...
    新技术# PA-VDM# 长视频生成
    1年前
    05850
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    智川云

    智川云

    智川云 RiverMind 是专为高校科研团队与开发者打造的弹性 GPU 云平台,提供从按量训练到弹性推理在内的 AI 模型全生命周期算力服务。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    查看完整榜单