SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    百科

    共 2210 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    新型SD模型压缩方法VQDM:通过向量量化技术,能够将大型的文本到图像扩散模型压缩到较低比特位表示,同时保持图像生成的高质量

    新型SD模型压缩方法VQDM:通过向量量化技术,能够将大型的文本到图像扩散模型压缩到较低比特位表示,同时保持图像生成的高质量

    Yandex 研究、HSE 大学、Skoltech、MIPT、Neural Magic和IST 奥地利的研究人员推出新型文本到图像扩散模型压缩方法VQDM,通过向量量化(Vector Quantiza...
    新技术# VQDM# 模型压缩
    1年前
    06670
    字节跳动推出数据集COCONut,专门针对图像分割任务

    字节跳动推出数据集COCONut,专门针对图像分割任务

    字节跳动推出数据集COCONut,它是对现有的COCO数据集的现代化升级,专门针对图像分割任务。图像分割是计算机视觉中的一个核心问题,它的目标是将图像中的每个像素正确地分类到不同的实例或类别中,此数据...
    新技术# COCONut# 图像分割# 字节跳动
    2年前
    06670
    Video2Game:自动将现实世界的视频转化为真实且具备交互性的游戏环境

    Video2Game:自动将现实世界的视频转化为真实且具备交互性的游戏环境

    来自伊利诺伊大学厄巴纳-香槟分校、上海交通大学和康奈尔大学的研究人员推出Video2Game,它可以将任何真实世界的视频转换成一个实时、互动、真实感强且与浏览器兼容的游戏环境。例如,你有一段拍摄街道的...
    新技术# Video2Game# 游戏
    2年前
    06660
    ViewDiff:从文本或图像生成多视图图像

    ViewDiff:从文本或图像生成多视图图像

    来自Meta和慕尼黑工业大学的研究人员推出ViewDiff,它能够根据文本描述或已有的图像输入,生成与3D对象一致的高质量图像。 项目主页 GitHub 想象一下,你只需要告诉计算机你想要的3D对象是...
    新技术# 3D模型# ViewDiff# 多视角
    2年前
    06640
    快速视频生成方法AnimateLCM:只需四步推理就可以生成视频

    快速视频生成方法AnimateLCM:只需四步推理就可以生成视频

    来自香港中文大学、Avolution AI、上海人工智能实验室、商汤科技研究院的研究人员推出快速视频生成方法AnimateLCM,该方法利用一致性学习策略,将图像生成先验和运动生成先验进行解耦,从而提...
    新技术# AI视频生成# AnimateLCM
    2年前
    06640
    新型生成模型DisCo-Diff:用于增强连续扩散模型的性能

    新型生成模型DisCo-Diff:用于增强连续扩散模型的性能

    英伟达和麻省理工学院的研究人员推出新型生成模型DisCo-Diff,它用于增强连续扩散模型(Diffusion Models, DMs)的性能。扩散模型是一种强大的数据生成方法,但它们通常需要将复杂的...
    新技术# DisCo-Diff# 生成模型
    1年前
    06620
    适用于 DiTs 模型的快速后训练向量量化方法 VQ4DiT:能够在各种资源受限的环境中高效运行,同时保持生成图像的质量。

    适用于 DiTs 模型的快速后训练向量量化方法 VQ4DiT:能够在各种资源受限的环境中高效运行,同时保持生成图像的质量。

    浙江大学和vivo的研究人员推出一种适用于 DiTs 的快速后训练向量量化方法 VQ4DiT,它是一种针对扩散变换器模型(Diffusion Transformers,简称DiTs)的高效后训练矢量化...
    新技术# DiTs 模型# VQ4DiT
    1年前
    06610
    谷歌推出基于问答的自动评估指标Gecko,用于评估文生图模型的性能

    谷歌推出基于问答的自动评估指标Gecko,用于评估文生图模型的性能

    谷歌推出基于问答的自动评估指标Gecko2K,用于评估文生图模型的性能。文生图模型生成的图像并不总是能够完全符合文本中的所有细节。因此,评估这些模型生成的图像与文本描述的匹配程度是一个重要的研究问题...
    新技术# Gecko# Gecko2K# 自动评估
    2年前
    06590
    新的4位量化方法SVDQuant:通过量化权重和激活值为4位来加速模型的推理过程,同时保持图像质量

    新的4位量化方法SVDQuant:通过量化权重和激活值为4位来加速模型的推理过程,同时保持图像质量

    扩散模型因其在生成高保真图像方面的卓越能力而备受关注。然而,这些模型在内存和计算方面的要求非常高,这限制了它们在消费级设备和需要低延迟的应用中的部署。为了解决这些问题,研究人员提出了多种技术,包括后训...
    新技术# SVDQuant# 量化方法
    10个月前
    06580
    FoleyCrafter:用于将无声视频通过自动生成高质量、与视频同步的声音效果,从而带来沉浸式的视听体验

    FoleyCrafter:用于将无声视频通过自动生成高质量、与视频同步的声音效果,从而带来沉浸式的视听体验

    上海人工智能实验室he 香港中文大学(深圳)的研究人员推出FoleyCrafter系统,它专门用于将无声视频通过自动生成高质量、与视频同步的声音效果,从而带来沉浸式的视听体验。这项技术在电影、电视和游...
    新技术# FoleyCrafter
    1年前
    06570
    自回归技术StreamingT2V:能够创建具有丰富运动动力学的长视频,不会出现停滞现象

    自回归技术StreamingT2V:能够创建具有丰富运动动力学的长视频,不会出现停滞现象

    来自Picsart AI研究部门、得克萨斯大学奥斯汀分校、佐治亚理工学院和伊利诺伊大学厄巴纳-香槟分校的研究团队推出先进的自回归技术StreamingT2V,能够创建具有丰富运动动力学的长视频,不会出...
    新技术# StreamingT2V# 自回归技术
    2年前
    06570
    阿里巴巴Wanx 团队推出新型多模态生成模型ACE:可以根据文本指令来执行复杂的图像编辑和生成任务

    阿里巴巴Wanx 团队推出新型多模态生成模型ACE:可以根据文本指令来执行复杂的图像编辑和生成任务

    阿里巴巴Wanx 团队推出新型多模态生成模型ACE,这个模型的核心功能是处理和生成图像,但它与传统的图像处理工具不同,因为它可以根据文本指令来执行复杂的图像编辑和生成任务。例如,你是一名摄影师,你拍摄...
    新技术# ACE# 阿里巴巴
    12个月前
    06540
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    OpenAI音频模型

    OpenAI音频模型

    OpenAI正式推出了全新的音频模型,涵盖了文本转语音(Text-to-Speech, TTS)和语音转文本(Speech-to-Text, STT)两大核心功能,为语音交互领域带来了重大突破。
    Eigent AI

    Eigent AI

    Eigent 是全球首个 多智能体工作流 桌面应用程序,帮助您构建、管理和部署定制化的 AI 工作团队,将最复杂的工作流程转化为自动化任务。基于 CAMEL-AI 广受赞誉的开源项目,我们的系统引入了 多智能体工作流,通过并行执行、定制化和隐私保护 提升生产力。
    oLLM

    oLLM

    oLLM 是一个轻量级的 Python 库,用于大型上下文 LLM 推理,基于 Huggingface Transformers 和 PyTorch 构建。它使运行像 gpt-oss-20B、qwen3-next-80B 或 Llama-3.1-8B-Instruct 这样的模型在 100k 上下文下使用约 200 美元的消费级 GPU(8GB VRAM)成为可能。不使用量化——仅使用 fp16/bf16 精度。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    查看完整榜单