SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    百科

    共 2210 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    基于Kronecker积的新型适应模块DiffuseKronA:保持图像生成质量的同时,显著减少模型的参数数量

    基于Kronecker积的新型适应模块DiffuseKronA:保持图像生成质量的同时,显著减少模型的参数数量

    来自印度信息技术研究所、Hugging Face、阳明交通大学、IBM 研究院的研究人员提出一种用于个性化扩散模型的参数高效微调方法DiffuseKronA,主要功能是在保持图像生成质量的同时,显著减...
    新技术# DiffuseKronA# 扩散模型
    2年前
    06900
    深度模型DepthFM:从单张图像中快速估算深度信息

    深度模型DepthFM:从单张图像中快速估算深度信息

    来自慕尼黑大学的研究团队推出深度模型DepthFM,它是一个用于从单目(单个摄像头)图像中快速估算深度信息的系统。简单来说,DepthFM能够通过一张照片,推断出物体与摄像头之间的距离,这对于三维场景...
    新技术# DepthFM# 深度模型
    2年前
    06880
    运动引导扩散模型Pix2Gif:用于图像到GIF(视频)的生成

    运动引导扩散模型Pix2Gif:用于图像到GIF(视频)的生成

    微软印度研究院和微软雷蒙德研究院的研究人员推出运动引导扩散模型Pix2Gif,该模型可用于图像到GIF(视频)的生成。 项目主页 GitHub Demo 他们采取了与众不同的方法,将任务定位为受文本和...
    新技术# GIF# Pix2Gif
    2年前
    06880
    基于两阶段高斯溅射的3D模型DreamPolisher:基于文本描述生成三维(3D)对象

    基于两阶段高斯溅射的3D模型DreamPolisher:基于文本描述生成三维(3D)对象

    来自牛津大学的研究人员推出DreamPolisher,它是一种基于文本描述生成三维(3D)对象的方法。这是一种基于两阶段高斯溅射的方法,该方法强制各视图之间的几何一致性。首先,通过几何优化对粗略的3D...
    新技术# 3D模型# DreamPolisher
    2年前
    06870
    3D重建和生成模型GRM:从稀疏视角的图像中快速重建出3D模型

    3D重建和生成模型GRM:从稀疏视角的图像中快速重建出3D模型

    来自斯坦福大学、香港科技大学、上海人工智能实验室、 浙江大学和蚂蚁集团的研究团队推出新型大规模3D重建和生成模型GRM(Gaussian Reconstruction Model),GRM是一种基于t...
    新技术# 3D模型# GRM
    2年前
    06870
    LayerDiffusion:可生成高质量的透明图像和图层

    LayerDiffusion:可生成高质量的透明图像和图层

    Controlnet、Fooocus、Stable Diffusion WebUI Forge的开发者lllyasviel推出新的项目LayerDiffusion,它允许大规模预训练的潜在扩散模型(如...
    新技术# LayerDiffusion# 图层# 透明图像
    2年前
    06870
    文生图风格化工具Artist:无需训练即可实现美学控制的文本驱动风格化

    文生图风格化工具Artist:无需训练即可实现美学控制的文本驱动风格化

    香港理工大学的研究人员推出一种无需训练即可实现美学控制的文本驱动风格化方法Artist。简而言之,Artist能够根据文本描述,将一张静态图片转换成具有特定艺术风格的图像,同时保持图片内容的完整性和细...
    新技术# Artist# 风格化
    1年前
    06860
    视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答

    视频编码器VideoPrism:能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答

    来自谷歌的研究人员推出视频编码器VideoPrism,它是一个通用的视频理解模型,能够处理多种视频理解任务,如分类、定位、检索、字幕生成和问答(QA)。VideoPrism通过在一个单一的冻结模型上进...
    新技术# VideoPrism# 视频编码器# 谷歌
    6个月前
    06850
    新型4D内容生成管道4Diffusion:创造全新的视角和动态场景,而不仅仅是对现有视频进行剪辑和调整

    新型4D内容生成管道4Diffusion:创造全新的视角和动态场景,而不仅仅是对现有视频进行剪辑和调整

    北京航空航天大学、上海人工智能实验室和香港大学的研究人员推出新型4D内容生成管道4Diffusion,它能够从单目视频生成具有空间-时间一致性的四维内容。简单来说,4Diffusion就像一个高级的视...
    新技术# 4Diffusion# 4D模型
    2年前
    06840
    图像编辑技术Editable Image Elements:允许用户对输入的图像进行空间编辑,同时保持图像内容的逼真度

    图像编辑技术Editable Image Elements:允许用户对输入的图像进行空间编辑,同时保持图像内容的逼真度

    来自加州大学圣地亚哥分校和Adob​​e 研究中心的研究人员推出新的图像编辑技术Editable Image Elements for Controllable Synthesis,它允许用户对输入的...
    新技术# Editable Image Elements# 图像编辑
    2年前
    06830
    腾讯优图推出RealTalk:用于生成逼真、实时的音频驱动人脸视频的框架

    腾讯优图推出RealTalk:用于生成逼真、实时的音频驱动人脸视频的框架

    腾讯优图实验室和南京大学的研究人员推出新技术RealTalk,它是一个用于生成逼真、实时的音频驱动人脸视频的框架。简单来说,RealTalk可以根据一个人的语音生成一个看起来非常真实的3D人脸动画,而...
    新技术# RealTalk# 南京大学# 腾讯优图
    1年前
    06800
    新型图像匹配技术OmniGlue:首个以泛化为核心设计原则的可学习图像匹配器

    新型图像匹配技术OmniGlue:首个以泛化为核心设计原则的可学习图像匹配器

    德克萨斯大学奥斯汀分校和谷歌的研究人员推出新型图像匹配技术OmniGlue,这是首个以泛化为核心设计原则的可学习图像匹配器。OmniGlue利用来自视觉基础模型的广泛知识来指导特征匹配过程,从而增强了...
    新技术# OmniGlue# 谷歌
    2年前
    06800
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    OpenAI音频模型

    OpenAI音频模型

    OpenAI正式推出了全新的音频模型,涵盖了文本转语音(Text-to-Speech, TTS)和语音转文本(Speech-to-Text, STT)两大核心功能,为语音交互领域带来了重大突破。
    Eigent AI

    Eigent AI

    Eigent 是全球首个 多智能体工作流 桌面应用程序,帮助您构建、管理和部署定制化的 AI 工作团队,将最复杂的工作流程转化为自动化任务。基于 CAMEL-AI 广受赞誉的开源项目,我们的系统引入了 多智能体工作流,通过并行执行、定制化和隐私保护 提升生产力。
    oLLM

    oLLM

    oLLM 是一个轻量级的 Python 库,用于大型上下文 LLM 推理,基于 Huggingface Transformers 和 PyTorch 构建。它使运行像 gpt-oss-20B、qwen3-next-80B 或 Llama-3.1-8B-Instruct 这样的模型在 100k 上下文下使用约 200 美元的消费级 GPU(8GB VRAM)成为可能。不使用量化——仅使用 fp16/bf16 精度。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    查看完整榜单