SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 958 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    DistriFusion:加速高分辨率扩散模型的并行推理算法

    DistriFusion:加速高分辨率扩散模型的并行推理算法

    来自麻省理工学院、普林斯顿大学、Lepton AI 和 英伟达的研究人员推出DistriFusion,这是一种用于加速高分辨率扩散模型(diffusion models)的并行推理算法。 项目主页 G...
    新技术# DistriFusion# 高分辨率扩散模型
    2年前
    06170
    基于优化框架的跨模态视频-音频生成方法Seeing and Hearing:能够同时生成视频和音频内容

    基于优化框架的跨模态视频-音频生成方法Seeing and Hearing:能够同时生成视频和音频内容

    香港科技大学和腾讯 PCG ARC 实验室推出基于优化框架的跨模态视频-音频生成方法Seeing and Hearing,它能够同时生成视频和音频内容。方法的主要创新点在于,通过预训练的多模态模型(如...
    新技术# Seeing and Hearing# 优化框架# 跨模态视频-音频生成方法
    2年前
    06590
    基于Kronecker积的新型适应模块DiffuseKronA:保持图像生成质量的同时,显著减少模型的参数数量

    基于Kronecker积的新型适应模块DiffuseKronA:保持图像生成质量的同时,显著减少模型的参数数量

    来自印度信息技术研究所、Hugging Face、阳明交通大学、IBM 研究院的研究人员提出一种用于个性化扩散模型的参数高效微调方法DiffuseKronA,主要功能是在保持图像生成质量的同时,显著减...
    新技术# DiffuseKronA# 扩散模型
    2年前
    07300
    创新框架EMO:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    创新框架EMO:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    阿里巴巴推出创新框架EMO,它是一个能够根据音频生成表情丰富的肖像视频的系统。想象一下,你只需要提供一张静态的照片和一段语音,EMO就能创造出一个视频,视频中的人物头像会根据语音的内容和情感变化做出相...
    新技术# EMO# 口型匹配
    2年前
    07180
    Multi-LoRA Composition:不经过训练直接融合多个 Lora 不损失效果

    Multi-LoRA Composition:不经过训练直接融合多个 Lora 不损失效果

    来自伊利诺伊大学香槟分校和微软公司的研究人员公开了多LoRA组合来生成图像的项目。简单来说,LoRA是一种可以让文本生成图像模型更准确地呈现特定元素(如独特的字符、风格或服装)的技术。论文探讨了如何更...
    新技术# Lora# Multi-LoRA Composition
    2年前
    08790
    新框架VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容

    新框架VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容

    这篇论文介绍了一个名为VSP-LLM(Visual Speech Processing incorporated with LLMs)的新框架,它结合了视觉语音处理和大语言模型(LLMs),以提高视觉...
    新技术# VSP-LLM# 大语言模型# 视觉语音翻译
    2年前
    07010
    数据生成管道Gen4Gen:创建高质量的个性化图像和文本描述

    数据生成管道Gen4Gen:创建高质量的个性化图像和文本描述

    来自加州大学伯克利分校、牛津大学、哈佛大学、卡耐基梅隆大学、香港大学、加州大学戴维斯分校的研究人员推出数据生成管道Gen4Gen,它用于创建一个名为MyCanvas的数据集,旨在提高文本到图像扩散模型...
    新技术# Gen4Gen# 数据生成管道
    2年前
    04720
    创新人工智能系统Genie:从单一图像提示生成无限种可玩(即可通过行动控制的)游戏场景

    创新人工智能系统Genie:从单一图像提示生成无限种可玩(即可通过行动控制的)游戏场景

    来自不列颠哥伦比亚大学和Google DeepMind研究人员提出创新人工智能系统Genie,它能够从互联网上的未标记视频数据中学习,生成可交互的虚拟环境。Genie的核心功能是将文本、合成图像、照片...
    新技术# Genie# Google DeepMind
    1年前
    05300
    T-Stitch:加速预训练扩散模型采样过程

    T-Stitch:加速预训练扩散模型采样过程

    来自莫纳什大学、英伟达、威斯康星大学麦迪逊分校、加州理工学院的研究人员推出T-Stitch,它是一种用于加速预训练扩散模型采样过程的方法。 项目主页 GitHub 扩散模型是一类在图像生成领域表现出色...
    新技术# T-Stitch# 扩散模型# 采样
    2年前
    07080
    3D重建技术MVD2:针对多视角扩散图像进行高效的三维形状重建

    3D重建技术MVD2:针对多视角扩散图像进行高效的三维形状重建

    来自清华大学和微软亚洲研究院的研究人员推出新型3D重建技术MVD2,它专门针对多视角扩散(Multiview Diffusion,简称MVD)图像进行高效的三维形状重建。 论文地址 MVD是一种新兴的...
    新技术# 3D重建技术# MVD2
    2年前
    05810
    子对象级图像标记化:用于计算机视觉模型的图像处理

    子对象级图像标记化:用于计算机视觉模型的图像处理

    来自香港科技大学与小冰AI的研究人员推出名为“子对象级图像标记化”(subobject-level image tokenization)的新方法,这是一种用于计算机视觉模型的图像处理技术。这种方法受...
    新技术# 子对象级图像标记化
    2年前
    06150
    多视角图像编辑技术QNeRF:多视角图像编辑的一致性和质量

    多视角图像编辑技术QNeRF:多视角图像编辑的一致性和质量

    特拉维夫大学、英伟达和卡内基梅隆大学的研究人员推出新型多视角图像编辑技术QNeRF(Query Neural Radiance Field),这项技术旨在解决在对同一场景从多个视角拍摄的图像集进行编辑...
    新技术# QNeRF# 多视角图像编辑
    2年前
    05710
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    悟空

    悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    Instant Domain Search

    Instant Domain Search

    Instant Domain Search 是一个以“即时响应”为核心卖点的在线工具,它不仅能毫秒级地反馈域名可用性,还集成了创意生成、后缀探索和市场分析等实用功能,帮助用户快速锁定心仪的网域名称。
    WebToApp

    WebToApp

    WebToApp 是一款完全开源的 Android 应用,允许你在手机端零代码完成网站、媒体资源或 HTML 项目到 APK 的转换与构建。无需电脑,无需 Android Studio,几分钟即可生成可安装、可分发的独立应用。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    查看完整榜单