SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 943 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    创新框架EMO:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    创新框架EMO:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    阿里巴巴推出创新框架EMO,它是一个能够根据音频生成表情丰富的肖像视频的系统。想象一下,你只需要提供一张静态的照片和一段语音,EMO就能创造出一个视频,视频中的人物头像会根据语音的内容和情感变化做出相...
    新技术# EMO# 口型匹配
    2年前
    07100
    Multi-LoRA Composition:不经过训练直接融合多个 Lora 不损失效果

    Multi-LoRA Composition:不经过训练直接融合多个 Lora 不损失效果

    来自伊利诺伊大学香槟分校和微软公司的研究人员公开了多LoRA组合来生成图像的项目。简单来说,LoRA是一种可以让文本生成图像模型更准确地呈现特定元素(如独特的字符、风格或服装)的技术。论文探讨了如何更...
    新技术# Lora# Multi-LoRA Composition
    2年前
    08710
    新框架VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容

    新框架VSP-LLM:通过观察视频中人的嘴型来理解和翻译说话内容

    这篇论文介绍了一个名为VSP-LLM(Visual Speech Processing incorporated with LLMs)的新框架,它结合了视觉语音处理和大语言模型(LLMs),以提高视觉...
    新技术# VSP-LLM# 大语言模型# 视觉语音翻译
    2年前
    06820
    数据生成管道Gen4Gen:创建高质量的个性化图像和文本描述

    数据生成管道Gen4Gen:创建高质量的个性化图像和文本描述

    来自加州大学伯克利分校、牛津大学、哈佛大学、卡耐基梅隆大学、香港大学、加州大学戴维斯分校的研究人员推出数据生成管道Gen4Gen,它用于创建一个名为MyCanvas的数据集,旨在提高文本到图像扩散模型...
    新技术# Gen4Gen# 数据生成管道
    2年前
    04650
    创新人工智能系统Genie:从单一图像提示生成无限种可玩(即可通过行动控制的)游戏场景

    创新人工智能系统Genie:从单一图像提示生成无限种可玩(即可通过行动控制的)游戏场景

    来自不列颠哥伦比亚大学和Google DeepMind研究人员提出创新人工智能系统Genie,它能够从互联网上的未标记视频数据中学习,生成可交互的虚拟环境。Genie的核心功能是将文本、合成图像、照片...
    新技术# Genie# Google DeepMind
    1年前
    05260
    T-Stitch:加速预训练扩散模型采样过程

    T-Stitch:加速预训练扩散模型采样过程

    来自莫纳什大学、英伟达、威斯康星大学麦迪逊分校、加州理工学院的研究人员推出T-Stitch,它是一种用于加速预训练扩散模型采样过程的方法。 项目主页 GitHub 扩散模型是一类在图像生成领域表现出色...
    新技术# T-Stitch# 扩散模型# 采样
    2年前
    06970
    3D重建技术MVD2:针对多视角扩散图像进行高效的三维形状重建

    3D重建技术MVD2:针对多视角扩散图像进行高效的三维形状重建

    来自清华大学和微软亚洲研究院的研究人员推出新型3D重建技术MVD2,它专门针对多视角扩散(Multiview Diffusion,简称MVD)图像进行高效的三维形状重建。 论文地址 MVD是一种新兴的...
    新技术# 3D重建技术# MVD2
    2年前
    05720
    子对象级图像标记化:用于计算机视觉模型的图像处理

    子对象级图像标记化:用于计算机视觉模型的图像处理

    来自香港科技大学与小冰AI的研究人员推出名为“子对象级图像标记化”(subobject-level image tokenization)的新方法,这是一种用于计算机视觉模型的图像处理技术。这种方法受...
    新技术# 子对象级图像标记化
    2年前
    06090
    多视角图像编辑技术QNeRF:多视角图像编辑的一致性和质量

    多视角图像编辑技术QNeRF:多视角图像编辑的一致性和质量

    特拉维夫大学、英伟达和卡内基梅隆大学的研究人员推出新型多视角图像编辑技术QNeRF(Query Neural Radiance Field),这项技术旨在解决在对同一场景从多个视角拍摄的图像集进行编辑...
    新技术# QNeRF# 多视角图像编辑
    2年前
    05680
    去噪方法GeneOH Diffusion:解决手-物体交互(HOI)去噪的问题

    去噪方法GeneOH Diffusion:解决手-物体交互(HOI)去噪的问题

    来自清华大学、上海人工智能实验室、上海启智研究院的研究人员推出GeneOH Diffusion,它旨在解决手-物体交互(HOI)去噪的问题。在手-物体交互中,我们经常需要准确地追踪手部动作,尤其是在游...
    新技术# GeneOH Diffusion
    2年前
    07350
    基于Transformer架构的新型视频生成模型Snap Video

    基于Transformer架构的新型视频生成模型Snap Video

    来自Snap、特伦托大学、加州大学默塞德分校、布鲁诺·凯斯勒基金会的研究人员推出新型视频生成模型Snap Video,此模型基于Transformer架构,目标是将文本描述转换成高质量的视频内容。 项...
    新技术# Snap Video# Transformer# 视频生成模型
    2年前
    06110
    新型图像编辑框架Differential Diffusion:精确地控制图像的编辑过程

    新型图像编辑框架Differential Diffusion:精确地控制图像的编辑过程

    来自特拉维夫大学、赖希曼大学的研究人员推出新型图像编辑框架Differential Diffusion,此框架的核心特点是能够让用户对图像的每个像素或区域进行不同程度的编辑,这在以往的图像编辑技术中是...
    新技术# Differential Diffusion# 图像编辑
    2年前
    08980
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    PDF2Audio

    PDF2Audio

    PDF2Audio是一款受到谷歌NotebookLM播客功能启发而开发的开源替代品,可以将 PDF 文件转换成音频播客、讲座、摘要等。它利用 OpenAI 的 GPT 大语言模型来生成文本和进行文本到语音的转换。
    Figma Sites

    Figma Sites

    借助新的AI驱动工具Figma Sites,设计师可以轻松创建网站并直接发布。网站生成后,协作人员无需额外提示即可通过编辑器轻松更改网站元素。用户还可以在网站中添加过渡、动画和滚动效果,同时确保网站具有响应式设计。Figma正在为Figma Sites新增直接生成博客文章的功能。
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    Genspark

    Genspark

    Genspark 超级智能体——您的全能AI伙伴,从拨打电话、制作幻灯片到生成TikTok短视频,轻松应对日常任务。内置80+预装工具与海量数据集,更快、更可靠、更可控。
    微信读书 MCP 服务器

    微信读书 MCP 服务器

    微信读书MCP服务器是一个桥接微信读书数据和Claude Desktop的轻量级服务器,使您可以在Claude中无缝访问微信读书的笔记和阅读数据。
    查看完整榜单