SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 958 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    LayerDiffusion:可生成高质量的透明图像和图层

    LayerDiffusion:可生成高质量的透明图像和图层

    Controlnet、Fooocus、Stable Diffusion WebUI Forge的开发者lllyasviel推出新的项目LayerDiffusion,它允许大规模预训练的潜在扩散模型(如...
    新技术# LayerDiffusion# 图层# 透明图像
    2年前
    07270
    Binary Opacity Grids:从多视角图像重建三角网格,生成高质量的视图合成

    Binary Opacity Grids:从多视角图像重建三角网格,生成高质量的视图合成

    来自的谷歌的研究人员推出名为“Binary Opacity Grids”的新方法,它用于从多视角图像重建三角网格,并能够捕捉到精细的几何细节,如叶子、树枝和草地等。这种方法在保持低计算成本的同时,能够...
    新技术# 3D# Binary Opacity Grids
    2年前
    07260
    新型框架Isotropic3D:根据单张参考图片的CLIP嵌入生成多视角一致且高质量的3D模型

    新型框架Isotropic3D:根据单张参考图片的CLIP嵌入生成多视角一致且高质量的3D模型

    来自复旦、清华、同济的研究人员推出新型框架Isotropic3D,它能够根据单张参考图片的CLIP嵌入(embedding)生成多视角一致且高质量的3D内容。CLIP嵌入是一种能够捕捉图像语义信息的技...
    新技术# 3D模型# Isotropic3D
    2年前
    07240
    新算法ViewFusion:解决在多视角图像生成一致性的问题

    新算法ViewFusion:解决在多视角图像生成一致性的问题

    来自亚马逊、悉尼大学、阿德莱德大学的研究人员推出新算法ViewFusion,它旨在解决在多视角图像合成中保持一致性的挑战。这个算法可以与现有的预训练扩散模型无缝集成,用于生成高质量、多样化的图像。 论...
    新技术# ViewFusion# 图像生成
    2年前
    07240
    阿里推出AI视频生成模型I2VGen-XL

    阿里推出AI视频生成模型I2VGen-XL

    阿里旗下达摩院推出AI视频生成模型I2VGen-XL,可以根据用户输入的静态图像和文本生成目标接近、语义相同的视频,生成的视频具高清 (1280 * 720)、宽屏 (16:9)、时序连贯、质感好等特...
    新技术# AI视频# I2VGen-XL# 阿里
    2年前
    07240
    阿里推出新型大型多模态模型ConvLLaVA:专门设计用于处理高分辨率的视觉数据

    阿里推出新型大型多模态模型ConvLLaVA:专门设计用于处理高分辨率的视觉数据

    清华大学和阿里巴巴的研究人员推出新型大型多模态模型ConvLLaVA,它专门设计用于处理高分辨率的视觉数据。多模态模型能够理解和处理多种类型的数据,比如文本、图像和视频,这使得它们在各种应用场景中都非...
    新技术# ConvLLaVA# 多模态模型# 阿里巴巴
    2年前
    07200
    新型图像匹配技术OmniGlue:首个以泛化为核心设计原则的可学习图像匹配器

    新型图像匹配技术OmniGlue:首个以泛化为核心设计原则的可学习图像匹配器

    德克萨斯大学奥斯汀分校和谷歌的研究人员推出新型图像匹配技术OmniGlue,这是首个以泛化为核心设计原则的可学习图像匹配器。OmniGlue利用来自视觉基础模型的广泛知识来指导特征匹配过程,从而增强了...
    新技术# OmniGlue# 谷歌
    2年前
    07200
    FreeNoise:通过噪声调度实现无需调参的长视频生成

    FreeNoise:通过噪声调度实现无需调参的长视频生成

    来自腾讯人工智能实验室、南洋理工大学、香港科技大学的研究人员提出了一种利用预训练的视频扩散模型生成高质量长视频的方法FreeNoise,它能够使模型在生成更长时间视频时保持内容的一致性,无需对模型进行...
    新技术# AI视频# FreeNoise# 噪声
    2年前
    07200
    新型SD模型压缩方法VQDM:通过向量量化技术,能够将大型的文本到图像扩散模型压缩到较低比特位表示,同时保持图像生成的高质量

    新型SD模型压缩方法VQDM:通过向量量化技术,能够将大型的文本到图像扩散模型压缩到较低比特位表示,同时保持图像生成的高质量

    Yandex 研究、HSE 大学、Skoltech、MIPT、Neural Magic和IST 奥地利的研究人员推出新型文本到图像扩散模型压缩方法VQDM,通过向量量化(Vector Quantiza...
    新技术# VQDM# 模型压缩
    2年前
    07190
    新型图像编辑方法Guide-and-Rescale:能够在不破坏原始图像的基础上,对真实的照片进行各种编辑

    新型图像编辑方法Guide-and-Rescale:能够在不破坏原始图像的基础上,对真实的照片进行各种编辑

    俄罗斯高等经济大学、斯科尔科沃科学技术研究所 和新南威尔士大学悉尼分校的研究人员推出新的图像编辑方法Guide-and-Rescale,此方法的核心是能够在不破坏原始图像的基础上,对真实的照片进行各种...
    新技术# Guide-and-Rescale# 图像编辑
    2年前
    07180
    专门解读胸部X光片的图像模型CheXagent:帮助医生提高临床决策的效率和质量

    专门解读胸部X光片的图像模型CheXagent:帮助医生提高临床决策的效率和质量

    来自斯坦福大学和Stability AI的研究人员推出了一个专门解读胸部X光片的图像模型CheXagent,这个模型的目的是帮助医生更准确地分析和理解X光片,从而提高临床决策的效率和质量。 项目主页 ...
    新技术# CheXagent# Stability AI# X光片
    2年前
    07180
    创新框架EMO:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    创新框架EMO:只需要提供一张静态照片和一段语音,就能生成口型匹配的视频

    阿里巴巴推出创新框架EMO,它是一个能够根据音频生成表情丰富的肖像视频的系统。想象一下,你只需要提供一张静态的照片和一段语音,EMO就能创造出一个视频,视频中的人物头像会根据语音的内容和情感变化做出相...
    新技术# EMO# 口型匹配
    2年前
    07170
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    360 安全龙虾

    新360 安全龙虾

    60安全龙虾目前已接入16家国内主流大模型,覆盖文本生成、编程开发、多模态创作等多种能力。同时内置100余个高频技能,可直接用于文档生成、数据分析、PPT制作、会议转写等常见办公场景。
    Agent2Agent

    Agent2Agent

    谷歌推出 Agent2Agent(A2A)智能体交互协议,该协议允许生态系统中的 AI 智能体进行底层技术无关的相互操作。多个智能体的协作将带来更高的自主性,同时成倍提高生产力、降低长期成本。
    RunningHub

    RunningHub

    RunningHub 是一个云平台,让用户轻松开发和分享 AI 应用。它特别适合那些希望通过浏览器直接操作的创作者,无需复杂的本地设置。平台基于 ComfyUI 工作流,提供强大的 GPU 云计算支持,确保高效任务执行。
    DeckEdit

    DeckEdit

    DeckEdit 是一款专为PPT设计的在线转档工具,能将 PDF 或图片文件转换为完全可编辑的 PowerPoint(PPTX)格式。它特别适合处理由 NotebookLM 等 AI 工具生成的静态简报——这些内容虽结构清晰,但缺乏编辑能力,而 DeckEdit 正好填补了这一缺口。
    查看完整榜单