SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    新技术

    共 939 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    无需训练的图像编辑技术Stable Flow:执行各种类型的图像编辑操作,包括非刚性编辑、物体添加、物体替换和全局场景编辑

    无需训练的图像编辑技术Stable Flow:执行各种类型的图像编辑操作,包括非刚性编辑、物体添加、物体替换和全局场景编辑

    Snap Research、耶路撒冷希伯来大学、特拉维夫大学和赖希曼大学的研究人员推出图像编辑方法Stable Flow,这是一种无需训练的图像编辑技术,能够执行各种类型的图像编辑操作,包括非刚性编辑...
    新技术# Stable Flow# 图像编辑
    1年前
    03950
    基础世界模型The Matrix:用于生成无限长度和实时的视频

    基础世界模型The Matrix:用于生成无限长度和实时的视频

    在追求高质量、实时视频生成的过程中,研究人员和开发者们面临着一系列挑战。传统的视频生成模型往往因高昂的计算成本、有限的视频时长以及缺乏实时交互性而受到限制。特别是在需要长时间、高分辨率视频生成的应用场...
    新技术# The Matrix# 世界模型
    1年前
    03440
    Reducio-DiT:通过先进压缩技术提升视频生成效率

    Reducio-DiT:通过先进压缩技术提升视频生成效率

    随着技术的进步,视频生成模型已经能够创造出令人惊叹的高质量视频片段。然而,这些模型在实际应用中面临着一些显著的障碍,主要集中在计算资源的需求上。目前市场上的领先模型,例如Sora、Runway Gen...
    新技术# Reducio-DiT# Reducio-VAE
    1年前
    03420
    开源版风格参考StyleCodes:能够将图像风格表达为一个 20 符号的 base64 代码

    开源版风格参考StyleCodes:能够将图像风格表达为一个 20 符号的 base64 代码

    扩散模型在图像生成方面取得了显著的成功,但如何有效地控制生成图像的风格仍然是一个挑战。虽然使用示例图像可以实现风格控制,但这种方法存在一些不便:示例图像体积较大,不易于分享,且可能涉及隐私问题。为此...
    新技术# Midjourney# StyleCodes# 风格参考
    1年前
    04250
    SSAM 2增强版SAMURAI:专门设计用于视觉物体跟踪

    SSAM 2增强版SAMURAI:专门设计用于视觉物体跟踪

    Segment Anything Model 2 (SAM 2) 是一个在物体分割任务中表现出色的模型,但在视觉物体跟踪方面仍面临一些挑战。特别是在处理拥挤场景中快速移动或自我遮挡的物体时,SAM 2...
    新技术# SAMURAI# SSAM 2
    1年前
    06180
    SageAttention2:适用于即插即用推理加速的精确4位注意力机制

    SageAttention2:适用于即插即用推理加速的精确4位注意力机制

    尽管线性层的量化技术已经广泛应用于深度学习模型中,但在加速注意力机制方面的应用仍然有限。为了提高注意力计算的效率并保持高精度,清华大学的研究团队提出了 SageAttention2,这是一个基于低精度...
    新技术# SageAttention2# 推理加速
    1年前
    03130
    ITACLIP:通过图像、文本和架构增强提升无需训练的语义分割

    ITACLIP:通过图像、文本和架构增强提升无需训练的语义分割

    近年来,基础视觉语言模型(VLMs)的发展彻底改变了计算机视觉领域的研究方向。这些模型,尤其是 CLIP,不仅推动了开放词汇计算机视觉任务的研究,还在多个领域取得了显著成果。然而,尽管 VLMs 在开...
    新技术# ITACLIP# 语义分割
    1年前
    03790
    CSpD:用于加速自回归图像生成模型的推理过程

    CSpD:用于加速自回归图像生成模型的推理过程

    中国科学院大学、中国科学院自动化研究所和中国铁塔的研究人员介绍了一种名为“Continuous Speculative Decoding”(CSpD)的技术,用于加速自回归(Autoregressiv...
    新技术# CSpD# 推理加速
    1年前
    03050
    新型推理加速技术SmoothCache:提高DiT模型在不同模态(如图像、视频和语音合成)任务中的推理效率

    新型推理加速技术SmoothCache:提高DiT模型在不同模态(如图像、视频和语音合成)任务中的推理效率

    DiT架构因其强大的生成能力而在图像、视频和语音合成等多个领域展现出巨大潜力。然而,由于在推理过程中需要反复评估计算密集型的注意力和前馈模块,DiT架构的计算成本较高,这成为其广泛应用的一大障碍。为了...
    新技术# SmoothCache# 推理加速
    1年前
    02870
    视频编辑方法STABLEV2V:解决视频编辑中形状一致性问题

    视频编辑方法STABLEV2V:解决视频编辑中形状一致性问题

    中国科学技术大学的研究人员推出视频编辑方法STABLEV2V,旨在解决视频编辑中形状一致性问题。STABLEV2V通过一系列顺序过程来编辑视频:首先编辑第一帧视频,然后建立交付动作与用户提示之间的对齐...
    新技术# STABLEV2V# 视频编辑
    1年前
    05400
    新型虚拟试穿技术FitDiT:专为优化DiT模型的虚拟试穿性能而设计

    新型虚拟试穿技术FitDiT:专为优化DiT模型的虚拟试穿性能而设计

    尽管基于图像的虚拟试穿技术已取得显著进展,但在生成高保真度和适应性强的拟合图像上仍面临诸多挑战。尤其在纹理感知维护和尺寸感知拟合等关键领域,现有方法往往难以达到理想效果,这限制了技术的整体实用性。为应...
    新技术# FitDiT# 虚拟试穿
    11个月前
    03610
    NumPro:增强视频大语言模型在视频时间定位任务中的表现

    NumPro:增强视频大语言模型在视频时间定位任务中的表现

    东南大学、马克斯普朗克信息学研究所、腾讯微信和加州大学伯克利分校的研究人员推出了一个名为Number-Prompt(NumPro)的方法,它旨在增强视频大语言模型(Vid-LLMs)在视频时间定位(V...
    新技术# NumPro# 视频大语言模型
    1年前
    02760
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    PDF Craft

    新PDF Craft

    PDF Craft是一款专注于扫描版书籍 PDF 转换的开源工具。它利用 DeepSeek OCR 模型,在本地完成从图像型 PDF 到结构化电子书(如 Markdown 或 EPUB)的全流程处理,无需联网,不依赖大语言模型(LLM),适合对隐私、精度与效率有要求的用户。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单