SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 958 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    新型视频分词器LARP:专为自回归(AR)生成模型设计,用于提高视频生成任务的性能

    新型视频分词器LARP:专为自回归(AR)生成模型设计,用于提高视频生成任务的性能

    马里兰大学学院公园分校的研究人员提出了一种名为LARP(Latent Aggregation and Refinement for Perception)的新型视频分词器,它专为自回归(AR)生成模型...
    新技术# LARP# 视频分词器# 视频生成
    1年前
    04180
    MUVERA:让多向量检索像单向量一样快的新一代高效算法

    MUVERA:让多向量检索像单向量一样快的新一代高效算法

    在 RAG(Retrieval-Augmented Generation)系统中,信息检索是决定整体性能的关键环节。传统的单向量搜索(如基于 ElasticSearch 或 FAISS 的 MIPS...
    新技术# MUVERA# 向量检索
    8个月前
    04150
    Golden Noise:将随机的高斯噪声转换成能够生成更高质量、与文本提示更匹配的图像的“黄金噪声”

    Golden Noise:将随机的高斯噪声转换成能够生成更高质量、与文本提示更匹配的图像的“黄金噪声”

    香港科技大学(广州)、穆罕默德·本·扎耶德人工智能大学和香港浸会大学的研究人员推出一种名为“Golden Noise for Diffusion Models”的学习框架,旨在提高文生图模型的性能。这...
    新技术# Golden Noise# 黄金噪声
    1年前
    04130
    不需要额外的训练!用于个性化调整扩散模型的新方法RB-Modulation

    不需要额外的训练!用于个性化调整扩散模型的新方法RB-Modulation

    德克萨斯大学奥斯汀分校、谷歌和谷歌 DeepMind的研究人员推出一种用于个性化调整扩散模型的新方法RB-Modulation,RB-Modulation 建立在一个新颖的随机最优控制器基础上,其中样...
    新技术# RB-Modulation
    2年前
    04120
    NumPro:增强视频大语言模型在视频时间定位任务中的表现

    NumPro:增强视频大语言模型在视频时间定位任务中的表现

    东南大学、马克斯普朗克信息学研究所、腾讯微信和加州大学伯克利分校的研究人员推出了一个名为Number-Prompt(NumPro)的方法,它旨在增强视频大语言模型(Vid-LLMs)在视频时间定位(V...
    新技术# NumPro# 视频大语言模型
    1年前
    04110
    新型文本到图像生成技术GrounDiT:利用DiT实现了无需训练的空间定位能力,实现更精细的用户控制

    新型文本到图像生成技术GrounDiT:利用DiT实现了无需训练的空间定位能力,实现更精细的用户控制

    韩国科学技术研究院推出新型文本到图像生成技术GrounDiT(GROUNDIT),它通过利用DiT实现了无需训练的空间定位能力,用于在文本到图像生成中实现更精细的用户控制。这项技术特别关注于在图像生成...
    新技术# GrounDiT# 文生图模型
    1年前
    04100
    Qwen3 MoE Fused:显著提升 Qwen3 推理速度的融合专家计算方案

    Qwen3 MoE Fused:显著提升 Qwen3 推理速度的融合专家计算方案

    Qwen3 MoE Fused 是一个面向 Qwen3 MoE 模型 的高性能推理优化项目,由开发者 woct0rdho 发起并实现。该项目通过重构 MoE(Mixture of Experts)中专...
    新技术# Qwen3 MoE Fused
    9个月前
    04090
    Video-T1:视频生成任务中引入测试时扩展(TTS)技术,以提升生成视频的质量和与文本提示的一致性

    Video-T1:视频生成任务中引入测试时扩展(TTS)技术,以提升生成视频的质量和与文本提示的一致性

    清华大学和腾讯的研究人员推出 Video-T1,在视频生成任务中引入测试时扩展(Test-Time Scaling, TTS)技术,以提升生成视频的质量和与文本提示的一致性。通过在推理阶段增加计算资源...
    新技术# TTS# Video-T1# 测试时扩展
    12个月前
    04090
    新型图生视频模型VidCRAFT3:能够同时控制相机运动、物体运动和光照方向

    新型图生视频模型VidCRAFT3:能够同时控制相机运动、物体运动和光照方向

    复旦大学、浙江大学、华为诺亚方舟实验室、西湖大学的研究人员推出新型高质量图像到视频生成模型VidCRAFT3 ,能够同时控制相机运动、物体运动和光照方向。它通过解耦这些视觉元素的控制,实现了对生成视频...
    新技术# VidCRAFT3# 视频生成
    1年前
    04090
    用于生成同步语音体态手势视频的框架 TANGO:把新的语音和已有的视频动作结合起来,生成高保真的、与语音同步的身体手势视频

    用于生成同步语音体态手势视频的框架 TANGO:把新的语音和已有的视频动作结合起来,生成高保真的、与语音同步的身体手势视频

    东京大学和Cyber​​Agent 人工智能实验室的研究人员推出了一个用于生成同步语音体态手势视频的框架 TANGO,它可以从一个几分钟长的参考视频(里面有一个说话者的身体动作)和目标语音音频出发,生...
    新技术# TANGO# 同步语音体态手势
    1年前
    04070
    图像超分辨率技术InvSR:基于扩散反转(Diffusion Inversion)来提高图像的分辨率

    图像超分辨率技术InvSR:基于扩散反转(Diffusion Inversion)来提高图像的分辨率

    南洋理工大学(NTU)S-Lab提出了一种新的图像超分辨率(Super-Resolution, SR)技术——InvSR,旨在利用大型预训练扩散模型中封装的丰富图像先验来提高SR性能。传统的超分辨率方...
    新技术# InvSR# 图像超分辨率
    1年前
    04060
    ParaAttention:通过上下文并行注意力机制,使用多个GPU加速FLUX和Mochi模型的推理

    ParaAttention:通过上下文并行注意力机制,使用多个GPU加速FLUX和Mochi模型的推理

    ParaAttention是一种创新的上下文并行注意力机制,旨在通过多个GPU加速FLUX和Mochi模型的推理。通过支持torch.compile和多种并行策略,ParaAttention提供了高效...
    新技术# ParaAttention# 推理加速
    1年前
    04060
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    OpenMAIC

    新OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    查看完整榜单