SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 948 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    基于人类与场景互动数据集Trumans开发的动作生成模型

    基于人类与场景互动数据集Trumans开发的动作生成模型

    来自北京大学人工智能研究院、BIGAI通用人工智能国家重点实验室、北京大学CFCS计算机学院和北京理工大学的研究团队创建一个详细的人类与场景互动数据集trumans,并开发出一种先进的动作生成模型,为...
    新技术# Trumans# 动作生成模型
    2年前
    01,0190
    新型图像生成模型Hourglass Diffusion Transformer(HDiT)

    新型图像生成模型Hourglass Diffusion Transformer(HDiT)

    Stability AI、慕尼黑大学和Birchlabs的开发人员提出了一种名为Hourglass Diffusion Transformer(HDiT)的新型图像生成模型,该模型在保持高分辨率图像合...
    新技术# HDiT# Stability AI# 图像生成模型
    2年前
    01,0130
    新型视频生成技术“CVD(协作视频扩散)”:生成从多个不同摄像机轨迹视角下观察同一场景的一致性视频

    新型视频生成技术“CVD(协作视频扩散)”:生成从多个不同摄像机轨迹视角下观察同一场景的一致性视频

    斯坦福大学和香港中文大学的研究人员推出新型视频生成技术“协作视频扩散”(Collaborative Video Diffusion,简称CVD),这项技术的核心目标是能够生成从多个不同摄像机轨迹视角下...
    新技术# CVD# 协作视频扩散# 视频生成
    2年前
    01,0120
    高效灵活的对象检测工具YOLO-World

    高效灵活的对象检测工具YOLO-World

    来自腾讯AI实验室、华中科技大学EIC学院的研究人员推出高效实时开放词汇对象检测框架YOLO-World,旨在通过视觉语言模型和大规模数据集的预训练,增强YOLO(You Only Look Once...
    新技术# YOLO-World# 对象检测工具# 腾讯AI实验室
    2年前
    01,0110
    大语言模型适配器ELLA:提升了文生图模型处理复杂描述的能力

    大语言模型适配器ELLA:提升了文生图模型处理复杂描述的能力

    腾讯推出大语言模型适配器(LLM Adapter)ELLA,无需 U-Net 或大语言模型训练,就可通过 ELLA ,为文生图模型增强文本对齐,解决大多数模型受限于 CLIP 本身对密集提示词的理解能...
    新技术# DPG-Bench# ELLA# TSC
    2年前
    01,0090
    英伟达推出新型文生图模型BlobGEN:基于blob(斑点)的文本到图像扩散模型

    英伟达推出新型文生图模型BlobGEN:基于blob(斑点)的文本到图像扩散模型

    英伟达推出新型文生图模型BlobGEN,这个模型的核心思想是将场景分解为视觉原语——被称为密集的blob(斑点)表示——这些表示包含了场景的细粒度细节,同时具备模块化、易于理解和构建的特点。例如,一个...
    新技术# BlobGEN# 文生图模型# 英伟达
    2年前
    01,0030
    视觉语言模型CoLLaVO:提高视觉语言模型在零样本视觉语言任务中的性能

    视觉语言模型CoLLaVO:提高视觉语言模型在零样本视觉语言任务中的性能

    韩国研究人员推出视觉语言模型CoLLaVO(Crayon Large Language and Vision mOdel),此模型旨在通过增强对象级别的图像理解能力,提高视觉语言模型(VLMs)在零样...
    新技术# CoLLaVO# 视觉语言模型
    2年前
    09970
    图像转换方法img2img-turbo:在单个步骤中完成复杂的图像转换任务,同时不需要成对的训练数据,适用于多种应用场景

    图像转换方法img2img-turbo:在单个步骤中完成复杂的图像转换任务,同时不需要成对的训练数据,适用于多种应用场景

    来自卡内基梅隆大学和Adobe的研究人员推出新的图像转换方法img2img-turbo,它能够在单个步骤中将图像从源域转换到目标域,例如从白天的场景转换到夜晚,或者添加和移除天气效果如雾、雪和雨。这种...
    新技术# img2img-turbo# 图像转换
    2年前
    09900
    创新框架UniAnimate:用于生成高质量、时间连贯的人类图像动画视频

    创新框架UniAnimate:用于生成高质量、时间连贯的人类图像动画视频

    华中科技大学、 阿里巴巴和中国科学技术大学的研究人员推出创新框架UniAnimate,它专门用于生成高质量、时间连贯的人类图像动画视频。UniAnimate通过结合统一的视频扩散模型、统一的噪声输入和...
    新技术# UniAnimate# 视频扩散模型
    2年前
    09890
    腾讯音乐娱乐推出开源虚拟人视频生成框架MusePose

    腾讯音乐娱乐推出开源虚拟人视频生成框架MusePose

    腾讯音乐娱乐旗下天琴实验室推出开源虚拟人视频生成框架MusePose,MusePose 是 Muse 开源系列的最后一个组件,与 MuseV 和 MuseTalk 一起,标志着向构建端到端虚拟人物生成...
    新技术# MusePose# 虚拟人
    2年前
    09850
    后训练压缩策略DiTFastAttn:压缩和加速DiT模型,缓解DiT的计算瓶颈问题

    后训练压缩策略DiTFastAttn:压缩和加速DiT模型,缓解DiT的计算瓶颈问题

    来自清华大学、无问芯穹(Infinigence AI)、卡内基梅隆大学和上海交通大学的研究人员推出新技术DiTFastAttn,它专门用于压缩和加速一种称为Diffusion Transformers...
    新技术# DiTFastAttn# DiT模型
    2年前
    09690
    改进图像生成技术DMD2:通过高效的一步生成模型来加速图像生成过程,同时保持或甚至超越原始模型的质量

    改进图像生成技术DMD2:通过高效的一步生成模型来加速图像生成过程,同时保持或甚至超越原始模型的质量

    麻省理工学院和 Adob​​e 研究中心的研究人员推出DMD2(Distribution Matching Distillation的改进版),这是一种改进图像合成技术,特别是针对大语言模型在图像生成...
    新技术# DMD2# 图像合成
    2年前
    09660
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenCloud

    OpenCloud

    OpenCloud 是海因莱因集团的文件共享与协作解决方案。通过智能文件管理和强大的开源社区,文件将转变为宝贵的资源,被有效地组织和长期使用。借助灵活的数据空间和智能权限管理,团队可以随时随地无障碍地访问数据并协同工作,从而大幅提升生产力。
    NanoClaw

    NanoClaw

    NanoClaw是个人 Claude 助手,可在容器中安全运行,一款轻量级助手,专为便于理解和按需自定义而构建。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    纳米漫剧流水线

    纳米漫剧流水线

    国内首个工业级 AI 漫剧智能体生产平台 ——“纳米漫剧流水线” 启动公开测试。该平台面向漫剧工作室、视频制作机构与专业创作者,直击行业 “效率与品质难以兼顾” 的长期痛点,以高效量产、品质可控、风格统一为核心,正式开启 AI 漫剧工业化生产新时代。
    查看完整榜单