SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 962 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

    基于多模态token的新型基础模型MIO:能够以端到端、自回归的方式理解和生成语音、文本、图像和视频

    北京航空航天大学、01.AI、香港理工大学、AIWaves、阿尔伯塔大学、滑铁卢大学、曼彻斯特大学、中国科学院自动化研究所、北京大学和香港科技大学的研究人员推出一个基于多模态token的新型基础模型M...
    新技术# MIO# 多模态
    1年前
    06330
    新颖的图生视频方法PhysGen:能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频

    新颖的图生视频方法PhysGen:能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频

    伊利诺伊大学香槟分校推出一种新颖的图像到视频生成方法PhysGen,它能够将一张静态图片转换成一段真实感强、物理上可信、时间上连贯的视频。简单来说,就是给定一张图片,比如一个球在斜坡上,PhysGen...
    新技术# PhysGen# 图生视频
    1年前
    05300
    图像复制检测模型ICDiff:解决扩散模型生成图像的版权和原创性问题

    图像复制检测模型ICDiff:解决扩散模型生成图像的版权和原创性问题

    悉尼科技大学、百度和浙江大学的研究人员推出图像复制检测模型ICDiff,这是第一个专门针对扩散模型的ICD(图像复制检测)。为此,研究人员构建了一个扩散-复制(D-Rep)数据集,并相应地提出了一种新...
    新技术# ICDiff# PDF-Embedding# 图像复制检测
    1年前
    05890
    阿里巴巴Wanx 团队推出新型多模态生成模型ACE:可以根据文本指令来执行复杂的图像编辑和生成任务

    阿里巴巴Wanx 团队推出新型多模态生成模型ACE:可以根据文本指令来执行复杂的图像编辑和生成任务

    阿里巴巴Wanx 团队推出新型多模态生成模型ACE,这个模型的核心功能是处理和生成图像,但它与传统的图像处理工具不同,因为它可以根据文本指令来执行复杂的图像编辑和生成任务。例如,你是一名摄影师,你拍摄...
    新技术# ACE# 阿里巴巴
    1年前
    06690
    用于加速DiT模型的训练和推理过程的方法HarmoniCa

    用于加速DiT模型的训练和推理过程的方法HarmoniCa

    商汤科技研究院、北京航空航天大学、莫纳什大学和香港科技大学推出一种用于加速DiT模型的训练和推理过程的方法HarmoniCa,通过基于Step-Wise去噪训练(SDT)和图像错误代理引导目标(IEP...
    新技术# DiT模型# HarmoniCa
    1年前
    05420
    EmoKnob:允许在语音合成中对任意情感进行细粒度控制的框架

    EmoKnob:允许在语音合成中对任意情感进行细粒度控制的框架

    哥伦比亚大学的研究人员推出一个允许在语音合成中对任意情感进行细粒度控制的框架EmoKnob,它用于提升语音克隆技术,只需少量示 范样本,允许用户在语音合成中精细控制情感及其强度。简单来说,EmoKno...
    新技术# EmoKnob# 语音克隆
    1年前
    08170
    高效且精确的注意力机制量化方法SageAttention:加速大语言处理、图像生成和视频生成模型

    高效且精确的注意力机制量化方法SageAttention:加速大语言处理、图像生成和视频生成模型

    清华大学的研究人员推出一种高效且精确的注意力机制量化方法SageAttention,此方法的OPS(每秒操作数)性能分别比FlashAttention2和xformers提高了约2.1倍和2.7倍。S...
    新技术# SageAttention# 注意力机制
    1年前
    07040
    新型视频生成模型Loong:基于自回归大语言模型,能够生成长达一分钟的连贯、内容丰富的视频

    新型视频生成模型Loong:基于自回归大语言模型,能够生成长达一分钟的连贯、内容丰富的视频

    香港大学和字节跳动的研究人员推出新型视频生成模型Loong,它基于自回归大语言模型(LLMs),能够生成长达一分钟的连贯、内容丰富的视频。这在视频生成领域是一个挑战,因为视频通常包含大量的帧,每帧都需...
    新技术# Loong# 自回归大语言模型
    1年前
    05460
    苹果推出新预训练方法CLOC:提升图像和文本表示的预训练效果,特别是在局部区域的语义理解方面

    苹果推出新预训练方法CLOC:提升图像和文本表示的预训练效果,特别是在局部区域的语义理解方面

    苹果推出新预训练方法CLOC(对比定位语言-图像预训练),旨在提升图像和文本表示的预训练效果,特别是在局部区域的语义理解方面。CLOC模型可以生成高分辨率、细节丰富的深度图,这些深度图不仅包含整体图像...
    新技术# CLOC# 对比定位语言-图像预训练# 苹果
    1年前
    05190
    苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro

    苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro

    苹果推出一个用于零样本度量单目深度估计的基础模型Depth Pro,它用于提高单目深度估计的准确性和细节表现。单目深度估计是指仅使用一个摄像头拍摄的单张图片来预测场景中每个像素的深度信息。例如,你用手...
    新技术# Depth Pro# 苹果
    1年前
    04680
    自适应投影引导APG:不牺牲图像质量的前提下,使用更高的指导尺度,从而生成更丰富、更真实的图像

    自适应投影引导APG:不牺牲图像质量的前提下,使用更高的指导尺度,从而生成更丰富、更真实的图像

    苏黎世联邦理工学院和迪士尼研究的研究人员推出自适应投影引导(APG),保留了CFG提高质量的优势,同时允许使用更高的引导比例而不产生过饱和。APG易于实现,并且实际上不会给采样过程带来额外的计算开销...
    新技术# APG# 自适应投影引导
    1年前
    04870
    基于ComfyUI的ComfyGen:用于文本到图像生成的提示自适应工作流

    基于ComfyUI的ComfyGen:用于文本到图像生成的提示自适应工作流

    英伟达和特拉维夫大学的研究人员推出新型文生图系统ComfyGen,此系统能够根据用户提供的文本提示(prompt),自动选择或生成最适合该提示的图像生成工作流。研究团队引入了一个新颖的任务——提示自适...
    新技术# ComfyGen# ComfyUI# 工作流
    1年前
    07650
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    悟空

    悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    DuMate

    新DuMate

    DuMate是百度推出一款面向个人及团队的桌面级AI智能体,可以看见屏幕、操作软件、处理文件、串联业务系统——实现从"想法"到"结果"全程自动化执行,让用户从重复的日常工作中解放,聚焦核心业务与高价值思考,真正实现 “工作有搭子,办公更高效”。
    360 安全龙虾

    360 安全龙虾

    60安全龙虾目前已接入16家国内主流大模型,覆盖文本生成、编程开发、多模态创作等多种能力。同时内置100余个高频技能,可直接用于文档生成、数据分析、PPT制作、会议转写等常见办公场景。
    查看完整榜单