SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    新技术

    共 958 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    教程新技术硬件科普早报
    排序
    发布更新浏览点赞
    新型AI模型PT-DiT:针对文本到任意任务(如文本到图像、文本到视频等)的高效能扩散变换器

    新型AI模型PT-DiT:针对文本到任意任务(如文本到图像、文本到视频等)的高效能扩散变换器

    中山大学 & 360人工智能研究院的研究人员推出一种新的人工智能模型PT-DiT,它是一种针对文本到任意任务(如文本到图像、文本到视频等)的高效能扩散变换器。这个模型特别关注于提高计算效率,减...
    新技术# PT-DiT# Qihoo-T2X
    2年前
    06150
    子对象级图像标记化:用于计算机视觉模型的图像处理

    子对象级图像标记化:用于计算机视觉模型的图像处理

    来自香港科技大学与小冰AI的研究人员推出名为“子对象级图像标记化”(subobject-level image tokenization)的新方法,这是一种用于计算机视觉模型的图像处理技术。这种方法受...
    新技术# 子对象级图像标记化
    2年前
    06150
    diffusion-e2e-ft:通过微调图像条件扩散模型来简化和提高单目深度估计的效率

    diffusion-e2e-ft:通过微调图像条件扩散模型来简化和提高单目深度估计的效率

    亚琛工业大学和埃因霍温理工大学的研究人员推出diffusion-e2e-ft,通过微调图像条件扩散模型来简化和提高单目深度估计的效率。单目深度估计是指仅使用一张图片来预测场景中每个像素的深度信息。这项...
    新技术# diffusion-e2e-ft# 单目深度估计
    2年前
    06130
    3D场景编辑方法ReplaceAnything3D(RAM3D):通过文本提示在3D场景中替换特定的物体

    3D场景编辑方法ReplaceAnything3D(RAM3D):通过文本提示在3D场景中替换特定的物体

    来自Meta、伦敦大学的研究人员推出一种基于文本引导的3D场景编辑方法ReplaceAnything3D(RAM3D),它允许用户通过文本提示在3D场景中替换特定的物体。这种方法结合了预训练的文本引导...
    新技术# 3D场景编辑# RAM3D# ReplaceAnything3D
    2年前
    06130
    图上下文感知扩散模型InstructG2I:根据多模态属性图(MMAGs)生成图像

    图上下文感知扩散模型InstructG2I:根据多模态属性图(MMAGs)生成图像

    多模态属性图(MMAGs)作为一种强大的数据结构,能够以图的形式表示实体之间的关系,节点中包含图像和文本信息。尽管 MMAGs 在图像生成中具有多功能性,但它们受到的关注相对较少。这是因为 MMAGs...
    新技术# InstructG2I# 多模态属性图
    1年前
    06120
    新型图像到视频扩散模型TRIP:专注于将静态图像转换为动态视频

    新型图像到视频扩散模型TRIP:专注于将静态图像转换为动态视频

    来自中国科学技术大学和HiDream.ai的研究人员推出新型图像到视频扩散模型TRIP(Temporal Residual Learning with Image noise Prior),它专注于将...
    新技术# TRIP# 图生视频
    2年前
    06120
    AI音乐模型Stable Audio:结合文本提示和时间控制长音频生成

    AI音乐模型Stable Audio:结合文本提示和时间控制长音频生成

    Stability AI发布AI音乐模型Stable Audio,它专注于从文本提示生成高质量、可变长度的立体声音乐和音效。这个模型特别适用于需要快速生成长形式音频内容的场景,如音乐制作、游戏音效设计...
    新技术# AI音乐# Stability AI# Stable Audio
    2年前
    06120
    字节跳动推出新颖视频合成方法Boximator:可控制画面范围及运动方向

    字节跳动推出新颖视频合成方法Boximator:可控制画面范围及运动方向

    字节跳动发布了一种新颖视频合成方法Boximator,主要用于生成具有丰富和精细运动控制的高质量视频。Boximator引入了两种约束类型:硬边框(hard box)和软边框(soft box),允许...
    新技术# Boximator# 字节跳动# 视频合成
    2年前
    06120
    混合数据专家MoDE:通过聚类方法来提升对比语言-图像预训练(CLIP)的性能

    混合数据专家MoDE:通过聚类方法来提升对比语言-图像预训练(CLIP)的性能

    来自Meta、哥伦比亚大学、纽约大学和华盛顿大学的研究人员推出机器学习系统MoDE(Mixture of Data Experts,混合数据专家),它通过聚类方法来提升对比语言-图像预训练(CLIP...
    新技术# CLIP# MoDE# 混合数据专家
    2年前
    06110
    文本编码器Glyph-ByT5:为提高视觉文本渲染的准确性而设计

    文本编码器Glyph-ByT5:为提高视觉文本渲染的准确性而设计

    来自微软亚洲研究院、清华大学、北京大学和澳大利亚国立大学的研究团队推出文本编码器Glyph-ByT5,它是为了提高视觉文本渲染的准确性而设计的。Glyph-ByT5通过微调一个字符感知的ByT5编码器...
    新技术# Glyph-ByT5# 文本编码器
    2年前
    06100
    TTT-Video:通过引入 Test-Time Training(TTT)层,成功让DiT 模型能够从文本故事板生成长达一分钟的视频

    TTT-Video:通过引入 Test-Time Training(TTT)层,成功让DiT 模型能够从文本故事板生成长达一分钟的视频

    英伟达联合斯坦福大学、加州大学圣地亚哥分校、加州大学伯克利分校和德克萨斯大学奥斯汀分校的研究人员,通过引入 Test-Time Training(TTT)层,成功让预训练的 DiT 模型能够从文本故事...
    新技术# CogVideoX-5B# DiT 模型# TTT-Video
    11个月前
    06080
    条件对比对齐CCA:提升自回归(AR)视觉生成模型的样本质量

    条件对比对齐CCA:提升自回归(AR)视觉生成模型的样本质量

    无分类器引导(CFG)是提高视觉生成模型样本质量的关键技术。然而,在自回归(AR)多模态生成中,CFG 在语言和视觉内容之间引入了设计不一致性,这与统一不同模态的视觉 AR 设计理念相矛盾。受语言模型...
    新技术# CCA# 条件对比对齐# 视觉生成模型
    1年前
    06080
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    Loomy

    新Loomy

    科大讯飞正式发布基于AstronClaw打造的桌面AI助理Loomy。Loomy面向本地办公场景,支持文件整理、内容创作、数据分析、网页操作、邮件处理等多步骤任务自动执行。
    ArkClaw

    ArkClaw

    字节旗下火山引擎正式上线 ArkClaw, 开箱即用的云上 SaaS 版 OpenClaw。无需任何复杂配置,打开网页即可使用 7×24 小时在线的 AI 助手。
    360 安全龙虾

    新360 安全龙虾

    60安全龙虾目前已接入16家国内主流大模型,覆盖文本生成、编程开发、多模态创作等多种能力。同时内置100余个高频技能,可直接用于文档生成、数据分析、PPT制作、会议转写等常见办公场景。
    Joker of Academics(小丑学术期刊 )

    Joker of Academics(小丑学术期刊 )

    Joker 🤡 of Academics(小丑学术期刊 ) 是一本完全经过同行评审的开放获取期刊,致力于严肃研究非严肃的学术成果。我们发表敢于风趣的严谨研究、不知何故居然行得通的荒诞主义方法论,以及应用于可能并不需要它的领域的批判理论。
    查看完整榜单