SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1189 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Lumina-Accessory:专为 Lumina 系列模型设计的多任务指令微调框架

    Lumina-Accessory:专为 Lumina 系列模型设计的多任务指令微调框架

    Lumina-Accessory 是一个专为 Lumina 系列模型设计的多任务指令微调框架,目前支持 Lumina-Image-2.0。该框架通过一系列创新设计,为图像生成和编辑任务提供了强大的支持...
    图像模型# Lumina-Accessory# Lumina-Image 2.0# 图像生成
    11个月前
    03880
    新型3D部件非模态分割模型HoloPart:将3D形状分解为完整的、语义上有意义的部件

    新型3D部件非模态分割模型HoloPart:将3D形状分解为完整的、语义上有意义的部件

    香港大学和VAST的研究人员推出新型3D部件非模态分割模型HoloPart 。该模型旨在将3D形状分解为完整的、语义上有意义的部件,即使这些部件被部分或完全遮挡。这一任务被称为 3D部件非模态分割,是...
    3D模型# 3D部件非模态分割模型# HoloPart
    11个月前
    05290
    Nari Labs开源TTS模型Dia-1.6B:生成自然对话与非语言表达,支持声音克隆

    Nari Labs开源TTS模型Dia-1.6B:生成自然对话与非语言表达,支持声音克隆

    Nari Labs在今天开源了一个拥有16亿参数的文本转语音模型Dia-1.6B。这个模型的最大亮点在于它能够生成高度逼真的对话,并且加入了自然人声元素,比如笑声、咳嗽、清喉咙等,让语音合成更加生动自...
    语音模型# Dia-1.6B# Nari Labs# TTS模型
    11个月前
    02,2400
    Sand AI推出新型视频生成模型MAGI-1:通过自回归预测视频块序列来生成视频

    Sand AI推出新型视频生成模型MAGI-1:通过自回归预测视频块序列来生成视频

    MAGI-1是由Sand AI研究团队开发的一种新型视频生成模型。该模型通过自回归预测视频块序列来生成视频,每个视频块由固定长度的连续帧组成。MAGI-1的核心目标是实现高保真、实时、因果一致的视频生...
    视频模型# MAGI-1# Sand AI# 自回归
    11个月前
    07600
    昆仑万维推出SkyReels-V2:首个基于扩散强制框架的无限长度电影生成模型

    昆仑万维推出SkyReels-V2:首个基于扩散强制框架的无限长度电影生成模型

    近年来,视频生成领域取得了显著进展,主要得益于扩散模型和自回归框架的推动。然而,这一领域仍面临诸多关键挑战,例如提示一致性、视觉质量、动态效果和视频时长之间的权衡。为了追求更高的视觉质量,许多模型不得...
    视频模型# SkyReels-V2# 昆仑万维# 视频生成模型
    11个月前
    04360
    FLUX.1-dev-ControlNet-Union-Pro-2.0 FP8 量化版本:降低对于显存的需求

    FLUX.1-dev-ControlNet-Union-Pro-2.0 FP8 量化版本:降低对于显存的需求

    近期Shakker Labs发布了FLUX.1-dev-ControlNet-Union-Pro-2.0,但原版模型对于显存要求过高,于是就有开发者推出了FP8 量化版本。这不是一个经过微调的模型,而...
    图像模型# FLUX.1-dev-ControlNet-Union-Pro-2.0# FP8 量化版本# Shakker Labs
    11个月前
    07050
    字节跳动推出多模态大语言模型ChatTS:专门用于时间序列分析

    字节跳动推出多模态大语言模型ChatTS:专门用于时间序列分析

    清华大学和字节跳动的研究人员推出多模态大语言模型ChatTS ,专门用于时间序列分析。它通过自然语言命令帮助用户快速理解时间序列数据,执行日常任务,并处理复杂的推理问题。ChatTS 的核心优势在于其...
    多模态模型# ChatTS# 多模态大语言模型# 字节跳动
    11个月前
    02730
    MAI-DS-R1:微软团队基于DeepSeek-R1 推理模型进行后训练的版本

    MAI-DS-R1:微软团队基于DeepSeek-R1 推理模型进行后训练的版本

    MAI-DS-R1 是一个由微软 AI 团队对 DeepSeek-R1 推理模型进行后训练的版本,提升其对受限话题的响应能力并改善其风险状况,同时保持推理能力和竞争力。简单来说就是把欧美的偏见加进去...
    大语言模型# DeepSeek-R1# MAI-DS-R1# 微软
    11个月前
    03260
    谷歌发布量化感知训练(QAT)优化版 Gemma 3 模型Gemma 3 QAT

    谷歌发布量化感知训练(QAT)优化版 Gemma 3 模型Gemma 3 QAT

    谷歌昨日(4月18日)通过官方博文发布了量化感知训练(QAT)优化版的Gemma 3模型。这一版本在保持高质量输出的同时,显著降低了对硬件内存的需求,为本地部署和普通硬件用户带来了福音。 MLX 版本...
    大语言模型# Gemma 3# Gemma 3 QAT# 谷歌
    11个月前
    02150
    基于蒸馏的多功能图像生成模型DMM:通过蒸馏模型合并技术实现多功能图像生成

    基于蒸馏的多功能图像生成模型DMM:通过蒸馏模型合并技术实现多功能图像生成

    在文本到图像(Text-to-Image, T2I)生成领域,开发者通常会基于强大的基础模型(如Stable Diffusion 1.5)进行微调,以适应特定风格或场景的需求。例如,某些模型专注于生成...
    图像模型# DMM# 图像生成模型# 蒸馏模型
    11个月前
    02650
    微软发布20亿参数1-bit模型BitNet b1.58,性能超越主流LLM且更适合边缘设备

    微软发布20亿参数1-bit模型BitNet b1.58,性能超越主流LLM且更适合边缘设备

    本周,微软发布了全新的大语言模型家族——BitNet b1.58 LLM。这一系列模型采用了创新的1-bit架构,参数规模达到20亿(2B4T),是迄今为止最大的开源1-bit模型。研究团队表示,这种...
    大语言模型# BitNet b1.58# 微软
    11个月前
    04840
    对角蛇形扫描自回归图像生成框架DAR:用于生成高质量图像的新型自回归模型

    对角蛇形扫描自回归图像生成框架DAR:用于生成高质量图像的新型自回归模型

    传统的自回归图像生成方法(如VQGAN)通常按照光栅扫描(raster scan)顺序生成图像令牌。这种方式在行末换行时会导致相邻令牌之间的欧几里得距离过大,从而影响生成效果。例如,当生成一张256...
    图像模型# DAR# 自回归模型
    11个月前
    02720
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    悟空

    悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    OpenMAIC

    OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    OpenCut

    OpenCut

    OpenCut 是一款免费、开源的视频编辑器,覆盖网页、桌面和移动端全平台。它坚持“隐私优先”原则,确保你的视频数据永远保留在本地设备上,同时提供无水印、无订阅的高质量剪辑体验。
    Invisible Studio

    Invisible Studio

    Invisible Studio 不只是一个 AI 工具集,而是一个为短视频时代量身定制的生产操作系统。它融合了五年社交数据洞察、全球化动画经验与前沿生成式 AI 技术,为企业提供了一种可持续、可扩展、低风险的内容创作路径。
    ROMA

    ROMA

    ROMA 是一个元智能体框架,利用递归层次结构解决复杂问题。通过将任务分解为可并行化的组件,ROMA 使智能体能够应对复杂的推理挑战,同时保持透明性,使上下文工程和迭代变得简单。
    查看完整榜单