SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1182 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    STARFlow-V:苹果推出标准化流视频生成模型,挑战扩散模型主流地位

    STARFlow-V:苹果推出标准化流视频生成模型,挑战扩散模型主流地位

    苹果最新发布的 STARFlow-V 为视频生成领域带来了全新技术路径——作为一款基于标准化流(Normalizing Flows)的端到端模型,它打破了当前扩散模型主导的格局,凭借全局-局部架构、因...
    视频模型# STARFlow-V# 流视频生成模型# 苹果
    4个月前
    0940
    阶跃星辰开源Step-Audio-R1:首个支持测试时计算扩展的音频大语言模型,“越想越准”比肩Gemini 3

    阶跃星辰开源Step-Audio-R1:首个支持测试时计算扩展的音频大语言模型,“越想越准”比肩Gemini 3

    阶跃星辰开源的 Step-Audio-R1 打破了传统音频模型的性能瓶颈,成为首个支持“测试时计算扩展”的音频大语言模型。它通过创新的模态落地推理蒸馏技术,让模型直接基于声学特征进行链式思考,而非依赖...
    语音模型# Step-Audio-R1# 阶跃星辰
    4个月前
    0460
    Mistral AI正式发布Mistral 3系列模型:开源多模态模型家族,覆盖从边缘到企业级场景

    Mistral AI正式发布Mistral 3系列模型:开源多模态模型家族,覆盖从边缘到企业级场景

    Mistral AI 正式推出新一代模型系列 Mistral 3,此次发布不仅包含适配边缘场景的 Ministral 3 系列小型密集模型,更带来了性能顶尖的稀疏专家混合模型 Mistral Larg...
    多模态模型# Mistral 3# Mistral AI# Mistral Large 3
    4个月前
    01140
    阿里开源Ovis-Image:7B 参数实现高质量文本渲染的文生图模型,海报 / UI 设计秒生成

    阿里开源Ovis-Image:7B 参数实现高质量文本渲染的文生图模型,海报 / UI 设计秒生成

    Ovis-Image 是由阿里巴巴国际数字商务团队开发的 70亿参数 文本到图像(Text-to-Image)生成模型,专注于解决文生图系统中长期存在的文本模糊、拼写错误、排版失真等痛点。该模型在保持...
    图像模型# Ovis-Image# 文生图模型
    4个月前
    02450
    阿里开源Marco-Voice:说话人-情感独立调控,语音克隆相似度0.8275碾压同类

    阿里开源Marco-Voice:说话人-情感独立调控,语音克隆相似度0.8275碾压同类

    阿里巴巴国际数字商务团队推出的开源语音合成框架 Marco-Voice,以“说话人-情感解耦”为核心创新,整合语音克隆、情感可控合成、跨语言生成三大功能,构建了统一且高效的文本转语音系统。该框架通过批...
    语音模型# Marco-Voice# TTS
    4个月前
    0580
    DeepSeek V3.2正式发布:推理能力追平GPT-5,首个思考+工具调用开源模型

    DeepSeek V3.2正式发布:推理能力追平GPT-5,首个思考+工具调用开源模型

    经过两个多月测试,DeepSeek 正式推出 V3.2 系列模型,包括平衡型主力版本 DeepSeek V3.2 与极致推理增强版 DeepSeek V3.2 Speciale。前者以“推理能力不逊 ...
    大语言模型早报# DeepSeek V3.2
    4个月前
    02180
    字节跳动发布Vidi2:攻克细粒度时空定位,视频检索性能领先GPT - 5

    字节跳动发布Vidi2:攻克细粒度时空定位,视频检索性能领先GPT - 5

    字节跳动智能创作团队推出的第二代多模态视频模型Vidi2,凭借在时空定位、时间检索和视频问答三大核心能力上的突破,打破了传统视频模型在长视频理解和精细交互上的局限。该模型不仅在核心任务中实现对Gemi...
    多模态模型# Vidi2# 多模态视频模型# 字节跳动
    4个月前
    01890
    Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

    Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

    Meta 近日推出 Segment Anything 系列新一代模型——SAM 3,首次实现文本、图像示例双提示驱动的开放式概念分割,可精准识别并分割“带红色条纹的雨伞”等细粒度概念,在图像与视频分割...
    多模态模型# Meta AI# SAM 3# 分割模型
    4个月前
    0240
    Meta AI发布SAM 3D:单图生成3D模型,开源全工具链+商业落地同步推进

    Meta AI发布SAM 3D:单图生成3D模型,开源全工具链+商业落地同步推进

    Meta AI近日推出 Segment Anything 模型家族的全新成员——SAM 3D,这是首个具备常识级 3D 理解能力的模型,可直接将普通 2D 照片转化为细节丰富的 3D 重建结果。此次发...
    3D模型# Meta AI# SAM 3D
    4个月前
    0910
    SteadyDancer:用 I2V 范式解决首帧失真,生成身份一致的高保真人像动画

    SteadyDancer:用 I2V 范式解决首帧失真,生成身份一致的高保真人像动画

    人体图像动画技术迎来颠覆性突破!南京大学、腾讯与上海AI实验室联合推出的SteadyDancer框架,通过彻底摒弃传统参考图到视频(R2V)范式,转向图像到视频(I2V)全新思路,从根源上解决了长期困...
    视频模型# SteadyDancer
    4个月前
    01250
    685B参数DeepSeekMath-V2开源!IMO/CMO金牌+Putnam近满分,颠覆数学推理范式

    685B参数DeepSeekMath-V2开源!IMO/CMO金牌+Putnam近满分,颠覆数学推理范式

    数学推理领域迎来里程碑式突破!DeepSeek AI 正式发布开源数学模型 DeepSeekMath-V2,这款基于 685B 参数专家混合(MoE)架构的模型,不仅在 IMO 2025、CMO 20...
    大语言模型# DeepSeek# DeepSeekMath-V2# 深度求索
    4个月前
    0300
    阿里通义发布Z-Image-Turbo:60 亿参数高效图像模型,支持中英双语文本渲染与亚秒级生成

    阿里通义发布Z-Image-Turbo:60 亿参数高效图像模型,支持中英双语文本渲染与亚秒级生成

    在图像生成模型多依赖“大参数堆料”的行业趋势下,阿里通义MAX项目组推出的Z-Image,以60亿参数的轻量化体量实现了颠覆性突破。这款通过系统性优化打造的图像生成基础模型,不仅在照片级真实感生成、中...
    图像模型# Z-Image-Turbo
    4个月前
    03490
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    悟空

    新悟空

    阿里巴巴发布全球首个企业级AI原生工作平台——“悟空”,让每个团队、每家公司,都能拥有一支24h工作的“龙虾军团”。悟空是一款独立应用,即日起开启邀测,也将直接内置到超2000万企业组织的钉钉之中。
    OpenMAIC

    新OpenMAIC

    OpenMAIC是一个开源的 AI 互动课堂平台,能够将任何主题或文档转化为丰富的互动学习体验。基于多智能体协作引擎,它可以自动生成演示幻灯片、测验、交互式模拟实验和项目制学习活动——由 AI 教师和 AI 同学进行语音讲解、白板绘图,并与你展开实时讨论。内置 OpenClaw 集成,你还可以直接在飞书、Slack、Telegram 等聊天应用中生成课堂。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    Yihen-Drama

    Yihen-Drama

    Yihen-Drama 是一个专为 AI 短剧创作 打造的全流程一站式平台。它打破了传统视频制作的壁垒,将复杂的影视工业化流程浓缩为一条流畅的自动化流水线。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    查看完整榜单