SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜
    • 网址提交

    模型

    共 1050 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    STARFlow-V:苹果推出标准化流视频生成模型,挑战扩散模型主流地位

    STARFlow-V:苹果推出标准化流视频生成模型,挑战扩散模型主流地位

    苹果最新发布的 STARFlow-V 为视频生成领域带来了全新技术路径——作为一款基于标准化流(Normalizing Flows)的端到端模型,它打破了当前扩散模型主导的格局,凭借全局-局部架构、因...
    视频模型# STARFlow-V# 流视频生成模型# 苹果
    1个月前
    0560
    阶跃星辰开源Step-Audio-R1:首个支持测试时计算扩展的音频大语言模型,“越想越准”比肩Gemini 3

    阶跃星辰开源Step-Audio-R1:首个支持测试时计算扩展的音频大语言模型,“越想越准”比肩Gemini 3

    阶跃星辰开源的 Step-Audio-R1 打破了传统音频模型的性能瓶颈,成为首个支持“测试时计算扩展”的音频大语言模型。它通过创新的模态落地推理蒸馏技术,让模型直接基于声学特征进行链式思考,而非依赖...
    语音模型# Step-Audio-R1# 阶跃星辰
    1个月前
    0390
    Mistral AI正式发布Mistral 3系列模型:开源多模态模型家族,覆盖从边缘到企业级场景

    Mistral AI正式发布Mistral 3系列模型:开源多模态模型家族,覆盖从边缘到企业级场景

    Mistral AI 正式推出新一代模型系列 Mistral 3,此次发布不仅包含适配边缘场景的 Ministral 3 系列小型密集模型,更带来了性能顶尖的稀疏专家混合模型 Mistral Larg...
    多模态模型# Mistral 3# Mistral AI# Mistral Large 3
    1个月前
    0360
    阿里开源Ovis-Image:7B 参数实现高质量文本渲染的文生图模型,海报 / UI 设计秒生成

    阿里开源Ovis-Image:7B 参数实现高质量文本渲染的文生图模型,海报 / UI 设计秒生成

    Ovis-Image 是由阿里巴巴国际数字商务团队开发的 70亿参数 文本到图像(Text-to-Image)生成模型,专注于解决文生图系统中长期存在的文本模糊、拼写错误、排版失真等痛点。该模型在保持...
    图像模型# Ovis-Image# 文生图模型
    1个月前
    02130
    阿里开源Marco-Voice:说话人-情感独立调控,语音克隆相似度0.8275碾压同类

    阿里开源Marco-Voice:说话人-情感独立调控,语音克隆相似度0.8275碾压同类

    阿里巴巴国际数字商务团队推出的开源语音合成框架 Marco-Voice,以“说话人-情感解耦”为核心创新,整合语音克隆、情感可控合成、跨语言生成三大功能,构建了统一且高效的文本转语音系统。该框架通过批...
    语音模型# Marco-Voice# TTS
    1个月前
    0270
    DeepSeek V3.2正式发布:推理能力追平GPT-5,首个思考+工具调用开源模型

    DeepSeek V3.2正式发布:推理能力追平GPT-5,首个思考+工具调用开源模型

    经过两个多月测试,DeepSeek 正式推出 V3.2 系列模型,包括平衡型主力版本 DeepSeek V3.2 与极致推理增强版 DeepSeek V3.2 Speciale。前者以“推理能力不逊 ...
    大语言模型早报# DeepSeek V3.2
    1个月前
    0820
    字节跳动发布Vidi2:攻克细粒度时空定位,视频检索性能领先GPT - 5

    字节跳动发布Vidi2:攻克细粒度时空定位,视频检索性能领先GPT - 5

    字节跳动智能创作团队推出的第二代多模态视频模型Vidi2,凭借在时空定位、时间检索和视频问答三大核心能力上的突破,打破了传统视频模型在长视频理解和精细交互上的局限。该模型不仅在核心任务中实现对Gemi...
    多模态模型# Vidi2# 多模态视频模型# 字节跳动
    1个月前
    0910
    Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

    Meta AI发布SAM 3:支持文本/图像双提示,图像视频分割性能翻

    Meta 近日推出 Segment Anything 系列新一代模型——SAM 3,首次实现文本、图像示例双提示驱动的开放式概念分割,可精准识别并分割“带红色条纹的雨伞”等细粒度概念,在图像与视频分割...
    多模态模型# Meta AI# SAM 3# 分割模型
    1个月前
    0180
    Meta AI发布SAM 3D:单图生成3D模型,开源全工具链+商业落地同步推进

    Meta AI发布SAM 3D:单图生成3D模型,开源全工具链+商业落地同步推进

    Meta AI近日推出 Segment Anything 模型家族的全新成员——SAM 3D,这是首个具备常识级 3D 理解能力的模型,可直接将普通 2D 照片转化为细节丰富的 3D 重建结果。此次发...
    3D模型# Meta AI# SAM 3D
    1个月前
    0320
    SteadyDancer:用 I2V 范式解决首帧失真,生成身份一致的高保真人像动画

    SteadyDancer:用 I2V 范式解决首帧失真,生成身份一致的高保真人像动画

    人体图像动画技术迎来颠覆性突破!南京大学、腾讯与上海AI实验室联合推出的SteadyDancer框架,通过彻底摒弃传统参考图到视频(R2V)范式,转向图像到视频(I2V)全新思路,从根源上解决了长期困...
    视频模型# SteadyDancer
    1个月前
    0990
    685B参数DeepSeekMath-V2开源!IMO/CMO金牌+Putnam近满分,颠覆数学推理范式

    685B参数DeepSeekMath-V2开源!IMO/CMO金牌+Putnam近满分,颠覆数学推理范式

    数学推理领域迎来里程碑式突破!DeepSeek AI 正式发布开源数学模型 DeepSeekMath-V2,这款基于 685B 参数专家混合(MoE)架构的模型,不仅在 IMO 2025、CMO 20...
    大语言模型# DeepSeek# DeepSeekMath-V2# 深度求索
    1个月前
    0230
    阿里通义发布Z-Image-Turbo:60 亿参数高效图像模型,支持中英双语文本渲染与亚秒级生成

    阿里通义发布Z-Image-Turbo:60 亿参数高效图像模型,支持中英双语文本渲染与亚秒级生成

    在图像生成模型多依赖“大参数堆料”的行业趋势下,阿里通义MAX项目组推出的Z-Image,以60亿参数的轻量化体量实现了颠覆性突破。这款通过系统性优化打造的图像生成基础模型,不仅在照片级真实感生成、中...
    图像模型# Z-Image-Turbo
    1个月前
    02350
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    Gemini 无损去水印工具

    Gemini 无损去水印工具

    Gemini 图片去水印工具是一款专为 Gemini 生成图片 设计的去水印工具,完全运行在浏览器中,不依赖任何服务器或 AI 模型,而是采用数学上精确的反向 Alpha 混合算法,直接还原水印覆盖区域的原始像素。
    Fast Note Sync For Obsidian

    Fast Note Sync For Obsidian

    Fast Note Sync 是一套专注于 Obsidian 用户的私有化笔记同步与备份解决方案,由客户端插件(Fast Note Sync for Obsidian)和服务端(Fast Note Sync Service)组成。它不依赖第三方云服务,支持 Mac、Windows、Android、iOS 全平台,提供实时同步、附件支持、配置同步与版本历史,且全部数据由用户自主掌控。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    查看完整榜单