SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜
    • 网址提交

    模型

    共 1051 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    Mistral AI 发布 Magistral Small 1.2:支持视觉输入的小型高效开源推理模型

    Mistral AI 发布 Magistral Small 1.2:支持视觉输入的小型高效开源推理模型

    法国AI初创公司 Mistral AI 本周正式发布并开源其小型语言模型的新版本 —— Magistral Small 1.2。该模型在前代基础上全面升级,不仅提升了数学与编程任务的基准表现,还首次引...
    多模态模型# Magistral Small 1.2# Mistral AI
    4个月前
    02130
    蚂蚁集团开源 Ring-flash-2.0:高效 MoE 架构下的高性能思考模型

    蚂蚁集团开源 Ring-flash-2.0:高效 MoE 架构下的高性能思考模型

    蚂蚁集团正式宣布开源 Ring-flash-2.0 ——一款基于 MoE(混合专家)架构的高性能“思考型”大语言模型。该模型总参数量达 100B,但在每次推理时仅激活 6.1B 参数(其中非嵌入部分约...
    大语言模型# Ring-flash-2.0# 蚂蚁集团
    4个月前
    02540
    小米发布 MiMo-Audio:基于亿级小时预训练的开源音频语言模型

    小米发布 MiMo-Audio:基于亿级小时预训练的开源音频语言模型

    小米近日正式推出 MiMo-Audio ——一个统一的生成式音频-语言模型,支持跨模态语音理解与生成任务。该模型通过超过一亿小时的大规模预训练,实现了强大的少样本学习能力,能够在无需微调的情况下,仅凭...
    语音模型# MiMo-Audio# 小米# 音频语言模型
    4个月前
    01930
    DecartAI推出 Lucy Edit Dev:全球首个开源、支持自由文本提示的指令引导视频编辑模型

    DecartAI推出 Lucy Edit Dev:全球首个开源、支持自由文本提示的指令引导视频编辑模型

    DecartAI推出 Lucy Edit Dev ——全球首个开源、支持自由文本提示的指令引导视频编辑模型。它允许用户仅通过自然语言描述,即可完成复杂的视频修改任务,如更换服装、替换角色、插入物体或更...
    视频模型# Lucy Edit Dev# 视频编辑模型
    4个月前
    02730
    Moondream 团队推出 Moondream 3 预览版本:轻量架构下的高性能视觉推理模型

    Moondream 团队推出 Moondream 3 预览版本:轻量架构下的高性能视觉推理模型

    Moondream 团队正式推出 Moondream 3 的预览版本——一款基于 9B 参数稀疏混合专家(MoE)架构的新模型,实际激活参数仅为 2B。它在保持极快推理速度和低运行成本的同时,实现了接...
    多模态模型# Moondream 3# 视觉推理模型
    4个月前
    04600
    Wan-Animate:阿里通义实验室推出的统一人物动画与替换框架

    Wan-Animate:阿里通义实验室推出的统一人物动画与替换框架

    阿里巴巴通义实验室 HumanAIGC 团队近日将推出 Wan-Animate —— 一个基于 Wan 系列模型构建的统一人物动画与角色替换框架。 项目主页:https://humanaigc.git...
    视频模型# Wan-Animate# 阿里通义实验室
    4个月前
    01560
    IBM 推出 Granite Docling:专为文档转换优化的轻量级多模态模型

    IBM 推出 Granite Docling:专为文档转换优化的轻量级多模态模型

    IBM Research 正式发布 Granite Docling-258M,一款基于 IDEFICS3 架构构建的新型多模态图像-文本到文本模型,专为高效、准确的文档理解与结构化转换而设计。 Git...
    多模态模型# Granite Docling-258M# 多模态模型# 文档转换
    4个月前
    0860
    抖音推出SAIL-VL2:面向细粒度感知与复杂推理的新一代开源视觉语言模型

    抖音推出SAIL-VL2:面向细粒度感知与复杂推理的新一代开源视觉语言模型

    由抖音 SAIL 团队与新加坡国立大学 LV-NUS 实验室联合研发,SAIL-VL2 是一款全新的开源视觉语言基础模型(Vision-Language Model, LVM),在 2B 和 8B 参...
    多模态模型# SAIL-VL2# 抖音# 视觉语言模型
    4个月前
    02820
    通义 DeepResearch:首个全开源 Web Agent,性能对标 OpenAI 深度研究模型

    通义 DeepResearch:首个全开源 Web Agent,性能对标 OpenAI 深度研究模型

    阿里通义实验室正式发布 Tongyi DeepResearch —— 一个在性能上可与当前最先进闭源系统相媲美的全开源 Web Agent。 项目主页:https://tongyi-agent.git...
    大语言模型# Tongyi DeepResearch# 深度研究模型
    4个月前
    02860
    FireRedTTS-2:面向长对话场景的流式多说话人语音合成系统

    FireRedTTS-2:面向长对话场景的流式多说话人语音合成系统

    在播客制作、智能客服和实时对话系统中,自然流畅的多说话人语音合成是一项关键能力。然而,当前主流的对话式TTS(Text-to-Speech)技术普遍存在几个核心问题: 需要预先提供完整对话文本,无法支...
    语音模型# FireRedTTS-2# 小红书
    4个月前
    01470
    面壁智能发布VoxCPM:无需分词器的TTS,用于上下文感知的语音生成和真实感声音克隆

    面壁智能发布VoxCPM:无需分词器的TTS,用于上下文感知的语音生成和真实感声音克隆

    在语音合成领域,大多数主流 TTS(Text-to-Speech)模型依赖于将语音信号离散化为“音素”或“语音标记”——这一过程虽然便于建模,但也带来了固有局限: 声音细节丢失、韵律不自然、跨说话人迁...
    语音模型# TTS# VoxCPM# 面壁智能
    4个月前
    03920
    英伟达开源ViPE工具:从普通视频中精准提取3D信息,还附赠9600万帧标注数据集

    英伟达开源ViPE工具:从普通视频中精准提取3D信息,还附赠9600万帧标注数据集

    在空间AI领域,“3D几何感知”是许多技术落地的基础——无论是AR场景构建、自动驾驶环境感知,还是视频内容的3D重构,都需要精准的相机姿态、内参和深度信息。但长期以来,从野外随机拍摄的视频(如自拍、行...
    3D模型# ViPE# 英伟达
    4个月前
    03020
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    查看完整榜单