SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    模型

    共 968 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    IBM 发布 Granite 4.0 Nano:350M-1.5B 参数边缘模型,混合SSM架构+Apache 2.0开源,性能超越同尺寸竞品

    新IBM 发布 Granite 4.0 Nano:350M-1.5B 参数边缘模型,混合SSM架构+Apache 2.0开源,性能超越同尺寸竞品

    在边缘计算与设备端AI需求日益增长的今天,“小模型能否实现强能力”成为行业核心诉求。近日,IBM 正式推出 Granite 4.0 Nano 系列模型——作为 Granite 4.0 家族的全新成员...
    大语言模型# Granite 4.0 Nano# IBM
    16小时前
    030
    OpenAI 开源安全推理模型gpt-oss-safeguard:自定义策略+可解释推理,多策略准确率超越 GPT-5-thinking

    新OpenAI 开源安全推理模型gpt-oss-safeguard:自定义策略+可解释推理,多策略准确率超越 GPT-5-thinking

    在AI内容安全领域,传统分类器“依赖标注样本、策略更新繁琐”的痛点长期困扰开发者。OpenAI 正式发布 gpt-oss-safeguard 研究预览版——一款开源权重的安全推理模型,以“自定义策略...
    大语言模型# gpt-oss-safeguard# OpenAI
    20小时前
    020
    谷歌 DeepMind 发布 SIMA 2:AI智能体首次在虚拟世界中“自我改进”

    谷歌 DeepMind 发布 SIMA 2:AI智能体首次在虚拟世界中“自我改进”

    谷歌DeepMind发布通用AI智能体下一代产品SIMA 2的研究预览,通过深度整合大语言模型Gemini的语言与推理能力,实现从“单纯遵循指令”到“理解环境并互动”的核心突破。这款由Gemini 2...
    多模态模型# SIMA 2# 谷歌 DeepMind
    4天前
    020
    OpenAI 发布 GPT-5.1:8 种个性语调可选,Instant 更温暖、Thinking 更智能

    OpenAI 发布 GPT-5.1:8 种个性语调可选,Instant 更温暖、Thinking 更智能

    继8月GPT-5发布引发争议后,OpenAI今日正式推出旗舰模型更新版——GPT-5.1,通过双模型优化、8种个性语调预设、自适应推理等核心升级,旨在解决前代模型“体验平平”“缺乏个性化”的问题,让C...
    大语言模型# GPT-5.1# OpenAI
    5天前
    060
    百度开源ERNIE-4.5-VL-28B-A3B-Thinking:3B活跃参数实现大型模型级多模态推理

    百度开源ERNIE-4.5-VL-28B-A3B-Thinking:3B活跃参数实现大型模型级多模态推理

    百度正式开源 ERNIE-4.5-VL-28B-A3B-Thinking,一款专注于文档、图表与视频理解的多模态推理模型。尽管模型总参数达 约 30B,但通过稀疏激活机制,每次推理仅激活 3B 参数...
    多模态模型# ERNIE-4.5-VL-28B-A3B-Thinking# 多模态推理# 百度
    5天前
    040
    Maya1:开源 3B 语音模型,支持自然语言控制与情感标签的文本到语音生成

    Maya1:开源 3B 语音模型,支持自然语言控制与情感标签的文本到语音生成

    Maya Research 近期发布了一款突破性的开源文本到语音(TTS)模型——Maya1。这款仅3B参数的模型,不仅能将文本与自然语言描述转化为富有情感的24kHz高质量语音,还支持单GPU实时运...
    语音模型# Maya1# 语音模型
    5天前
    0170
    Meta 开源 Omnilingual ASR:支持 1600+ 语言的语音识别系统

    Meta 开源 Omnilingual ASR:支持 1600+ 语言的语音识别系统

    Meta AI 近日发布了 Omnilingual ASR——一套开源、可扩展的多语言自动语音识别(ASR)系统,支持 1600 多种语言,并能通过零样本上下文学习泛化到 超过 5400 种语言,包括...
    语音模型# Meta# Omnilingual ASR# 语音识别
    5天前
    070
    商汤开源SenseNova-SI:面向空间智能的多模态模型

    商汤开源SenseNova-SI:面向空间智能的多模态模型

    当前主流多模态基础模型在文本、图像理解、推理和生成任务上已取得显著进展,但在空间智能(Spatial Intelligence)方面仍存在系统性短板。具体表现为: 对物体尺度、距离、比例的估计不准确 ...
    多模态模型# SenseNova-SI# 商汤# 空间智能
    1周前
    0460
    阿里巴巴推出 SmartResume:一个能“读懂”复杂简历版式的智能解析系统

    阿里巴巴推出 SmartResume:一个能“读懂”复杂简历版式的智能解析系统

    在企业招聘中,自动化处理海量简历是刚需,但简历格式千奇百怪——多栏排版、图文混排、表格嵌套,传统文本提取工具常会打乱语义顺序,导致关键信息错位。 针对这一难题,阿里巴巴企业智能团队发布了 SmartR...
    多模态模型# SmartResume# 智能简历解析# 阿里巴巴
    1周前
    0620
    阶跃星辰开源 Step-Audio-EditX:首个基于 LLM 的迭代式音频编辑模型

    阶跃星辰开源 Step-Audio-EditX:首个基于 LLM 的迭代式音频编辑模型

    阶跃星辰(Step AI)正式发布 Step-Audio-EditX —— 一款革命性的基于大语言模型(LLM)的音频编辑系统,首次实现对语音情感、说话风格与副语言特征的高精度、迭代式、零样本控制,并...
    语音模型# Step-Audio-EditX# 阶跃星辰# 音频编辑模型
    2周前
    0670
    美团 LongCat 团队发布 LongCat-Video:高效长视频生成的开源新标杆

    美团 LongCat 团队发布 LongCat-Video:高效长视频生成的开源新标杆

    美团LongCat团队推出 LongCat-Video,这是一个基础视频生成模型,拥有 13.6B 参数,在文本到视频、图像到视频以及视频续接生成任务中表现出色。它特别擅长高效且高质量的长视频生成,标...
    视频模型# LongCat# LongCat-Video# 美团
    2周前
    090
    蚂蚁集团发布 Ling 2.0:基于“推理优先”原则的稀疏大模型家族

    蚂蚁集团发布 Ling 2.0:基于“推理优先”原则的稀疏大模型家族

    蚂蚁集团 百灵大模型团队近日发布 Ling 2.0 —— 一个系统性构建的 稀疏混合专家(MoE)语言模型系列,核心理念是:模型容量可无限扩展,但每个 token 的计算成本应保持恒定。该系列通过统一...
    大语言模型# Ling 2.0# 蚂蚁集团
    2周前
    0140
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Smart Excalidraw

    Smart Excalidraw

    Smart Excalidraw 不是另一个“AI绘图工具”,而是一个让技术表达更高效的协作界面。它不取代你对结构的思考,而是帮你省去机械操作的时间。你负责逻辑,AI 负责呈现,你随时可以介入调整——这才是真正实用的 AI 辅助。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    Marble

    Marble

    由李飞飞联合创立的 World Labs 于2025年11月正式推出其首款商业产品 Marble —— 一款基于文本、图像、视频或全景图生成可编辑、可下载3D环境的AI系统。Marble 采用免费增值模式,提供四个订阅层级,面向游戏、影视、VR等领域的创作者,允许用户将输入内容转化为结构化、可操作的3D资产。
    查看完整榜单