SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1136 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    两个月再升级!HCompany推出2350亿参数Holo2-235B-A22B,刷新UI定位模型基准

    两个月再升级!HCompany推出2350亿参数Holo2-235B-A22B,刷新UI定位模型基准

    距离首款Holo2模型发布仅两个月,HCompany便推出迄今最大规模的UI定位模型Holo2-235B-A22B Preview,一举在ScreenSpot-Pro基准测试中创下78.5%的新纪录...
    多模态模型# HCompany# Holo2# Holo2-235B-A22B
    2周前
    0160
    智谱AI开源GLM-OCR:0.9B参数拿下榜单第一,支持vLLM部署,一行命令就能用

    智谱AI开源GLM-OCR:0.9B参数拿下榜单第一,支持vLLM部署,一行命令就能用

    智谱AI又放出一款实用开源模型——GLM-OCR,这是一款专为复杂文档理解打造的多模态OCR模型,不仅在权威基准测试中拿下综合第一,还做到了轻量高效、易部署,关键是完全开源,个人和企业都能免费使用。 ...
    多模态模型# GLM-OCR# 智谱AI
    2周前
    01820
    Apache 2.0 许可!Photoroom 推出轻量级 13 亿参数开源文生图模型 PRX

    Apache 2.0 许可!Photoroom 推出轻量级 13 亿参数开源文生图模型 PRX

    Photoroom 团队正式发布了其首个开源文生图模型 PRX (Photoroom Experimental)。这是一个拥有 13 亿参数、完全从头开始训练 的扩散变换器模型,并以宽松的 Apach...
    图像模型# Photoroom# PRX
    2周前
    0250
    阶跃星辰推出Step 3.5 Flash:196B MoE 开源旗舰,推理与智能体性能对标闭源顶级模型

    阶跃星辰推出Step 3.5 Flash:196B MoE 开源旗舰,推理与智能体性能对标闭源顶级模型

    Step 3.5 Flash 是阶跃星辰推出的开源旗舰语言推理模型,定位为当前最强大的开源基座之一,专为极致效率、深度推理、智能体(Agent)执行而生。 GitHub:https://github...
    大语言模型# Step 3.5 Flash# 阶跃星辰
    2周前
    0310
    优必选开源具身智能大模型Thinker:小参数、高性能,专为工业人形机器人打造

    优必选开源具身智能大模型Thinker:小参数、高性能,专为工业人形机器人打造

    过去一年,人形机器人在实验室环境中的“场景理解”与“任务规划”能力突飞猛进。然而,一旦进入真实的工业产线,它们便常常陷入“想得到但抓不准、算得出但跟不上”的困境。这背后,是长期存在的鸿沟:空间层面的度...
    多模态模型# Thinker# 优必选# 具身智能大模型
    2周前
    0220
    商汤开源 SenseNova-MARS:多模态自主推理模型登顶 MMSearch 榜单

    商汤开源 SenseNova-MARS:多模态自主推理模型登顶 MMSearch 榜单

    商汤科技正式开源 SenseNova-MARS —— 一款支持动态视觉推理与图文搜索深度融合的多模态大模型(VLM)。该模型提供 8B 与 32B 双版本,在多模态搜索与推理核心基准 MMSearch...
    多模态模型# SenseNova-MARS# 商汤
    3周前
    0290
    模思智能推出 MOVA:开源同步音视频生成基座模型,打破“无声视频”困局

    模思智能推出 MOVA:开源同步音视频生成基座模型,打破“无声视频”困局

    模思智能正式开源 MOVA(MOSS Video and Audio)——一款专注于原生同步生成视频与音频的基座模型。针对当前主流系统(如 Sora 2、Veo 3)普遍采用的“先画后音”级联流程,M...
    视频模型# MOVA# 模思智能
    3周前
    0130
    通义千问开源 Qwen3-ASR 与 Qwen3-ForcedAligner:支持流式、多语言、高并发的语音识别与对齐工具

    通义千问开源 Qwen3-ASR 与 Qwen3-ForcedAligner:支持流式、多语言、高并发的语音识别与对齐工具

    Qwen(通义千问)团队正式开源全新一代语音技术方案——Qwen3-ASR系列语音识别模型与Qwen3-ForcedAligner强制对齐模型。该系列包含Qwen3-ASR-1.7B、Qwen3-AS...
    语音模型# Qwen# Qwen3-ASR# Qwen3-ForcedAligner
    3周前
    0280
    Gemini 3 Flash 引入智能体视觉:视觉推理+代码执行,答案基于视觉证据

    Gemini 3 Flash 引入智能体视觉:视觉推理+代码执行,答案基于视觉证据

    谷歌正式为 Gemini 3 Flash 推出全新能力——智能体视觉,通过将视觉推理与代码执行深度结合,让AI从“静态一瞥”升级为“主动调查”,彻底改变图像理解方式。这项功能可使多数视觉基准测试质量提...
    多模态模型# Gemini 3 Flash# 智能体视觉
    3周前
    0280
    百度飞桨发布PaddleOCR-VL-1.5:0.9B轻量多模态模型,真实场景文档解析全面SOTA

    百度飞桨发布PaddleOCR-VL-1.5:0.9B轻量多模态模型,真实场景文档解析全面SOTA

    百度飞桨近期完成 PaddleOCR 3.4.0 版本更新,正式推出新一代视觉语言模型 PaddleOCR-VL-1.5。这款面向真实场景的文档解析专用模型,仅0.9B参数量却实现资源高效与性能领先...
    多模态模型# PaddleOCR-VL-1.5# 百度飞桨
    3周前
    0430
    腾讯混元推出 HunyuanImage 3.0-Instruct:原生多模态图像编辑模型,支持精准编辑与多图融合

    腾讯混元推出 HunyuanImage 3.0-Instruct:原生多模态图像编辑模型,支持精准编辑与多图融合

    腾讯混元项目组正式开源 HunyuanImage 3.0-Instruct —— 一款专注于图像编辑的原生多模态大模型。该模型不仅能理解输入图像的语义内容,还能基于复杂指令进行推理,并生成高保真、高一...
    图像模型# HunyuanImage 3.0-Instruct# 多模态图像编辑模型
    3周前
    0290
    LingBot-World:蚂蚁灵波开源交互式世界模拟器,支持高保真、长时序、可交互的虚拟环境生成

    LingBot-World:蚂蚁灵波开源交互式世界模拟器,支持高保真、长时序、可交互的虚拟环境生成

    蚂蚁灵波科技正式开源 LingBot-World —— 一个基于视频生成技术构建的交互式世界模拟器。它不是简单的视频合成工具,而是一个能响应用户动作、维持物理逻辑、保持长期一致性的动态虚拟世界框架。项...
    世界模型# LingBot-World# 蚂蚁灵波
    3周前
    02570
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    A股智能分析系统

    A股智能分析系统

    A股智能分析系统是基于 AI 大模型的 A 股自选股智能分析系统,每日自动分析并推送「决策仪表盘」到企业微信/飞书/Telegram/邮箱
    3D Arena

    3D Arena

    Hugging Face 推出的 3D Arena 是生成式 3D 领域的一项重要进展。它首次实现了大规模、结构化的人类偏好数据收集,并通过 ELO 排名系统提供可靠、可解释的模型评估结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Fireplexity

    Fireplexity

    Fireplexity v2 是一个基于 Next.js 构建的 AI 驱动搜索引擎,结合了网络爬取、新闻聚合和图像搜索功能,并提供对话式 AI 响应。系统通过多个外部 API 处理用户查询,并通过类似聊天的界面以实时流式传输方式呈现结果。
    查看完整榜单