SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1136 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    美团发布LongCat-Flash-Omni:开源全模态大模型的实时交互新标杆

    美团发布LongCat-Flash-Omni:开源全模态大模型的实时交互新标杆

    美团 LongCat 团队近日开源了 LongCat-Flash-Omni —— 一款参数总量达 5600 亿、每 token 动态激活 270 亿参数 的 全模态大模型(Full-Modal LLM...
    多模态模型# LongCat-Flash-Omni# 美团
    3个月前
    0150
    百度飞桨发布 PaddleOCR-VL(0.9B):轻量级端到端多语言文档解析模型

    百度飞桨发布 PaddleOCR-VL(0.9B):轻量级端到端多语言文档解析模型

    百度飞桨团队近日开源 PaddleOCR-VL(0.9B)——一款专为复杂版式文档智能解析设计的视觉语言模型(VLM)。该模型以仅 9亿参数的轻量级架构,实现了对文本、表格、数学公式、图表及手写体的高...
    多模态模型# PaddleOCR-VL# 文档解析模型
    3个月前
    0230
    微软在Bing平台推出AI图像生成模型MAI-Image-1

    微软在Bing平台推出AI图像生成模型MAI-Image-1

    尽管微软已全面接入OpenAI最新前沿模型,该公司仍在自主研发AI模型,通过差异化产品与服务更好地满足用户需求。今年初,微软曾宣布首批两个自研AI模型:MAI-Voice-1与MAI-1-previe...
    图像模型# MAI-Image-1# 微软
    4个月前
    0430
    月之暗面推出开源思维模型Kimi K2 Thinking,多项能力达SOTA水平

    月之暗面推出开源思维模型Kimi K2 Thinking,多项能力达SOTA水平

    月之暗面正式发布旗下迄今能力最强的开源思考模型——Kimi K2 Thinking。这款基于“模型即Agent”理念训练的新一代Thinking Agent,最核心的突破在于原生掌握“边思考,边使用工...
    大语言模型# Kimi K2 Thinking# 月之暗面
    4个月前
    0540
    FlashVSR:首个实时扩散视频超分框架,17 FPS 处理 1408p 视频

    FlashVSR:首个实时扩散视频超分框架,17 FPS 处理 1408p 视频

    视频超分辨率(Video Super-Resolution, VSR)的目标是将低分辨率视频高质量地重建为高分辨率版本。近年来,扩散模型在图像和视频恢复任务中展现出强大能力,但其高延迟、高计算开销和对...
    视频模型# FlashVSR# 视频超分辨率框架
    4个月前
    0330
    DeepAgent:一种支持动态工具发现与记忆管理的通用推理代理

    DeepAgent:一种支持动态工具发现与记忆管理的通用推理代理

    中国人民大学与小红书联合推出 DeepAgent——一种端到端的深度推理代理框架。它能够在单一、连贯的推理过程中,自主完成思考、工具发现与行动执行,摆脱了传统代理(如 ReAct 框架)中“Reaso...
    大语言模型# DeepAgent
    4个月前
    01480
    BRIA 发布 FIBO:用 JSON 精确控制光线、构图与相机参数的文生图模型

    BRIA 发布 FIBO:用 JSON 精确控制光线、构图与相机参数的文生图模型

    BRIA 开源发布了其首个文本到图像模型 FIBO —— 一个专为专业图像生成工作流设计的 JSON 原生、结构化提示驱动 的开源模型。与主流强调“想象力”的生成模型不同,FIBO 的核心目标是 可控...
    图像模型# BRIA# FIBO# 文生图模型
    4个月前
    0860
    Cognition 发布 SWE-1.5:950 tok/s 高速编码模型,Windsurf 现已可用

    Cognition 发布 SWE-1.5:950 tok/s 高速编码模型,Windsurf 现已可用

    Cognition 正式推出软件工程专用模型家族新成员——SWE-1.5。作为一款拥有数千亿参数的前沿规模模型,它不仅实现了接近当前最佳水平(SOTA)的编程性能,更在速度上打破现有标准:通过与 Ce...
    大语言模型# Cognition# SWE-1.5# 编程模型
    4个月前
    01570
    SoulX-Podcast:支持方言与副语言的真实感播客语音合成系统

    SoulX-Podcast:支持方言与副语言的真实感播客语音合成系统

    西北工业大学、Soul AI 实验室与上海交通大学联合推出 SoulX-Podcast —— 一个专为长篇、多轮次、多说话者对话场景设计的语音合成系统。它不仅能生成高质量的播客风格对话语音,也在传统单...
    语音模型# SoulX-Podcast# 播客
    4个月前
    0820
    DeepSeek 开源DeepSeek-OCR :用视觉模态压缩文本,3B 小模型撬动长上下文新思路

    DeepSeek 开源DeepSeek-OCR :用视觉模态压缩文本,3B 小模型撬动长上下文新思路

    DeepSeek 开源了 DeepSeek-OCR,一个仅 30 亿参数的视觉语言模型(VLM),却在 OCR 与文本压缩领域展现出令人瞩目的创新力。其核心并非追求更大参数量,而是提出一种“光学压缩...
    多模态模型# DeepSeek# DeepSeek-OCR
    4个月前
    01750
    快手开源 KAT-Dev-72B-Exp:72B 参数代码模型,SWE-Bench 准确率达 74.6%

    快手开源 KAT-Dev-72B-Exp:72B 参数代码模型,SWE-Bench 准确率达 74.6%

    快手 Kwaipilot 团队近日正式开源 KAT-Dev-72B-Exp ——一个专为软件工程任务设计的 720 亿参数开源大模型。该模型在权威代码修复基准 SWE-Bench Verified 上...
    大语言模型# KAT-Dev-72B-Exp# 快手
    4个月前
    0510
    Nanonets开源OCR2系列模型:图像转结构化Markdown+视觉问答双核心

    Nanonets开源OCR2系列模型:图像转结构化Markdown+视觉问答双核心

    Nanonets 正式发布并开源了 OCR2 系列模型,包含 Nanonets-OCR2-Plus、Nanonets-OCR2-3B 与 Nanonets-OCR2-1.5B-exp 三个版本。作为一...
    多模态模型# Nanonets-OCR2# Qwen2-VL
    4个月前
    02240
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    A股智能分析系统

    A股智能分析系统

    A股智能分析系统是基于 AI 大模型的 A 股自选股智能分析系统,每日自动分析并推送「决策仪表盘」到企业微信/飞书/Telegram/邮箱
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    OpenClaw 一键部署工具

    OpenClaw 一键部署工具

    OpenClaw 一键部署工具是一款专为 AI 爱好者和开发者打造的私人 AI 助手一键部署工具,支持多模型、多消息渠道接入,提供图形界面与命令行两种部署方式,无需复杂的手动配置,就能快速搭建属于自己的跨平台 AI 助手,兼具灵活性与实用性。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    查看完整榜单