SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1136 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    LIMI :少即是多,78个样本如何训练出高效AI智能体

    LIMI :少即是多,78个样本如何训练出高效AI智能体

    由上海交通大学、上海创智学院、香港理工大学、中国科学技术大学与GAIR联合开展的一项研究,最近提出了一个名为 LIMI 的新方法——全称为 Less is More for Intelligent A...
    大语言模型# LIMI# 智能体
    5个月前
    01820
    阿里通义实验室推出Qwen3-Omni:支持文本、语音、图像、视频的全模态大模型

    阿里通义实验室推出Qwen3-Omni:支持文本、语音、图像、视频的全模态大模型

    通义实验室正式推出 Qwen3-Omni——一款统一处理多模态输入并支持流式文本与语音输出的大语言模型。该模型已在 Qwen API 平台上线,开发者可通过接口体验其在音频对话、跨模态理解与指令执行方...
    多模态模型# Qwen3-Omni# 通义实验室
    5个月前
    01910
    Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型

    Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型

    通义实验室近日推出 Qwen3-TTS-Flash,一款面向多场景应用的高性能文本转语音(TTS)模型。该模型现已通过 Qwen API 开放访问,支持自然、流畅且富有表现力的语音生成。 API:ht...
    语音模型# Qwen3-TTS-Flash# 语音合成模型
    5个月前
    02830
    阿里通义实验室Qwen项目组推出图像编辑模型 Qwen-Image-Edit新版本 Qwen-Image-Edit-2509:支持多图输入与更强一致性

    阿里通义实验室Qwen项目组推出图像编辑模型 Qwen-Image-Edit新版本 Qwen-Image-Edit-2509:支持多图输入与更强一致性

    通义实验室发布 Qwen-Image-Edit-2509,作为 Qwen-Image-Edit 系列的月度迭代版本。该模型已在 Qwen Chat 平台上线,用户可通过“图像编辑”功能直接体验。 Hu...
    图像模型# Qwen-Image-Edit# Qwen-Image-Edit-2509# 图像编辑模型
    5个月前
    05890
    美团 LongCat 团队发布 LongCat-Flash-Thinking:具备形式化与智能体推理能力的新一代高效推理模型

    美团 LongCat 团队发布 LongCat-Flash-Thinking:具备形式化与智能体推理能力的新一代高效推理模型

    美团 LongCat 团队正式推出 LongCat-Flash-Thinking——一款专注于高复杂度任务推理的大型语言模型(LRM)。该模型在保持前代 LongCat-Flash-Chat 高效响应...
    大语言模型# LongCat-Flash-Thinking# 推理模型# 美团
    5个月前
    01600
    Qianfan-VL:百度推出的多模态大模型系列,面向企业级视觉语言任务

    Qianfan-VL:百度推出的多模态大模型系列,面向企业级视觉语言任务

    由百度 AI 云团队研发,Qianfan-VL 是一系列参数规模从 3B 到 70B 的多模态大语言模型(MLLM),专注于提升企业在文档理解、OCR识别和数学推理等高频场景下的自动化能力。 项目主页...
    多模态模型# Qianfan-VL# 多模态大模型# 百度
    5个月前
    01360
    LatticeWorld:基于多模态指令的高效 3D 世界生成框架

    LatticeWorld:基于多模态指令的高效 3D 世界生成框架

    由网易、北京航空航天大学、清华大学与香港城市大学联合研究团队提出,LatticeWorld 是一个面向复杂 3D 虚拟环境自动生成的新框架。它通过融合轻量级大型语言模型(LLM)与工业级渲染引擎,探索...
    3D模型# LatticeWorld
    5个月前
    01100
    Mini-Omni-Reasoner:将推理能力引入大型语音模型,让语音模型“边说边思考”

    Mini-Omni-Reasoner:将推理能力引入大型语音模型,让语音模型“边说边思考”

    由南洋理工大学、新加坡国立大学、腾讯、北京工业大学与北京航空航天大学联合研发,Mini-Omni-Reasoner 正式推出——这是一次将推理能力引入大型语音模型(Large Speech Model...
    语音模型# Mini-Omni-Reasoner# 语音思考模型
    5个月前
    02820
    苹果发布多模态统一模型Manzano:能够同时理解和生成视觉内容

    苹果发布多模态统一模型Manzano:能够同时理解和生成视觉内容

    苹果发布多模态统一模型Manzano,它能够同时理解和生成视觉内容。该模型通过结合一个混合图像标记化器和精心设计的训练方案,显著减少了在理解和生成能力之间的性能权衡。Manzano 在统一模型中实现了...
    多模态模型# Manzano# 多模态统一模型
    5个月前
    01070
    视觉-语言模型中的“隐形损耗”:我们如何测量图像信息的丢失?

    视觉-语言模型中的“隐形损耗”:我们如何测量图像信息的丢失?

    视觉-语言模型(Vision-Language Models, VLMs)如 LLaVA、Qwen-VL 等,在图像理解、视觉问答和图文生成等任务中表现优异。这些模型通常依赖一个核心流程:将图像通过视...
    多模态模型# 视觉-语言模型
    5个月前
    01460
    浙大×华为联合推出 DeepSeek-R1-Safe:基于昇腾的安全大模型

    浙大×华为联合推出 DeepSeek-R1-Safe:基于昇腾的安全大模型

    浙江大学网络空间安全学院与华为合作,发布了一款基于 DeepSeek 模型架构 的安全增强型大语言模型 —— DeepSeek-R1-Safe。该模型依托华为昇腾(Ascend)AI 芯片及 Mind...
    大语言模型# DeepSeek-R1-Safe# 华为
    5个月前
    02450
    百度发布 PP-OCRv5:0.07亿参数模型,挑战百亿级大模型的OCR精度

    百度发布 PP-OCRv5:0.07亿参数模型,挑战百亿级大模型的OCR精度

    在通用视觉语言模型(VLM)主导多模态任务的当下,百度飞桨团队反其道而行之,推出新一代轻量级文字识别模型 PP-OCRv5 ——一个仅含 70万参数(0.07B)的超小模型,在多项 OCR 任务中表现...
    多模态模型# PP-OCRv5# 百度
    5个月前
    02860
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw 一键部署工具

    OpenClaw 一键部署工具

    OpenClaw 一键部署工具是一款专为 AI 爱好者和开发者打造的私人 AI 助手一键部署工具,支持多模型、多消息渠道接入,提供图形界面与命令行两种部署方式,无需复杂的手动配置,就能快速搭建属于自己的跨平台 AI 助手,兼具灵活性与实用性。
    DeepWiki 

    DeepWiki 

    Cognition Labs 推出了 DeepWiki,号称“涵盖所有 GitHub 代码库的免费百科全书”。只需将 GitHub 仓库 URL 中的 “github” 替换为 “deepwiki”,即可生成类似维基百科的详细文档页面,无需注册即可免费访问公共仓库的文档。
    Video Ocean

    Video Ocean

    Video Ocean 是一个AI 视频生成平台,平台支持文本转视频、图像转视频和角色一致性视频生成,能够创建高达 20 秒的高清视频,强调视觉真实感、动态表现和多样化艺术风格。
    NOFX

    NOFX

    NOFX是一个基于 DeepSeek/Qwen AI 的加密货币期货自动交易系统,支持 Binance、Hyperliquid和Aster DEX交易所,多AI模型实盘竞赛,具备完整的市场分析、AI决策、自我学习机制和专业的Web监控界面。
    查看完整榜单