SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    模型

    共 998 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    LatticeWorld:基于多模态指令的高效 3D 世界生成框架

    LatticeWorld:基于多模态指令的高效 3D 世界生成框架

    由网易、北京航空航天大学、清华大学与香港城市大学联合研究团队提出,LatticeWorld 是一个面向复杂 3D 虚拟环境自动生成的新框架。它通过融合轻量级大型语言模型(LLM)与工业级渲染引擎,探索...
    3D模型# LatticeWorld
    3个月前
    0840
    Mini-Omni-Reasoner:将推理能力引入大型语音模型,让语音模型“边说边思考”

    Mini-Omni-Reasoner:将推理能力引入大型语音模型,让语音模型“边说边思考”

    由南洋理工大学、新加坡国立大学、腾讯、北京工业大学与北京航空航天大学联合研发,Mini-Omni-Reasoner 正式推出——这是一次将推理能力引入大型语音模型(Large Speech Model...
    语音模型# Mini-Omni-Reasoner# 语音思考模型
    3个月前
    01890
    苹果发布多模态统一模型Manzano:能够同时理解和生成视觉内容

    苹果发布多模态统一模型Manzano:能够同时理解和生成视觉内容

    苹果发布多模态统一模型Manzano,它能够同时理解和生成视觉内容。该模型通过结合一个混合图像标记化器和精心设计的训练方案,显著减少了在理解和生成能力之间的性能权衡。Manzano 在统一模型中实现了...
    多模态模型# Manzano# 多模态统一模型
    3个月前
    01010
    视觉-语言模型中的“隐形损耗”:我们如何测量图像信息的丢失?

    视觉-语言模型中的“隐形损耗”:我们如何测量图像信息的丢失?

    视觉-语言模型(Vision-Language Models, VLMs)如 LLaVA、Qwen-VL 等,在图像理解、视觉问答和图文生成等任务中表现优异。这些模型通常依赖一个核心流程:将图像通过视...
    多模态模型# 视觉-语言模型
    3个月前
    01160
    浙大×华为联合推出 DeepSeek-R1-Safe:基于昇腾的安全大模型

    浙大×华为联合推出 DeepSeek-R1-Safe:基于昇腾的安全大模型

    浙江大学网络空间安全学院与华为合作,发布了一款基于 DeepSeek 模型架构 的安全增强型大语言模型 —— DeepSeek-R1-Safe。该模型依托华为昇腾(Ascend)AI 芯片及 Mind...
    大语言模型# DeepSeek-R1-Safe# 华为
    3个月前
    01580
    百度发布 PP-OCRv5:0.07亿参数模型,挑战百亿级大模型的OCR精度

    百度发布 PP-OCRv5:0.07亿参数模型,挑战百亿级大模型的OCR精度

    在通用视觉语言模型(VLM)主导多模态任务的当下,百度飞桨团队反其道而行之,推出新一代轻量级文字识别模型 PP-OCRv5 ——一个仅含 70万参数(0.07B)的超小模型,在多项 OCR 任务中表现...
    多模态模型# PP-OCRv5# 百度
    3个月前
    02340
    FastMTP:通过增强多令牌预测提升大模型推理效率

    FastMTP:通过增强多令牌预测提升大模型推理效率

    在大语言模型(LLM)的实际应用中,推理速度是影响用户体验和部署成本的关键因素。尽管模型能力不断提升,但逐个生成 token 的方式带来了较高的延迟和计算开销。推测解码(Speculative Dec...
    大语言模型# FastMTP# 推理模型
    3个月前
    01370
    Mistral AI 发布 Magistral Small 1.2:支持视觉输入的小型高效开源推理模型

    Mistral AI 发布 Magistral Small 1.2:支持视觉输入的小型高效开源推理模型

    法国AI初创公司 Mistral AI 本周正式发布并开源其小型语言模型的新版本 —— Magistral Small 1.2。该模型在前代基础上全面升级,不仅提升了数学与编程任务的基准表现,还首次引...
    多模态模型# Magistral Small 1.2# Mistral AI
    3个月前
    02000
    蚂蚁集团开源 Ring-flash-2.0:高效 MoE 架构下的高性能思考模型

    蚂蚁集团开源 Ring-flash-2.0:高效 MoE 架构下的高性能思考模型

    蚂蚁集团正式宣布开源 Ring-flash-2.0 ——一款基于 MoE(混合专家)架构的高性能“思考型”大语言模型。该模型总参数量达 100B,但在每次推理时仅激活 6.1B 参数(其中非嵌入部分约...
    大语言模型# Ring-flash-2.0# 蚂蚁集团
    3个月前
    02420
    小米发布 MiMo-Audio:基于亿级小时预训练的开源音频语言模型

    小米发布 MiMo-Audio:基于亿级小时预训练的开源音频语言模型

    小米近日正式推出 MiMo-Audio ——一个统一的生成式音频-语言模型,支持跨模态语音理解与生成任务。该模型通过超过一亿小时的大规模预训练,实现了强大的少样本学习能力,能够在无需微调的情况下,仅凭...
    语音模型# MiMo-Audio# 小米# 音频语言模型
    3个月前
    01790
    DecartAI推出 Lucy Edit Dev:全球首个开源、支持自由文本提示的指令引导视频编辑模型

    DecartAI推出 Lucy Edit Dev:全球首个开源、支持自由文本提示的指令引导视频编辑模型

    DecartAI推出 Lucy Edit Dev ——全球首个开源、支持自由文本提示的指令引导视频编辑模型。它允许用户仅通过自然语言描述,即可完成复杂的视频修改任务,如更换服装、替换角色、插入物体或更...
    视频模型# Lucy Edit Dev# 视频编辑模型
    3个月前
    01960
    Moondream 团队推出 Moondream 3 预览版本:轻量架构下的高性能视觉推理模型

    Moondream 团队推出 Moondream 3 预览版本:轻量架构下的高性能视觉推理模型

    Moondream 团队正式推出 Moondream 3 的预览版本——一款基于 9B 参数稀疏混合专家(MoE)架构的新模型,实际激活参数仅为 2B。它在保持极快推理速度和低运行成本的同时,实现了接...
    多模态模型# Moondream 3# 视觉推理模型
    3个月前
    03580
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    Next AI Draw.io

    Next AI Draw.io

    Next AI Draw.io 是一个基于 Next.js 的 Web 应用,将大语言模型(LLM)与 draw.io 的强大图表能力深度集成。用户可通过自然语言指令创建、修改和增强专业图表,无需手动拖拽。
    查看完整榜单