SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1136 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    MetaFold:用语言指导机器人叠衣服,还能通用于不同衣物

    MetaFold:用语言指导机器人叠衣服,还能通用于不同衣物

    让机器人叠衣服,听起来简单,做起来极难。 布料柔软、易变形,同一件T恤每次摆放的形态都不同。这种高度的可变性使得机器人难以像抓取刚性物体那样,靠预设动作完成操作。更别说还要应对不同款式——无袖、短袖...
    多模态模型# MetaFold
    6个月前
    0940
    瑞士发布国家级开源大模型 Apertus,构建自主可控、合规透明的AI基础设施

    瑞士发布国家级开源大模型 Apertus,构建自主可控、合规透明的AI基础设施

    瑞士近日正式推出其国家级开源大语言模型 Apertus,标志着该国在构建自主可控、合规透明的人工智能基础设施方面迈出关键一步。 这一模型由 洛桑联邦理工学院(EPFL)、苏黎世联邦理工学院(ETH Z...
    大语言模型# Apertus# 开源大模型# 瑞士
    6个月前
    02610
    阿里发布 AgentScope 1.0:面向生产级智能体的开源开发框架

    阿里发布 AgentScope 1.0:面向生产级智能体的开源开发框架

    阿里巴巴近日正式推出 AgentScope 1.0 —— 一个以开发者为核心的开源智能体(Agent)开发框架,致力于解决当前智能体应用在可控性、可维护性和落地部署方面的关键挑战。 不同于仅聚焦于单点...
    大语言模型# AgentScope 1.0# 智能体开发框架# 阿里巴巴
    6个月前
    01760
    腾讯发布混元世界模型 - Voyager:单图生成 3D 场景,实现长距离沉浸式探索

    腾讯发布混元世界模型 - Voyager:单图生成 3D 场景,实现长距离沉浸式探索

    腾讯今天正式推出混元世界模型 - Voyager(HunyuanWorld-Voyager),这是一款创新的视频扩散框架。其核心能力在于:基于单张输入图像即可生成具备世界一致性的 3D 点云,支持用户...
    视频模型# HunyuanWorld-Voyager# 混元世界模型 - Voyager# 腾讯
    6个月前
    0730
    艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

    艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

    在自动语音识别(ASR)领域,Whisper 一直是开源社区的标杆——强大、鲁棒、支持零样本迁移。但它有一个根本局限:训练数据未公开,模型行为难以分析,也无法完全复现。 现在,艾伦人工智能研究所(AI...
    语音模型# OLMoASR# 艾伦AI研究所
    6个月前
    01220
    腾讯混元开源轻量级翻译模型 Hunyuan-MT-7B:33语种互译,小模型也能大作为

    腾讯混元开源轻量级翻译模型 Hunyuan-MT-7B:33语种互译,小模型也能大作为

    腾讯混元宣布将其国际翻译模型 Hunyuan-MT-7B 正式开源,供全球开发者免费下载与本地部署。同时开源的还有业界首个翻译集成模型 Hunyuan-MT-Chimera-7B(奇美拉),支持多译文...
    大语言模型# Hunyuan-MT-7B# 翻译模型# 腾讯
    6个月前
    01920
    阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点

    阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点

    今日,阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini,该模型在音频理解、语音识别、翻译及对话等多个国际基准测试集中均斩获SOTA(state-of-the-art,当前最优)成...
    语音模型# Step-Audio 2 mini# 阶跃星辰
    6个月前
    02460
    CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

    CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

    尽管当前的文本到图像(Text-to-Image, T2I)扩散模型能够生成高度逼真的图像,但在一个关键任务上仍频频失手:准确理解并渲染文本中描述的空间关系。 例如,当用户输入: “一个棕色皮革沙发放...
    图像模型# CoMPaSS
    6个月前
    01640
    蚂蚁集团开源医学智能体MedResearcher-R1:以知识引导技术破解领域AI推理难题

    蚂蚁集团开源医学智能体MedResearcher-R1:以知识引导技术破解领域AI推理难题

    蚂蚁集团正式开源医学智能体 MedResearcher-R1,同时对外公开模型及合成数据生成方法。这一智能体聚焦医学领域AI推理的核心痛点,通过“知识图谱构建-轨迹生成-评估验证”的全流程框架,为领域...
    多模态模型# MedResearcher-R1# 医学智能体# 蚂蚁集团
    6个月前
    0820
    苹果发布 MobileCLIP2:更小、更快、更高效的移动端多模态模型

    苹果发布 MobileCLIP2:更小、更快、更高效的移动端多模态模型

    苹果近期推出了新一代轻量级图像-文本模型家族 —— MobileCLIP2,在保持高精度的同时,显著降低模型体积与推理延迟,专为移动设备上的实时多模态理解任务而设计。 GitHub:https://g...
    多模态模型# MobileCLIP2# 图像-文本模型# 苹果
    6个月前
    0790
    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果推出视觉语言模型FastVLM:用更少的视觉 Token,更快理解高分辨率图像

    苹果近期发布了 FastVLM系列视觉语言模型,并首次引入其自研混合视觉编码器 FastViTHD。该模型解决当前多模态系统在处理高分辨率图像时面临的效率瓶颈,尤其在移动端和实时交互场景中展现出显著优...
    多模态模型# FastVLM# 苹果# 视觉语言模型
    6个月前
    0870
    美团LongCat团队发布5600亿参数模型LongCat-Flash,以MoE架构突破效率与性能瓶颈

    美团LongCat团队发布5600亿参数模型LongCat-Flash,以MoE架构突破效率与性能瓶颈

    美团LongCat团队正式推出大语言模型LongCat-Flash,该模型以5600亿总参数规模为基础,创新采用专家混合(MoE)架构,通过动态计算、架构优化等核心设计,在训练效率、推理性能与实用能力...
    大语言模型# LongCat-Flash# 美团
    6个月前
    01120
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    OpenClaw汉化发行版

    OpenClaw汉化发行版

    OpenClaw汉化发行版已上线——不仅将CLI命令行、Dashboard网页控制台全部深度汉化,还能每小时自动同步OpenClaw官方更新,汉化版延迟低于1小时,既保留原版全部功能,又适配国内用户的使用习惯,3步即可完成安装部署,零基础也能快速上手。
    OpenClaw 一键部署工具

    OpenClaw 一键部署工具

    OpenClaw 一键部署工具是一款专为 AI 爱好者和开发者打造的私人 AI 助手一键部署工具,支持多模型、多消息渠道接入,提供图形界面与命令行两种部署方式,无需复杂的手动配置,就能快速搭建属于自己的跨平台 AI 助手,兼具灵活性与实用性。
    Sync Vault

    Sync Vault

    Sync Vault是一个 Obsidian 插件,让 Obsidian 像访问本地文件一样轻松使用多种云服务上的资源,释放本地存储和同步压力。
    查看完整榜单