SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1136 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    音频描述数据集FusionAudio-1.2M:通过多模态上下文融合来生成细粒度的音频描述

    音频描述数据集FusionAudio-1.2M:通过多模态上下文融合来生成细粒度的音频描述

    香港中文大学(深圳)和华南理工大学的研究人员推出推出一个名为FusionAudio-1.2M的音频描述数据集,通过多模态上下文融合来生成细粒度的音频描述。该数据集通过模拟人类听觉感知的方式,整合了多种...
    语音模型# FusionAudio-1.2M
    9个月前
    01790
    华科大联合金山办公推出文档解析新模型MonkeyOCR

    华科大联合金山办公推出文档解析新模型MonkeyOCR

    近日,华中科技大学与金山办公联合研究团队发布了一款全新的文档解析模型 —— MonkeyOCR。该模型通过引入“结构-识别-关系”(Structure-Recognition-Relation, SR...
    多模态模型# MonkeyOCR# 文档解析
    9个月前
    02420
    英伟达推出一款专为复杂推理任务设计的开源模型 — Nemotron-Research-Reasoning-Qwen-1.5B

    英伟达推出一款专为复杂推理任务设计的开源模型 — Nemotron-Research-Reasoning-Qwen-1.5B

    英伟达近日发布了一款专为复杂推理任务设计的开源模型 —— Nemotron-Research-Reasoning-Qwen-1.5B,该模型参数量为 1.5B,在数学、编程、科学问题和逻辑谜题等任务上...
    大语言模型# Nemotron-Research-Reasoning-Qwen-1.5B# 英伟达
    9个月前
    01250
    昆仑万维推出 SkyReels-Audio:多模态驱动、无限长度的高质量会说话肖像视频生成框架

    昆仑万维推出 SkyReels-Audio:多模态驱动、无限长度的高质量会说话肖像视频生成框架

    昆仑万维旗下 SkyReels 团队 发布了全新音视频生成模型——SkyReals-Audio,一个用于合成高保真、时间一致的“会说话”肖像视频的统一框架。 项目主页:https://skyworka...
    语音模型# SkyReels-Audio# 昆仑万维
    9个月前
    02650
    小红书 Hi Lab 发布 1420 亿参数 MoE 大模型 dots.llm1:推理仅激活 140 亿参数,性能媲美 Qwen2.5-72B

    小红书 Hi Lab 发布 1420 亿参数 MoE 大模型 dots.llm1:推理仅激活 140 亿参数,性能媲美 Qwen2.5-72B

    小红书 Hi Lab 团队近日正式开源了其自研大规模 MoE 文本大模型 dots.llm1,该模型总参数量高达 1420 亿(142B),但在每次推理时仅激活 140 亿(14B)参数,实现了高效能...
    大语言模型# dots.llm1# 小红书
    9个月前
    03430
    面壁智能发布 MiniCPM 4.0:端侧大模型效率再升级,极限提速 220 倍!

    面壁智能发布 MiniCPM 4.0:端侧大模型效率再升级,极限提速 220 倍!

    6 日晚,面壁智能正式发布了新一代高效端侧大语言模型 MiniCPM 4.0。该系列模型以极致轻量化和高效推理为核心目标,结合自研 CPM.cu 推理框架 和稀疏注意力机制,在端侧设备上实现了惊人的性...
    大语言模型# MiniCPM 4.0# 面壁智能
    9个月前
    03750
    微软提出 GUI-Actor:基于视觉语言模型的无坐标 GUI 定位新范式

    微软提出 GUI-Actor:基于视觉语言模型的无坐标 GUI 定位新范式

    在构建基于视觉语言模型(VLM)的 GUI 代理系统中,一个关键挑战是如何准确理解屏幕上的视觉内容并定位应执行操作的区域。传统方法通常将此问题建模为“文本到坐标的生成”任务,即通过语言描述预测具体像素...
    多模态模型# GUI-Actor# 微软
    9个月前
    03670
    EleutherAI 发布首个大规模许可训练数据集 The Common Pile v0.1

    EleutherAI 发布首个大规模许可训练数据集 The Common Pile v0.1

    近日,开源人工智能研究组织 EleutherAI 正式发布了名为 The Common Pile v0.1 的全新训练数据集。该数据集据称是目前用于训练 AI 模型的最大合法授权+公共领域文本集合之一...
    大语言模型# EleutherAI# The Common Pile v0.1# 数据集
    9个月前
    03470
    Vui:轻量级、可本地运行的开源对话语音模型

    Vui:轻量级、可本地运行的开源对话语音模型

    Vui 是一组轻量级、可本地运行的开源对话语音模型,支持设备端部署,适用于对话生成、语音克隆及非语音声音合成等任务。 GitHub:https://github.com/fluxions-ai/vui...
    语音模型# Vui# 对话语音模型
    9个月前
    03600
    MARBLE:基于 CLIP 空间的图像材质编辑新方法

    MARBLE:基于 CLIP 空间的图像材质编辑新方法

    在计算机视觉与图形学领域,图像中对象材质的编辑是一项具有挑战性的任务。传统方法往往依赖复杂的建模与渲染流程,而近年来,借助预训练扩散模型与语义嵌入空间(如CLIP)的技术逐渐成为研究热点。 项目主页...
    图像模型# MARBLE# 图像材质编辑
    9个月前
    03070
    字节跳动 Seed 团队正式发布 SeedEdit 3.0:支持 4K 图像编辑,编辑可用率显著提升

    字节跳动 Seed 团队正式发布 SeedEdit 3.0:支持 4K 图像编辑,编辑可用率显著提升

    今日,字节跳动 Seed 团队正式发布了新一代图像编辑模型 SeedEdit 3.0。该模型基于文生图模型 Seedream 3.0,融合多样化的训练数据与奖励机制,在图像主体与背景一致性、指令理解能...
    图像模型# SeedEdit 3.0# 字节跳动
    9个月前
    01980
    阿里正式发布 Qwen3 Embedding和Reranker 系列模型:专为文本表征与检索排序设计

    阿里正式发布 Qwen3 Embedding和Reranker 系列模型:专为文本表征与检索排序设计

    今天凌晨,阿里巴巴正式开源 Qwen3 Embedding 系列模型,作为 Qwen 模型家族的最新成员,该系列专注于文本语义表征、信息检索与排序任务,在多语言理解、跨语言检索和代码相关性建模等方面展...
    大语言模型# Qwen3 Embedding# Qwen3 Reranker# 阿里
    9个月前
    01480
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    查看完整榜单