SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1136 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Multiverse:全球首个开源的非自回归并行推理框架,推理速度提升2倍

    Multiverse:全球首个开源的非自回归并行推理框架,推理速度提升2倍

    卡内基梅隆大学与英伟达联合推出了一项具有突破性的生成模型框架——Multiverse。这是全球首个开源的非自回归(Non-Autoregressive)并行推理框架,在保持与主流自回归模型(AR-LL...
    大语言模型# Multiverse# 推理框架
    8个月前
    01920
    MiniMax正式发布Hailuo 02:全球首个能生成高复杂度体操动作的视频模型

    MiniMax正式发布Hailuo 02:全球首个能生成高复杂度体操动作的视频模型

    MiniMax宣布推出全新视频生成模型——Hailuo 02,这是目前全球唯一一个能够高质量生成如“体操运动”这类高复杂度场景的AI视频模型。 地址:https://hailuoai.com/crea...
    视频模型# Hailuo 02# MiniMax
    8个月前
    02600
    中科院团队推出多模态新模型 Stream-Omni,语音+视觉交互更高效

    中科院团队推出多模态新模型 Stream-Omni,语音+视觉交互更高效

    由中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室以及中国科学院大学联合提出,Stream-Omni 是一种新型的语言-视觉-语音多模态模型。该模型通过高效的模态对齐机...
    语音模型# Stream-Omni# 语言-视觉-语音多模态模型
    8个月前
    02860
    MiniMax发布全球首款开源大规模混合注意力推理模型MiniMax-M1

    MiniMax发布全球首款开源大规模混合注意力推理模型MiniMax-M1

    近日,MiniMax 宣布推出全新大语言模型 MiniMax-M1,这是全球首款开源的大规模混合注意力推理模型,专为复杂任务和长上下文场景设计。 GitHub:https://github.com/M...
    大语言模型# MiniMax# MiniMax-M1
    8个月前
    02550
    月之暗面推出Kimi-Dev-72B:为软件工程任务打造的新一代开源编码大模型

    月之暗面推出Kimi-Dev-72B:为软件工程任务打造的新一代开源编码大模型

    月之暗面推出一款全新的开源编码大语言模型 Kimi-Dev-72B,专为软件工程任务设计。该模型基于 Qwen2.5-72B 微调而来,在 SWE-bench Verified 测试中取得了 60.4...
    大语言模型# Kimi-Dev-72B# 月之暗面
    8个月前
    03250
    清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

    清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

    随着大语言模型(LLMs)和音频语言模型的快速发展,AI 在音乐生成领域的能力显著提升,特别是在 歌词到歌曲生成 的方向上取得了突破性进展。 然而,现有方法仍面临两大核心挑战: 歌曲结构复杂,难以同时...
    语音模型# LeVo# SongGeneration# 音乐生成
    8个月前
    02520
    Nanonets 推出 Nanonets-OCR-s:首个面向 LLM 的结构化 OCR 模型

    Nanonets 推出 Nanonets-OCR-s:首个面向 LLM 的结构化 OCR 模型

    近日,Nanonets 宣布推出一款全新的 OCR 模型 Nanonets-OCR-s ——这是一款专为大语言模型(LLMs)设计的图像转 Markdown 工具,具备强大的文档理解与结构化输出能力...
    多模态模型# Nanonets-OCR-s# OCR 模型
    8个月前
    02860
    微软与 OpenAI 支持,哈佛法学院发起:首个大规模公共 AI 图书数据集正式开源

    微软与 OpenAI 支持,哈佛法学院发起:首个大规模公共 AI 图书数据集正式开源

    上周,由微软与 OpenAI 联合资助、起源于哈佛大学法学院图书馆研究计划的 机构资料计划(Institutional Data Initiative,简称 IDI)宣布开源其首个大型 AI 数据集...
    大语言模型# OpenAI# 哈佛法学院# 微软
    8个月前
    02540
    Holo1:HCompany开源高性能视觉-语言模型,赋能Surfer-H代理实现精准网页交互

    Holo1:HCompany开源高性能视觉-语言模型,赋能Surfer-H代理实现精准网页交互

    Holo1 是由 HCompany 开发的一款专为网络代理系统设计的 动作视觉-语言模型(VLM),作为 Surfer-H 网络代理的核心组件之一,它具备像人类用户一样与网页界面交互的能力。 模型:h...
    多模态模型# Holo1# 视觉-语言模型
    8个月前
    03050
    字节跳动提出MAGREF:支持多参考图像和文本提示的高质量视频生成框架

    字节跳动提出MAGREF:支持多参考图像和文本提示的高质量视频生成框架

    近年来,随着扩散模型等深度生成技术的发展,视频生成能力取得了显著进步。然而,在涉及多个参考主体的场景中,如何保证各主体之间的视觉一致性、身份一致性和生成稳定性,依然是一个重大挑战。 为了解决这一问题...
    视频模型# MAGREF# 字节跳动# 视频生成框架
    8个月前
    02410
    浙大 & vivo 联合发布 MagicTryOn:首个基于扩散 Transformer 的视频虚拟试衣框架

    浙大 & vivo 联合发布 MagicTryOn:首个基于扩散 Transformer 的视频虚拟试衣框架

    在虚拟试衣技术持续发展的背景下,如何在视频中实现自然、真实、连贯的服装模拟,依然是一个极具挑战性的课题。 浙江大学、vivo 和博维智慧科技的研究团队提出了一种全新的视频虚拟试衣(Video Virt...
    视频模型# MagicTryOn# Wan2.1# 视频虚拟试衣
    8个月前
    04910
    告别塑料感!腾讯开源新一代 3D 生成大模型混元 3D 2.1

    告别塑料感!腾讯开源新一代 3D 生成大模型混元 3D 2.1

    在计算机视觉领域顶级会议 CVPR 2025 上,腾讯宣布将旗下 混元 3D 2.1 大模型全面开源,这是目前首个实现全链路开源的工业级 3D 生成大模型,标志着国产 AI 在 3D 内容生成领域的又...
    3D模型# 混元 3D 2.1# 腾讯
    8个月前
    01560
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    查看完整榜单