SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    模型

    共 1020 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    MiniMax发布全球首款开源大规模混合注意力推理模型MiniMax-M1

    MiniMax发布全球首款开源大规模混合注意力推理模型MiniMax-M1

    近日,MiniMax 宣布推出全新大语言模型 MiniMax-M1,这是全球首款开源的大规模混合注意力推理模型,专为复杂任务和长上下文场景设计。 GitHub:https://github.com/M...
    大语言模型# MiniMax# MiniMax-M1
    6个月前
    02050
    月之暗面推出Kimi-Dev-72B:为软件工程任务打造的新一代开源编码大模型

    月之暗面推出Kimi-Dev-72B:为软件工程任务打造的新一代开源编码大模型

    月之暗面推出一款全新的开源编码大语言模型 Kimi-Dev-72B,专为软件工程任务设计。该模型基于 Qwen2.5-72B 微调而来,在 SWE-bench Verified 测试中取得了 60.4...
    大语言模型# Kimi-Dev-72B# 月之暗面
    6个月前
    02460
    清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

    清华、腾讯等联合推出基于语言模型的高质量歌曲生成框架 LeVo

    随着大语言模型(LLMs)和音频语言模型的快速发展,AI 在音乐生成领域的能力显著提升,特别是在 歌词到歌曲生成 的方向上取得了突破性进展。 然而,现有方法仍面临两大核心挑战: 歌曲结构复杂,难以同时...
    语音模型# LeVo# SongGeneration# 音乐生成
    6个月前
    02430
    Nanonets 推出 Nanonets-OCR-s:首个面向 LLM 的结构化 OCR 模型

    Nanonets 推出 Nanonets-OCR-s:首个面向 LLM 的结构化 OCR 模型

    近日,Nanonets 宣布推出一款全新的 OCR 模型 Nanonets-OCR-s ——这是一款专为大语言模型(LLMs)设计的图像转 Markdown 工具,具备强大的文档理解与结构化输出能力...
    多模态模型# Nanonets-OCR-s# OCR 模型
    6个月前
    02560
    告别塑料感!腾讯开源新一代 3D 生成大模型混元 3D 2.1

    告别塑料感!腾讯开源新一代 3D 生成大模型混元 3D 2.1

    在计算机视觉领域顶级会议 CVPR 2025 上,腾讯宣布将旗下 混元 3D 2.1 大模型全面开源,这是目前首个实现全链路开源的工业级 3D 生成大模型,标志着国产 AI 在 3D 内容生成领域的又...
    3D模型# 混元 3D 2.1# 腾讯
    6个月前
    01490
    微软与 OpenAI 支持,哈佛法学院发起:首个大规模公共 AI 图书数据集正式开源

    微软与 OpenAI 支持,哈佛法学院发起:首个大规模公共 AI 图书数据集正式开源

    上周,由微软与 OpenAI 联合资助、起源于哈佛大学法学院图书馆研究计划的 机构资料计划(Institutional Data Initiative,简称 IDI)宣布开源其首个大型 AI 数据集...
    大语言模型# OpenAI# 哈佛法学院# 微软
    6个月前
    02360
    Holo1:HCompany开源高性能视觉-语言模型,赋能Surfer-H代理实现精准网页交互

    Holo1:HCompany开源高性能视觉-语言模型,赋能Surfer-H代理实现精准网页交互

    Holo1 是由 HCompany 开发的一款专为网络代理系统设计的 动作视觉-语言模型(VLM),作为 Surfer-H 网络代理的核心组件之一,它具备像人类用户一样与网页界面交互的能力。 模型:h...
    多模态模型# Holo1# 视觉-语言模型
    6个月前
    02710
    字节跳动提出MAGREF:支持多参考图像和文本提示的高质量视频生成框架

    字节跳动提出MAGREF:支持多参考图像和文本提示的高质量视频生成框架

    近年来,随着扩散模型等深度生成技术的发展,视频生成能力取得了显著进步。然而,在涉及多个参考主体的场景中,如何保证各主体之间的视觉一致性、身份一致性和生成稳定性,依然是一个重大挑战。 为了解决这一问题...
    视频模型# MAGREF# 字节跳动# 视频生成框架
    6个月前
    02250
    浙大 & vivo 联合发布 MagicTryOn:首个基于扩散 Transformer 的视频虚拟试衣框架

    浙大 & vivo 联合发布 MagicTryOn:首个基于扩散 Transformer 的视频虚拟试衣框架

    在虚拟试衣技术持续发展的背景下,如何在视频中实现自然、真实、连贯的服装模拟,依然是一个极具挑战性的课题。 浙江大学、vivo 和博维智慧科技的研究团队提出了一种全新的视频虚拟试衣(Video Virt...
    视频模型# MagicTryOn# Wan2.1# 视频虚拟试衣
    6个月前
    04050
    Sparc3D:用于高分辨率三维形状建模的稀疏表示和构建框架

    Sparc3D:用于高分辨率三维形状建模的稀疏表示和构建框架

    南洋理工大学、Math Magic和伦敦帝国理工学院的研究人员推出一个用于高分辨率三维形状建模的稀疏表示和构建框架 Sparc3D,它通过稀疏可变形的 Marching Cubes(Sparcubes...
    3D模型# Sparc3D
    6个月前
    04580
    英伟达发布 Cosmos-Predict2:打造物理AI的世界基础模型

    英伟达发布 Cosmos-Predict2:打造物理AI的世界基础模型

    在物理AI(Physical AI)系统的开发中,模拟真实世界的动态变化至关重要。为此,英伟达推出了 Cosmos-Predict2,作为其 Cosmos 世界模型 的最新演进版本,专为生成具有物理感...
    多模态模型# Cosmos-Predict2# 世界基础模型# 英伟达
    6个月前
    01970
    LoRA-Edit:首帧引导+掩膜控制,实现高质量视频编辑的新方法

    LoRA-Edit:首帧引导+掩膜控制,实现高质量视频编辑的新方法

    在视频生成与编辑领域,如何在保持整体一致性的同时实现灵活可控的局部修改,一直是一个挑战。近日,来自香港中文大学与商汤研究院的研究团队提出了一种新型视频编辑方法——LoRA-Edit,该方法基于掩膜感知...
    视频模型# LoRA-Edit# 视频编辑
    6个月前
    02450
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    PDF Craft

    新PDF Craft

    PDF Craft是一款专注于扫描版书籍 PDF 转换的开源工具。它利用 DeepSeek OCR 模型,在本地完成从图像型 PDF 到结构化电子书(如 Markdown 或 EPUB)的全流程处理,无需联网,不依赖大语言模型(LLM),适合对隐私、精度与效率有要求的用户。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    查看完整榜单