SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1054 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    英伟达推出世界生成与自适应多模态控制Cosmos-Transfer1

    英伟达推出世界生成与自适应多模态控制Cosmos-Transfer1

    英伟达推出了一个名为 Cosmos World Foundation Model Platform 的平台,旨在为 Physical AI(物理人工智能)提供定制化的世界模型(World Founda...
    视频模型# Cosmos-Transfer1# 英伟达
    10个月前
    03400
    香港科技大学推出统一DiT架构模型AudioX:通过多模态输入(如文本、视频、图像、音乐和音频)生成高质量的音频和音乐

    香港科技大学推出统一DiT架构模型AudioX:通过多模态输入(如文本、视频、图像、音乐和音频)生成高质量的音频和音乐

    香港科技大学的研究人员推出统一DiT架构模型AudioX,通过多模态输入(如文本、视频、图像、音乐和音频)生成高质量的音频和音乐。AudioX通过创新的多模态掩码训练策略,强制模型从掩码输入中学习,从...
    语音模型# AI音乐# AudioX# DiT模型
    10个月前
    04000
    英伟达开源了世界上第一个人形机器人基础模型 GR00T N1,加速通用人形机器人开发

    英伟达开源了世界上第一个人形机器人基础模型 GR00T N1,加速通用人形机器人开发

    人形机器人旨在适应人类工作空间,处理重复性或高要求任务。然而,为现实世界的任务和不可预测环境开发通用人形机器人具有挑战性。每项任务通常需要专用的AI模型。从头开始为每个新任务和环境训练这些模型是一个繁...
    多模态模型# GR00T N1# 人形机器人基础模型# 英伟达
    10个月前
    02830
    阿里通义实验室推出新型模型LHM:能够在几秒钟内从单张图像重建出可动画化的人体三维模型

    阿里通义实验室推出新型模型LHM:能够在几秒钟内从单张图像重建出可动画化的人体三维模型

    阿里通义实验室推出新型模型LHM,能够在几秒钟内从单张图像重建出可动画化的人体三维模型。该模型利用多模态变换器架构,有效融合了人体位置特征和图像特征,通过注意力机制实现了几何和视觉领域的联合推理。 项...
    视频模型# LHM# 阿里通义实验室
    10个月前
    05030
    Stability AI推出3D模型Stable Virtual Camera:具有 3D 相机控制的多视角视频生成,可将将照片转化为沉浸式 3D 场景

    Stability AI推出3D模型Stable Virtual Camera:具有 3D 相机控制的多视角视频生成,可将将照片转化为沉浸式 3D 场景

    Stability AI在今天发布了一款名为 Stable Virtual Camera 的新 AI 模型,能够将 2D 图像转化为具有真实深度和视角的“沉浸式”视频。这一创新工具为数字电影制作和 3...
    3D模型# 3D模型# Stability AI# Stable Virtual Camera
    10个月前
    02440
    昆仑万维开源多模态思维链推理模型 Skywork R1V

    昆仑万维开源多模态思维链推理模型 Skywork R1V

    昆仑万维正式开源了首款工业界多模态思维链推理模型 Skywork R1V,成为中国第一个开源此类模型的企业。这一举措标志着昆仑万维在多模态 AI 领域的领先地位,并为全球开发者和研究人员提供了强大的工...
    大语言模型# Skywork R1V# 多模态思维链推理模型# 昆仑万维
    10个月前
    02080
    腾讯混元开源5款基于Hunyuan3D-2.0的新3D 生成模型

    腾讯混元开源5款基于Hunyuan3D-2.0的新3D 生成模型

    腾讯在本周开启了开源活动周,在腾讯混元 3D 开源日 活动中,腾讯混元团队正式发布了 5 个全新 3D 生成模型,并在其自研的 3D AI 创作引擎 上进行了重大升级。这些新模型和功能不仅在生成速度...
    3D模型# Hunyuan3D-2.0# 腾讯混元 3D
    10个月前
    02260
    小米推出音频推理模型R1-AQA:强化学习助力机器“听懂”声音背后的逻辑

    小米推出音频推理模型R1-AQA:强化学习助力机器“听懂”声音背后的逻辑

    在大模型时代,人们对机器的期望已经不再局限于简单的语音识别或声音分类,而是希望机器能够具备复杂的推理能力。例如,通过汽车座舱的录音判断车辆是否存在潜在故障,从交响乐中推测作曲家的情绪,或者在地铁站的嘈...
    语音模型# R1-AQA# 小米# 音频推理模型
    10个月前
    04950
    视觉语言模型SmolDocling:以高效的方式实现端到端的多模态文档转换

    视觉语言模型SmolDocling:以高效的方式实现端到端的多模态文档转换

    在数字化时代,文档处理和理解是许多行业和研究领域的核心需求。从学术论文到商业报告,从技术手册到专利文件,文档的高效转换和理解对于信息提取、知识管理和自动化流程至关重要。然而,传统的文档处理方法往往依赖...
    多模态模型# SmolDocling# 文档转换# 视觉语言模型
    10个月前
    04990
    Mistral AI发布开源模型Mistral Small 3.1,号称在性能上超越了Gemma 3和GPT-4o Mini等同类模型

    Mistral AI发布开源模型Mistral Small 3.1,号称在性能上超越了Gemma 3和GPT-4o Mini等同类模型

    MistralAI宣布推出Mistral Small 3.1,这一新模型在性能和功能上均达到了同级别模型中的顶尖水平。作为Mistral Small 3的升级版本,3.1版本不仅在文本性能和多模态理解...
    大语言模型# Mistral AI# Mistral Small 3.1# 大语言模型
    10个月前
    01810
    Reka推出210亿参数模型Reka Flash 3,号称性能上可与OpenAI o1-mini等专有模型竞争

    Reka推出210亿参数模型Reka Flash 3,号称性能上可与OpenAI o1-mini等专有模型竞争

    Reka于3月10日开源了Reka Flash 3的最新研究预览版,这是一个拥有210亿参数的模型。Reka Flash 3是一款紧凑的通用模型,擅长通用聊天、编码、指令遵循和函数调用。当前版本在性能...
    大语言模型# Reka# Reka Flash 3
    10个月前
    04240
    SANA模型的升级版SANA 1.5:实现高质量的图像生成,同时显著降低了训练和推理成本

    SANA模型的升级版SANA 1.5:实现高质量的图像生成,同时显著降低了训练和推理成本

    英伟达、麻省理工学院、清华大学、Playground和北京大学的研究团队推出了SANA模型的升级版SANA 1.5,这是一款高效的DiT架构模型,通过创新的训练和推理策略,实现文本到图像生成任务中的高...
    图像模型# DiT架构模型# SANA 1.5# 文生图模型
    10个月前
    03090
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    互联网大厂模拟器

    互联网大厂模拟器

    《互联网大厂模拟器》或许不会改变现实,但它提供了一个出口:在虚拟世界里,我们可以安全地体验“另一种职场人生”,然后笑着关掉页面,继续面对明天的站会。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    MiroFish

    MiroFish

    MiroFish 是一款基于多智能体技术的新一代 AI 预测引擎。通过提取现实世界的种子信息(如突发新闻、政策草案、金融信号),自动构建出高保真的平行数字世界。
    查看完整榜单