SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 知识库
  • 排行榜
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 知识库
    • 排行榜

    模型

    共 1020 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    谷歌开源实时音乐生成模型 Magenta RealTime:8亿参数,支持文本/音频操控

    谷歌开源实时音乐生成模型 Magenta RealTime:8亿参数,支持文本/音频操控

    今天,Google DeepMind 宣布开源一款名为 Magenta RealTime 的实时音乐生成模型。该模型基于 Apache 2.0 许可证发布,具备实时交互能力,能够根据文本提示或音频示例...
    语音模型# Magenta RealTime# 音乐生成模型
    6个月前
    02820
    Mistral AI 发布 Mistral Small 3.2:小幅迭代,体验提升

    Mistral AI 发布 Mistral Small 3.2:小幅迭代,体验提升

    Mistral AI 推出了其中型模型系列的新版本——Mistral Small 3.2。这是对上一版 Mistral Small 3.1 的一次轻量级升级,在多个关键使用场景中带来了显著优化。 模型...
    大语言模型# Mistral AI# Mistral Small 3.2
    6个月前
    01220
    字节跳动推出新型框架ImmerseGen:用于从文本提示自动生成沉浸式 3D 场景

    字节跳动推出新型框架ImmerseGen:用于从文本提示自动生成沉浸式 3D 场景

    字节跳动和浙江大学的研究人员推出新型框架ImmerseGen ,用于从文本提示自动生成沉浸式 3D 场景。ImmerseGen 通过使用轻量级的几何代理(如简化地形和带有 alpha 通道的纹理平面...
    3D模型# ImmerseGen# 字节跳动
    6个月前
    02030
    UltraVideo 与 UltraWAN:首个支持原生 UHD 视频生成的开源数据集与模型

    UltraVideo 与 UltraWAN:首个支持原生 UHD 视频生成的开源数据集与模型

    随着高质量视频内容需求的快速增长,如电影级超高清(UHD)制作、沉浸式媒体和短视频创作,对文本到视频(T2V)模型的能力提出了更高要求。 然而,现有公开数据集在分辨率、图像质量及字幕细节方面存在明显不...
    视频模型# UltraVideo# UltraWAN# UltraWanComfy
    6个月前
    03600
    EmoNet:迈向真正“有情感”的AI,LAION开源新一代情感智能模型

    EmoNet:迈向真正“有情感”的AI,LAION开源新一代情感智能模型

    人工智能的发展正进入一个全新的阶段:从理解语言到理解情绪。尽管AI在语言处理、推理能力等方面取得了显著进展,但在情感智能(Affective Intelligence)这一维度上,仍然存在巨大空白。 ...
    多模态模型# EmoNet# LAION AI# 情感智能模型
    6个月前
    02450
    新型训练范式Self Forcing:用于自回归视频扩散模型,解决模型在训练和推理时的分布不一致问题

    新型训练范式Self Forcing:用于自回归视频扩散模型,解决模型在训练和推理时的分布不一致问题

    Adob​​e研究和德克萨斯大学奥斯汀分校的研究人员推出新型训练范式Self Forcing ,用于自回归视频扩散模型,旨在解决模型在训练和推理时的分布不一致问题(即暴露偏差问题),从而提高视频生成的...
    视频模型# Self Forcing# 训练范式
    6个月前
    04170
    EdgeTAM:Meta 与南洋理工等联合推出可在手机运行的视频分割模型,比 SAM 2 快 22 倍

    EdgeTAM:Meta 与南洋理工等联合推出可在手机运行的视频分割模型,比 SAM 2 快 22 倍

    由 Meta Reality 实验室、南洋理工大学 和 上海人工智能实验室 联合提出的新模型 EdgeTAM 引起了广泛关注。该模型是对 Segment Anything Model 2(SAM 2...
    视频模型# EdgeTAM# SAM 2# 视频分割模型
    6个月前
    02380
    Midjourney 正式发布 V1 视频模型:从文本到视频,AI创作迈入新阶段

    Midjourney 正式发布 V1 视频模型:从文本到视频,AI创作迈入新阶段

    6月18日,Midjourney 宣布正式推出其首款视频生成模型 V1,标志着这家以图像生成闻名的 AI 公司,正式进军视频内容创作领域。 这一更新不仅打通了原有的图文生成生态,还实现了从文本直接生成...
    视频模型# Midjourney
    6个月前
    01120
    Jan-Nano:40亿参数的紧凑型研究专用语言模型正式上线

    Jan-Nano:40亿参数的紧凑型研究专用语言模型正式上线

    Menlo发布一款专为深度研究任务设计的小型语言模型 Jan-Nano 。该模型拥有 40亿参数规模,在保证轻量级部署的同时展现出强大的推理能力。此模型基于 Qwen3-4B 构建,并经过 DAPO ...
    大语言模型# Jan-Nano# 小型语言模型
    6个月前
    02660
    Multiverse:全球首个开源的非自回归并行推理框架,推理速度提升2倍

    Multiverse:全球首个开源的非自回归并行推理框架,推理速度提升2倍

    卡内基梅隆大学与英伟达联合推出了一项具有突破性的生成模型框架——Multiverse。这是全球首个开源的非自回归(Non-Autoregressive)并行推理框架,在保持与主流自回归模型(AR-LL...
    大语言模型# Multiverse# 推理框架
    6个月前
    01480
    MiniMax正式发布Hailuo 02:全球首个能生成高复杂度体操动作的视频模型

    MiniMax正式发布Hailuo 02:全球首个能生成高复杂度体操动作的视频模型

    MiniMax宣布推出全新视频生成模型——Hailuo 02,这是目前全球唯一一个能够高质量生成如“体操运动”这类高复杂度场景的AI视频模型。 地址:https://hailuoai.com/crea...
    视频模型# Hailuo 02# MiniMax
    6个月前
    01890
    中科院团队推出多模态新模型 Stream-Omni,语音+视觉交互更高效

    中科院团队推出多模态新模型 Stream-Omni,语音+视觉交互更高效

    由中国科学院计算技术研究所智能信息处理重点实验室、中国科学院人工智能安全重点实验室以及中国科学院大学联合提出,Stream-Omni 是一种新型的语言-视觉-语音多模态模型。该模型通过高效的模态对齐机...
    语音模型# Stream-Omni# 语言-视觉-语音多模态模型
    6个月前
    02570
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    人生 K 线

    人生 K 线

    人生 K 线(Life Destiny K-Line)是一个结合传统八字命理与现代大语言模型(LLM)的轻量级可视化工具。它将一个人从 1 岁到 100 岁的运势走势,以类似股票 K 线图的形式呈现,试图用数据可视化的方式“翻译”命理推演结果。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    PDF Craft

    新PDF Craft

    PDF Craft是一款专注于扫描版书籍 PDF 转换的开源工具。它利用 DeepSeek OCR 模型,在本地完成从图像型 PDF 到结构化电子书(如 Markdown 或 EPUB)的全流程处理,无需联网,不依赖大语言模型(LLM),适合对隐私、精度与效率有要求的用户。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    查看完整榜单