SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    模型

    共 995 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    SpatialGen:布局引导的多模态扩散模型,高效生成高保真3D室内场景

    SpatialGen:布局引导的多模态扩散模型,高效生成高保真3D室内场景

    在室内设计、VR/AR开发、机器人训练等领域,“高保真3D室内场景模型”是核心基础——设计师需要用它预览方案效果,VR设备需要靠它构建沉浸式环境,机器人则依赖它模拟真实导航场景。但长期以来,3D室内场...
    3D模型# 3D室内场景# SpatialGen
    3个月前
    0940
    Stable Part Diffusion 4D:单目输入驱动多视图RGB与运动部件视频生成

    Stable Part Diffusion 4D:单目输入驱动多视图RGB与运动部件视频生成

    在动画制作、AR/VR开发、机器人运动规划等领域,“从单视角视觉信息生成多视图内容+结构化运动部件”是长期存在的技术难点——传统方法要么依赖多设备采集,要么难以保证运动部件在时间与空间上的一致性。 项...
    3D模型# SP4D# Stable Part Diffusion 4D
    3个月前
    0620
    字节跳动提出OmniInsert:无需遮罩,任意对象都能自然插入视频

    字节跳动提出OmniInsert:无需遮罩,任意对象都能自然插入视频

    在影视后期、广告制作乃至虚拟内容创作中,“将一个新角色或物体自然地加入已有视频”是一项高频需求。传统方法依赖精确的遮罩标注、关键帧追踪和复杂的合成流程,成本高、耗时长。 近期,基于扩散模型的技术为这一...
    视频模型# OmniInsert# 字节跳动# 视频编辑
    3个月前
    01490
    LIMI :少即是多,78个样本如何训练出高效AI智能体

    LIMI :少即是多,78个样本如何训练出高效AI智能体

    由上海交通大学、上海创智学院、香港理工大学、中国科学技术大学与GAIR联合开展的一项研究,最近提出了一个名为 LIMI 的新方法——全称为 Less is More for Intelligent A...
    大语言模型# LIMI# 智能体
    3个月前
    01520
    阿里通义实验室推出Qwen3-Omni:支持文本、语音、图像、视频的全模态大模型

    阿里通义实验室推出Qwen3-Omni:支持文本、语音、图像、视频的全模态大模型

    通义实验室正式推出 Qwen3-Omni——一款统一处理多模态输入并支持流式文本与语音输出的大语言模型。该模型已在 Qwen API 平台上线,开发者可通过接口体验其在音频对话、跨模态理解与指令执行方...
    多模态模型# Qwen3-Omni# 通义实验室
    3个月前
    01470
    Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型

    Qwen3-TTS-Flash 发布:支持多音色、多语言与多方言的语音合成模型

    通义实验室近日推出 Qwen3-TTS-Flash,一款面向多场景应用的高性能文本转语音(TTS)模型。该模型现已通过 Qwen API 开放访问,支持自然、流畅且富有表现力的语音生成。 API:ht...
    语音模型# Qwen3-TTS-Flash# 语音合成模型
    3个月前
    01960
    阿里通义实验室Qwen项目组推出图像编辑模型 Qwen-Image-Edit新版本 Qwen-Image-Edit-2509:支持多图输入与更强一致性

    阿里通义实验室Qwen项目组推出图像编辑模型 Qwen-Image-Edit新版本 Qwen-Image-Edit-2509:支持多图输入与更强一致性

    通义实验室发布 Qwen-Image-Edit-2509,作为 Qwen-Image-Edit 系列的月度迭代版本。该模型已在 Qwen Chat 平台上线,用户可通过“图像编辑”功能直接体验。 Hu...
    图像模型# Qwen-Image-Edit# Qwen-Image-Edit-2509# 图像编辑模型
    3个月前
    03730
    美团 LongCat 团队发布 LongCat-Flash-Thinking:具备形式化与智能体推理能力的新一代高效推理模型

    美团 LongCat 团队发布 LongCat-Flash-Thinking:具备形式化与智能体推理能力的新一代高效推理模型

    美团 LongCat 团队正式推出 LongCat-Flash-Thinking——一款专注于高复杂度任务推理的大型语言模型(LRM)。该模型在保持前代 LongCat-Flash-Chat 高效响应...
    大语言模型# LongCat-Flash-Thinking# 推理模型# 美团
    3个月前
    01370
    Qianfan-VL:百度推出的多模态大模型系列,面向企业级视觉语言任务

    Qianfan-VL:百度推出的多模态大模型系列,面向企业级视觉语言任务

    由百度 AI 云团队研发,Qianfan-VL 是一系列参数规模从 3B 到 70B 的多模态大语言模型(MLLM),专注于提升企业在文档理解、OCR识别和数学推理等高频场景下的自动化能力。 项目主页...
    多模态模型# Qianfan-VL# 多模态大模型# 百度
    3个月前
    0870
    LatticeWorld:基于多模态指令的高效 3D 世界生成框架

    LatticeWorld:基于多模态指令的高效 3D 世界生成框架

    由网易、北京航空航天大学、清华大学与香港城市大学联合研究团队提出,LatticeWorld 是一个面向复杂 3D 虚拟环境自动生成的新框架。它通过融合轻量级大型语言模型(LLM)与工业级渲染引擎,探索...
    3D模型# LatticeWorld
    3个月前
    0840
    Mini-Omni-Reasoner:将推理能力引入大型语音模型,让语音模型“边说边思考”

    Mini-Omni-Reasoner:将推理能力引入大型语音模型,让语音模型“边说边思考”

    由南洋理工大学、新加坡国立大学、腾讯、北京工业大学与北京航空航天大学联合研发,Mini-Omni-Reasoner 正式推出——这是一次将推理能力引入大型语音模型(Large Speech Model...
    语音模型# Mini-Omni-Reasoner# 语音思考模型
    3个月前
    01850
    苹果发布多模态统一模型Manzano:能够同时理解和生成视觉内容

    苹果发布多模态统一模型Manzano:能够同时理解和生成视觉内容

    苹果发布多模态统一模型Manzano,它能够同时理解和生成视觉内容。该模型通过结合一个混合图像标记化器和精心设计的训练方案,显著减少了在理解和生成能力之间的性能权衡。Manzano 在统一模型中实现了...
    多模态模型# Manzano# 多模态统一模型
    3个月前
    01010
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    Grok

    Grok

    Grok是一款先进的对话式人工智能。Grok 旨在提供高效、准确且自然的对话交互体验,适用于多种应用场景,包括客户服务、虚拟助手、教育辅导等。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    NotebookLM

    NotebookLM

    NotebookLM是谷歌推出的一款个性化AI协作工具,旨在帮助用户更高效地进行信息整理和笔记记录。利用强大的语言模型帮助用户更快地从各种文本、图像以及网页中提取主要信息。
    录咖

    录咖

    录咖以其强大的 AI 技术和丰富的功能,为音视频创作和处理带来了前所未有的便捷体验。无论你是创作者、教育工作者还是普通用户,录咖都能成为你得力的助手。
    查看完整榜单