SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    模型

    共 1007 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    Pusa Wan2.2 V1.0:将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构

    Pusa Wan2.2 V1.0:将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构

    Pusa Wan2.2 V1.0 将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构,该架构采用 MoE DiT 设计,包含独立的噪声和高噪声模型。这种架构提供了增强的质量控...
    视频模型# Pusa Wan2.2 V1.0# Wan2.2-T2V-A14B
    3个月前
    01590
    快手 Keye 团队发布Keye-VL-1.5 :支持 128K 上下文的视频理解大模型

    快手 Keye 团队发布Keye-VL-1.5 :支持 128K 上下文的视频理解大模型

    在多模态大模型的竞争中,视频理解正成为下一个关键战场。相比图像,视频包含更丰富的时空信息——动作的起止、事件的因果、场景的演变。要让AI真正“看懂”一段视频,不仅需要识别画面内容,还要理解时间逻辑与行...
    多模态模型# Keye-VL-1.5# 快手# 视频理解大模型
    3个月前
    0690
    ElevenLabs 发布音效生成模型SFX v2:音效生成更真实,支持无缝循环

    ElevenLabs 发布音效生成模型SFX v2:音效生成更真实,支持无缝循环

    ElevenLabs 今天推出了其音效生成模型 SFX v2,在音质、功能和使用体验上实现多项重要升级。现在,用户只需输入一段文字提示,即可生成高质量、可循环的环境音效,适用于有声书、播客、视频、冥想...
    语音模型# ElevenLabs# SFX v2# 音效生成模型
    3个月前
    01420
    MetaFold:用语言指导机器人叠衣服,还能通用于不同衣物

    MetaFold:用语言指导机器人叠衣服,还能通用于不同衣物

    让机器人叠衣服,听起来简单,做起来极难。 布料柔软、易变形,同一件T恤每次摆放的形态都不同。这种高度的可变性使得机器人难以像抓取刚性物体那样,靠预设动作完成操作。更别说还要应对不同款式——无袖、短袖...
    多模态模型# MetaFold
    3个月前
    0850
    瑞士发布国家级开源大模型 Apertus,构建自主可控、合规透明的AI基础设施

    瑞士发布国家级开源大模型 Apertus,构建自主可控、合规透明的AI基础设施

    瑞士近日正式推出其国家级开源大语言模型 Apertus,标志着该国在构建自主可控、合规透明的人工智能基础设施方面迈出关键一步。 这一模型由 洛桑联邦理工学院(EPFL)、苏黎世联邦理工学院(ETH Z...
    大语言模型# Apertus# 开源大模型# 瑞士
    4个月前
    02360
    阿里发布 AgentScope 1.0:面向生产级智能体的开源开发框架

    阿里发布 AgentScope 1.0:面向生产级智能体的开源开发框架

    阿里巴巴近日正式推出 AgentScope 1.0 —— 一个以开发者为核心的开源智能体(Agent)开发框架,致力于解决当前智能体应用在可控性、可维护性和落地部署方面的关键挑战。 不同于仅聚焦于单点...
    大语言模型# AgentScope 1.0# 智能体开发框架# 阿里巴巴
    4个月前
    01600
    腾讯发布混元世界模型 - Voyager:单图生成 3D 场景,实现长距离沉浸式探索

    腾讯发布混元世界模型 - Voyager:单图生成 3D 场景,实现长距离沉浸式探索

    腾讯今天正式推出混元世界模型 - Voyager(HunyuanWorld-Voyager),这是一款创新的视频扩散框架。其核心能力在于:基于单张输入图像即可生成具备世界一致性的 3D 点云,支持用户...
    视频模型# HunyuanWorld-Voyager# 混元世界模型 - Voyager# 腾讯
    4个月前
    0660
    艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

    艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

    在自动语音识别(ASR)领域,Whisper 一直是开源社区的标杆——强大、鲁棒、支持零样本迁移。但它有一个根本局限:训练数据未公开,模型行为难以分析,也无法完全复现。 现在,艾伦人工智能研究所(AI...
    语音模型# OLMoASR# 艾伦AI研究所
    4个月前
    0960
    腾讯混元开源轻量级翻译模型 Hunyuan-MT-7B:33语种互译,小模型也能大作为

    腾讯混元开源轻量级翻译模型 Hunyuan-MT-7B:33语种互译,小模型也能大作为

    腾讯混元宣布将其国际翻译模型 Hunyuan-MT-7B 正式开源,供全球开发者免费下载与本地部署。同时开源的还有业界首个翻译集成模型 Hunyuan-MT-Chimera-7B(奇美拉),支持多译文...
    大语言模型# Hunyuan-MT-7B# 翻译模型# 腾讯
    4个月前
    01690
    阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点

    阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点

    今日,阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini,该模型在音频理解、语音识别、翻译及对话等多个国际基准测试集中均斩获SOTA(state-of-the-art,当前最优)成...
    语音模型# Step-Audio 2 mini# 阶跃星辰
    4个月前
    01780
    CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

    CoMPaSS:让AI“看懂”空间关系,提升文生图模型的空间理解能力

    尽管当前的文本到图像(Text-to-Image, T2I)扩散模型能够生成高度逼真的图像,但在一个关键任务上仍频频失手:准确理解并渲染文本中描述的空间关系。 例如,当用户输入: “一个棕色皮革沙发放...
    图像模型# CoMPaSS
    4个月前
    01460
    蚂蚁集团开源医学智能体MedResearcher-R1:以知识引导技术破解领域AI推理难题

    蚂蚁集团开源医学智能体MedResearcher-R1:以知识引导技术破解领域AI推理难题

    蚂蚁集团正式开源医学智能体 MedResearcher-R1,同时对外公开模型及合成数据生成方法。这一智能体聚焦医学领域AI推理的核心痛点,通过“知识图谱构建-轨迹生成-评估验证”的全流程框架,为领域...
    多模态模型# MedResearcher-R1# 医学智能体# 蚂蚁集团
    4个月前
    0790
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Disco

    Disco

    谷歌推出浏览器 AI 实验产品 Disco,由 Gemini 大模型驱动,能直接把你打开的浏览器标签页,变成量身定制的交互式网页应用 —— 也就是谷歌口中的 GenTabs。不用写一行代码,只需自然语言提示,就能打造专属于你的效率工具。
    DiffRhythm(谛韵)

    DiffRhythm(谛韵)

    DiffRhythm(中文名“谛韵”)是由西北工业大学音频、语音与语言处理研究组(ASLP Lab)和香港中文大学(深圳)深圳大数据研究院联合开发的新型端到端全长度歌曲生成模型。基于潜扩散(Latent Diffusion)技术,DiffRhythm 能够快速生成包含人声和伴奏的完整歌曲,解决了现有音乐生成方法的诸多局限性。
    秒哒

    秒哒

    百度秒哒,由百度智能云倾力打造的国内首个“对话式”应用开发平台,正式全量上线。作为一款无代码工具,秒哒致力于让每个人都能通过自然语言描述需求,自动生成完整功能代码,轻松实现创意想法。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    查看完整榜单