SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 工具
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 知识库
  • 导航
  • 百科工具
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 工具
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 知识库
    • 导航
    • 百科工具

    模型

    共 1007 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型
    排序
    发布更新浏览点赞
    InfoSeek:智源研究院提出可扩展的深度研究数据合成框架

    InfoSeek:智源研究院提出可扩展的深度研究数据合成框架

    在大模型迈向“自主思考”的过程中,一个关键瓶颈逐渐显现: 现有基准任务太简单,无法真正测试模型的复杂推理能力。 Natural Questions、HotpotQA 等主流数据集虽然推动了多跳推理的发...
    大语言模型# InfoSeek# 深度研究
    3个月前
    02050
    OpenVision 2:更高效、更对齐的生成式视觉编码器

    OpenVision 2:更高效、更对齐的生成式视觉编码器

    在多模态大模型(MLLM)快速发展的今天,一个核心问题日益凸显:预训练视觉编码器的训练方式是否真的适配下游任务? 传统方法依赖图像-文本对比学习(如 CLIP),但这类模型在接入 LLM 进行微调时...
    多模态模型# OpenVision 2# 视觉编码器
    3个月前
    01250
    Pusa Wan2.2 V1.0:将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构

    Pusa Wan2.2 V1.0:将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构

    Pusa Wan2.2 V1.0 将开创性的 Pusa 范式扩展到先进的 Wan2.2-T2V-A14B 架构,该架构采用 MoE DiT 设计,包含独立的噪声和高噪声模型。这种架构提供了增强的质量控...
    视频模型# Pusa Wan2.2 V1.0# Wan2.2-T2V-A14B
    3个月前
    01590
    快手 Keye 团队发布Keye-VL-1.5 :支持 128K 上下文的视频理解大模型

    快手 Keye 团队发布Keye-VL-1.5 :支持 128K 上下文的视频理解大模型

    在多模态大模型的竞争中,视频理解正成为下一个关键战场。相比图像,视频包含更丰富的时空信息——动作的起止、事件的因果、场景的演变。要让AI真正“看懂”一段视频,不仅需要识别画面内容,还要理解时间逻辑与行...
    多模态模型# Keye-VL-1.5# 快手# 视频理解大模型
    3个月前
    0690
    ElevenLabs 发布音效生成模型SFX v2:音效生成更真实,支持无缝循环

    ElevenLabs 发布音效生成模型SFX v2:音效生成更真实,支持无缝循环

    ElevenLabs 今天推出了其音效生成模型 SFX v2,在音质、功能和使用体验上实现多项重要升级。现在,用户只需输入一段文字提示,即可生成高质量、可循环的环境音效,适用于有声书、播客、视频、冥想...
    语音模型# ElevenLabs# SFX v2# 音效生成模型
    3个月前
    01410
    MetaFold:用语言指导机器人叠衣服,还能通用于不同衣物

    MetaFold:用语言指导机器人叠衣服,还能通用于不同衣物

    让机器人叠衣服,听起来简单,做起来极难。 布料柔软、易变形,同一件T恤每次摆放的形态都不同。这种高度的可变性使得机器人难以像抓取刚性物体那样,靠预设动作完成操作。更别说还要应对不同款式——无袖、短袖...
    多模态模型# MetaFold
    3个月前
    0850
    瑞士发布国家级开源大模型 Apertus,构建自主可控、合规透明的AI基础设施

    瑞士发布国家级开源大模型 Apertus,构建自主可控、合规透明的AI基础设施

    瑞士近日正式推出其国家级开源大语言模型 Apertus,标志着该国在构建自主可控、合规透明的人工智能基础设施方面迈出关键一步。 这一模型由 洛桑联邦理工学院(EPFL)、苏黎世联邦理工学院(ETH Z...
    大语言模型# Apertus# 开源大模型# 瑞士
    3个月前
    02360
    阿里发布 AgentScope 1.0:面向生产级智能体的开源开发框架

    阿里发布 AgentScope 1.0:面向生产级智能体的开源开发框架

    阿里巴巴近日正式推出 AgentScope 1.0 —— 一个以开发者为核心的开源智能体(Agent)开发框架,致力于解决当前智能体应用在可控性、可维护性和落地部署方面的关键挑战。 不同于仅聚焦于单点...
    大语言模型# AgentScope 1.0# 智能体开发框架# 阿里巴巴
    4个月前
    01600
    腾讯微信视觉团队发布 Stand-In:轻量级身份保持视频生成新框架

    腾讯微信视觉团队发布 Stand-In:轻量级身份保持视频生成新框架

    在文本到视频(T2V)生成领域,一个长期存在的难题是:如何让生成的视频中的人物始终“长成你想要的样子”? 尽管现有模型能生成流畅、高质量的视频,但在身份一致性(identity-preserving...
    视频模型# Stand-In# 视频生成框架
    4个月前
    04110
    腾讯发布混元世界模型 - Voyager:单图生成 3D 场景,实现长距离沉浸式探索

    腾讯发布混元世界模型 - Voyager:单图生成 3D 场景,实现长距离沉浸式探索

    腾讯今天正式推出混元世界模型 - Voyager(HunyuanWorld-Voyager),这是一款创新的视频扩散框架。其核心能力在于:基于单张输入图像即可生成具备世界一致性的 3D 点云,支持用户...
    视频模型# HunyuanWorld-Voyager# 混元世界模型 - Voyager# 腾讯
    4个月前
    0660
    艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

    艾伦AI研究所推出全新开源 ASR 模型家族OLMoASR

    在自动语音识别(ASR)领域,Whisper 一直是开源社区的标杆——强大、鲁棒、支持零样本迁移。但它有一个根本局限:训练数据未公开,模型行为难以分析,也无法完全复现。 现在,艾伦人工智能研究所(AI...
    语音模型# OLMoASR# 艾伦AI研究所
    4个月前
    0960
    阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点

    阶跃星辰发布开源语音大模型Step-Audio 2 mini:多任务性能登顶SOTA,攻克语音AI“智商情商”痛点

    今日,阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini,该模型在音频理解、语音识别、翻译及对话等多个国际基准测试集中均斩获SOTA(state-of-the-art,当前最优)成...
    语音模型# Step-Audio 2 mini# 阶跃星辰
    4个月前
    01780
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    友链申请免责声明广告合作关于我们

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2025 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    朱雀大模型检测

    朱雀大模型检测

    腾讯朱雀 AI 检测是于 2025 年 1 月 17 日推出的一款 AI 生成内容检测工具,主要用于帮助用户识别 AI 生成的文本和图像内容。每位用户每天最多可检测20次文本和20次图片。
    Amazon Bedrock

    Amazon Bedrock

    Amazon Bedrock 是亚马逊AWS推出的一项完全托管的服务,旨在为用户提供一种简单、安全且高效的方式来构建和部署生成式AI应用程序。通过整合来自多家行业领先AI公司的高性能基础模型,Bedrock 提供了一个统一的API接口,使开发者能够轻松试验、评估并定制适合其特定需求的模型。此外,Bedrock 的无服务器架构让用户无需管理底层基础设施,从而专注于应用开发与优化。
    Google AI Studio

    Google AI Studio

    Google AI Studio 是一个功能齐全的工具,特别适合希望快速构建和试验 AI 应用的开发者。其多模态支持、提示库和与 Gemini API 的无缝集成使其成为生成 AI 开发的有力平台。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    Higgsfield AI

    Higgsfield AI

    Higgsfield AI平台支持文生图和图生视频,近期对图生视频功能进行了全面升级,专为追求高质量、风格化内容创作并渴望真正电影级操控的创意人士打造——无论是MV导演、商业片制作人、AI创作者,还是社交媒体叙事者。
    查看完整榜单