SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1136 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    BRIA AI 推出 Bria 3.2:专为商业设计的下一代文本到图像模型

    BRIA AI 推出 Bria 3.2:专为商业设计的下一代文本到图像模型

    BRIA AI 正式发布其最新文本到图像模型 Bria 3.2。作为一款专为企业和商业应用打造的生成模型,Bria 3.2 凭借仅 40 亿参数 的轻量架构,在美学效果与文本渲染能力方面表现优异,经评...
    图像模型# Bria 3.2# BRIA AI
    8个月前
    01670
    中科大 & 港科大联合推出 LongAnimation :实现长动画自动上色的新框架

    中科大 & 港科大联合推出 LongAnimation :实现长动画自动上色的新框架

    来自中国科学技术大学与香港科技大学的研究团队联合提出了一种名为 LongAnimation 的新型动画着色框架。该框架旨在实现长动画序列的自动化着色,并在整个动画过程中保持长期的颜色一致性。 项目主页...
    视频模型# LongAnimation# 动画自动上色
    8个月前
    02030
    快手 Keye 团队发布 Kwai Keye-VL :专注短视频理解的多模态大模型

    快手 Keye 团队发布 Kwai Keye-VL :专注短视频理解的多模态大模型

    快手 Keye 团队近日推出了一款全新的多模态大型语言模型(MLLM)——Kwai Keye-VL。该模型拥有 80 亿参数,专注于提升对短视频的理解能力,同时保持强大的通用视觉-语言能力。 GitH...
    多模态模型# Kwai Keye-VL# 多模态大模型# 快手
    8个月前
    02710
    百度开源 ERNIE 4.5:覆盖 0.3B 到 424B 参数的大型语言模型系列

    百度开源 ERNIE 4.5:覆盖 0.3B 到 424B 参数的大型语言模型系列

    百度正式开源了其最新的 ERNIE 4.5 系列,这是继 ERNIE 系列之后又一重磅发布的基础语言模型家族。该系列包含 10 款不同规模与架构的模型,从仅 0.3B(十亿)参数的小型密集模型 到高达...
    大语言模型# ERNIE 4.5# 百度
    8个月前
    03240
    字节跳动提出的新一代多主体可控图像生成模型XVerse

    字节跳动提出的新一代多主体可控图像生成模型XVerse

    在文本到图像生成领域,如何实现对多个主体身份和语义属性(如姿势、风格、照明)的细粒度控制,同时保持高质量和一致性,一直是一个极具挑战性的问题。 传统方法往往存在以下问题: 在多主体场景中容易引入视觉伪...
    图像模型# XVerse# 图像生成模型
    8个月前
    04100
    阿里 Qwen 项目组正式推出全新多模态模型Qwen VLo

    阿里 Qwen 项目组正式推出全新多模态模型Qwen VLo

    随着多模态大模型的不断发展,我们对技术边界的认知也在持续被刷新。从最初的 QwenVL 到如今的 Qwen2.5 VL,我们在提升模型图像理解能力方面不断取得进步。 项目主页:https://qwen...
    多模态模型# Qwen VLo# Qwen 项目组# 阿里巴巴
    8个月前
    02100
    阿里通义项目组更新 Qwen-TTS:合成语音自然度接近人类水平

    阿里通义项目组更新 Qwen-TTS:合成语音自然度接近人类水平

    阿里通义实验室通过 Qwen API 发布了最新版本的 Qwen-TTS 语音合成模型(支持 qwen-tts-latest 或 qwen-tts-2025-05-22)。该模型在语音合成领域实现了多...
    语音模型# Qwen-TTS
    8个月前
    04010
    Jina AI推出文本嵌入模型Jina Embeddings v4:多模态多语言检索的通用嵌入模型

    Jina AI推出文本嵌入模型Jina Embeddings v4:多模态多语言检索的通用嵌入模型

    Jina AI正式发布 jina-embeddings-v4 —— 一款全新的38亿参数通用嵌入模型,支持文本与图像输入,适用于多种检索任务。该模型在多个基准测试中表现优异,特别是在处理表格、图表等视...
    多模态模型# Jina AI# Jina Embeddings v4# 文本嵌入模型
    8个月前
    03510
    JarvisArt:由AI驱动的照片修饰智能体,释放你的艺术创造力

    JarvisArt:由AI驱动的照片修饰智能体,释放你的艺术创造力

    来自厦门大学、香港科技大学(广州)、字节跳动、新加坡国立大学等机构的研究人员联合推出了一项令人瞩目的新成果 —— JarvisArt。这是一个由多模态大语言模型(MLLM)驱动的照片修饰智能体,能够理...
    图像模型# JarvisArt# 照片修饰智能体
    8个月前
    03870
    谷歌发布 Gemma 3n:为移动设备而生的高效多模态AI模型

    谷歌发布 Gemma 3n:为移动设备而生的高效多模态AI模型

    继去年首款 Gemma 模型发布以来,Gemmaverse 生态系统迅速壮大,累计下载量突破 1.6亿次,覆盖从安全防护到医疗应用等十余个专业领域。社区创新成果斐然,例如 Roboflow 打造的企业...
    大语言模型# Gemma 3n# 谷歌
    8个月前
    01780
    腾讯推出全新MoE模型Hunyuan-A13B:小参数、高性能的AI新选择

    腾讯推出全新MoE模型Hunyuan-A13B:小参数、高性能的AI新选择

    在大模型持续演进的过程中,如何在提升性能的同时控制资源消耗,成为行业面临的关键挑战。腾讯最新推出的 Hunyuan-A13B 模型,正是这一问题的创新性解决方案。该模型采用混合专家(MoE)架构,在仅...
    大语言模型# Hunyuan-A13B# 腾讯
    8个月前
    01540
    黑森林实验室正式发布图像编辑模型FLUX.1 Kontext [dev]

    黑森林实验室正式发布图像编辑模型FLUX.1 Kontext [dev]

    截至今日,所有高性能的生成式图像编辑模型均为专有工具。今天,这一局面发生了改变。 黑森林实验室(Black Forest Labs)发布了 FLUX.1 Kontext [dev],这是 FLUX.1...
    图像模型# FLUX.1 Kontext [dev]# 图像编辑模型# 黑森林实验室
    8个月前
    06080
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    YouMind

    YouMind

    YouMind 是一款重新构想的 AI 写作工具,帮助每个人轻松开启创作之旅。捕捉灵感、收集素材、撰写草稿,并将其转化为精炼的文章、播客、视频等丰富内容。
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
     CutCut

     CutCut

    CutCut是一个视频下载与剪辑工具,支持从 YouTube、Bilibili 等主流平台直接按章节或自定义时间范围下载片段,无需先下完整视频再剪辑。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    Fogsight (雾象)

    Fogsight (雾象)

    雾象是一款由大语言模型(LLM)驱动的动画引擎 agent 。用户输入抽象概念或词语,雾象会将其转化为高水平的生动动画。
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    查看完整榜单