SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1136 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    智谱AI开源GLM-Image:自回归+扩散混合架构,攻克知识密集型图像生成难题

    智谱AI开源GLM-Image:自回归+扩散混合架构,攻克知识密集型图像生成难题

    智谱AI正式推出GLM-Image——业界首个开源的工业级离散自回归图像生成模型。这款模型创新性地采用自回归模块+扩散解码器的混合架构,既继承了自回归模型对复杂语义的精准理解能力,又兼具扩散模型高保真...
    图像模型# GLM-Image# 智谱AI
    1个月前
    01820
    腾讯优图实验室推出 Youtu-LLM:持 128K 上下文、本地运行,专为端侧 AI 设计

    腾讯优图实验室推出 Youtu-LLM:持 128K 上下文、本地运行,专为端侧 AI 设计

    在大模型普遍走向百亿、千亿参数的今天,腾讯优图实验室推出了一款仅 1.96B 参数的轻量级语言模型——Youtu-LLM。它不追求规模堆砌,而是以 STEM 能力与原生智能体(Agentic)能力为核...
    多模态模型# Youtu-LLM# 腾讯优图实验室
    1个月前
    0300
    ElevenLabs 推出 Scribe v2:支持 90+ 语言的高精度批量转录模型

    ElevenLabs 推出 Scribe v2:支持 90+ 语言的高精度批量转录模型

    ElevenLabs 正式发布 Scribe v2——一款专为大规模音视频内容处理设计的新一代语音转文字模型。与主打低延迟的 Scribe v2 Realtime 不同,Scribe v2 面向批量转...
    语音模型# ElevenLabs# Scribe v2
    1个月前
    01640
    阿里开源 Qwen3-VL 多模态检索模型:Embedding + Reranker 两阶段提升跨模态精度

    阿里开源 Qwen3-VL 多模态检索模型:Embedding + Reranker 两阶段提升跨模态精度

    在多模态 AI 应用日益普及的今天,如何高效检索混合了文本、图像、截图甚至视频的内容,仍是技术难点。传统方案往往依赖多个专用模型,导致系统复杂、语义割裂。 官方说明:https://qwen.ai/b...
    多模态模型# Qwen3-VL-Embedding# Qwen3-VL-Reranker
    1个月前
    0320
    UniVideo:滑铁卢大学与快手推出统一视频生成与编辑模型,支持理解、生成、编辑一体化

    UniVideo:滑铁卢大学与快手推出统一视频生成与编辑模型,支持理解、生成、编辑一体化

    长久以来,视频 AI 能力被割裂为多个独立任务: 理解:靠视觉语言模型(如 Qwen-VL) 生成:依赖扩散模型(如 Sora、HunyuanVideo) 编辑:需专门的编辑网络或掩码引导 这种碎片化...
    视频模型# UniVideo# 视频生成# 视频编辑
    1个月前
    0190
    Nemotron-Speech-Streaming-En-0.6B:面向低延迟与高吞吐的流式语音识别模型

    Nemotron-Speech-Streaming-En-0.6B:面向低延迟与高吞吐的流式语音识别模型

    英伟达推出的 Nemotron-Speech-Streaming-En-0.6B 是 Nemotron Speech 系列中的首个统一语音识别(ASR)模型,专为实时英语转录场景设计。它同时支持低延迟...
    语音模型# Nemotron-Speech-Streaming-En-0.6B# 英伟达# 语音识别
    1个月前
    0220
    Lightricks发布LTX-2:首个基于 DiT 的开源音视频基础模型

    Lightricks发布LTX-2:首个基于 DiT 的开源音视频基础模型

    Lightricks发布了首个基于 Diffusion Transformer(DiT) 架构的开源音视频联合生成模型LTX-2。它在一个统一框架中集成了现代视频生成的核心能力:同步的音频与视频输出...
    视频模型# Lightricks# LTX-2# 音视频模型
    1个月前
    0220
    九坤至知开源代码大模型IQuest‑Coder‑V1:Code‑Flow训练+双路径优化,40B模型重塑代码大模型性能边界

    九坤至知开源代码大模型IQuest‑Coder‑V1:Code‑Flow训练+双路径优化,40B模型重塑代码大模型性能边界

    2026年初,量化基金公司九坤旗下至知创新研究院正式开源IQuest‑Coder‑V1系列代码大模型,涵盖7B、14B、40B、40B‑Loop等版本,专注软件工程与竞赛编程场景,目前已释出40B模型...
    大语言模型# IQuest‑Coder‑V1# 九坤# 代码大模型
    2个月前
    01320
    阿里发布文生图模型Qwen-Image-2512:人像、纹理、文字渲染显著提升

    阿里发布文生图模型Qwen-Image-2512:人像、纹理、文字渲染显著提升

    2025 年 12 月 31 日,阿里 Qwen 项目组发布了 Qwen-Image-2512 —— Qwen-Image 文生图基础模型的最新版本。这是继今年 8 月首次开源 Qwen-Image ...
    图像模型# Qwen-Image-2512# 文生图模型
    2个月前
    0360
    Yume1.5:用一张图或一段文字,生成可实时探索的虚拟世界

    Yume1.5:用一张图或一段文字,生成可实时探索的虚拟世界

    想象一下:你上传一张街景照片,或输入一句描述——“一个穿风衣的男人走在雨夜的东京街头,霓虹灯闪烁,远处有全息广告”——模型随即生成一个可自由行走、视角可调、事件可触发的动态 3D 世界。你用键盘控制角...
    多模态模型# Yume1.5# 世界模型
    2个月前
    0280
    1步顶100步!TwinFlow让Qwen-Image、Z-Image推理提速100倍,无需判别器或教师模型

    1步顶100步!TwinFlow让Qwen-Image、Z-Image推理提速100倍,无需判别器或教师模型

    当前,大规模多模态生成模型(如 Qwen-Image、Z-Image)在图像与视频生成上展现出惊人能力,但其推理效率仍严重受限——标准扩散或流匹配模型通常需 40–100 次函数评估(NFE)才能生成...
    图像模型# TwinFlow# TwinFlow-Qwen-Image# TwinFlow-Z-Image-Turbo
    2个月前
    01150
    fal 发布FLUX.2 Turbo:开源图像模型速度提升6倍,成本降至0.008美元/图

    fal 发布FLUX.2 Turbo:开源图像模型速度提升6倍,成本降至0.008美元/图

    在完成 1.4 亿美元 D 轮融资后,AI 媒体基础设施平台 fal.ai(简称 fal)于年末推出其最新成果:FLUX.2 [dev] Turbo —— 一款基于 Black Forest Labs...
    图像模型# FLUX.2 Turbo
    2个月前
    0900
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    A股智能分析系统

    A股智能分析系统

    A股智能分析系统是基于 AI 大模型的 A 股自选股智能分析系统,每日自动分析并推送「决策仪表盘」到企业微信/飞书/Telegram/邮箱
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    MimiClaw

    MimiClaw

    MimiClaw 把一块小小的 ESP32-S3 开发板变成你的私人 AI 助理。插上 USB 供电,连上 WiFi,通过 Telegram 跟它对话 — 它能处理你丢给它的任何任务,还会随时间积累本地记忆不断进化 — 全部跑在一颗拇指大小的芯片上。
    OpenClaw 一键部署工具

    OpenClaw 一键部署工具

    OpenClaw 一键部署工具是一款专为 AI 爱好者和开发者打造的私人 AI 助手一键部署工具,支持多模型、多消息渠道接入,提供图形界面与命令行两种部署方式,无需复杂的手动配置,就能快速搭建属于自己的跨平台 AI 助手,兼具灵活性与实用性。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    查看完整榜单