SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1237 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    通义千问开源 Qwen3-ASR 与 Qwen3-ForcedAligner:支持流式、多语言、高并发的语音识别与对齐工具

    通义千问开源 Qwen3-ASR 与 Qwen3-ForcedAligner:支持流式、多语言、高并发的语音识别与对齐工具

    Qwen(通义千问)团队正式开源全新一代语音技术方案——Qwen3-ASR系列语音识别模型与Qwen3-ForcedAligner强制对齐模型。该系列包含Qwen3-ASR-1.7B、Qwen3-AS...
    语音模型# Qwen# Qwen3-ASR# Qwen3-ForcedAligner
    2个月前
    0870
    Gemini 3 Flash 引入智能体视觉:视觉推理+代码执行,答案基于视觉证据

    Gemini 3 Flash 引入智能体视觉:视觉推理+代码执行,答案基于视觉证据

    谷歌正式为 Gemini 3 Flash 推出全新能力——智能体视觉,通过将视觉推理与代码执行深度结合,让AI从“静态一瞥”升级为“主动调查”,彻底改变图像理解方式。这项功能可使多数视觉基准测试质量提...
    多模态模型# Gemini 3 Flash# 智能体视觉
    2个月前
    0450
    百度飞桨发布PaddleOCR-VL-1.5:0.9B轻量多模态模型,真实场景文档解析全面SOTA

    百度飞桨发布PaddleOCR-VL-1.5:0.9B轻量多模态模型,真实场景文档解析全面SOTA

    百度飞桨近期完成 PaddleOCR 3.4.0 版本更新,正式推出新一代视觉语言模型 PaddleOCR-VL-1.5。这款面向真实场景的文档解析专用模型,仅0.9B参数量却实现资源高效与性能领先...
    多模态模型# PaddleOCR-VL-1.5# 百度飞桨
    2个月前
    01040
    腾讯混元推出 HunyuanImage 3.0-Instruct:原生多模态图像编辑模型,支持精准编辑与多图融合

    腾讯混元推出 HunyuanImage 3.0-Instruct:原生多模态图像编辑模型,支持精准编辑与多图融合

    腾讯混元项目组正式开源 HunyuanImage 3.0-Instruct —— 一款专注于图像编辑的原生多模态大模型。该模型不仅能理解输入图像的语义内容,还能基于复杂指令进行推理,并生成高保真、高一...
    图像模型# HunyuanImage 3.0-Instruct# 多模态图像编辑模型
    2个月前
    0360
    LingBot-World:蚂蚁灵波开源交互式世界模拟器,支持高保真、长时序、可交互的虚拟环境生成

    LingBot-World:蚂蚁灵波开源交互式世界模拟器,支持高保真、长时序、可交互的虚拟环境生成

    蚂蚁灵波科技正式开源 LingBot-World —— 一个基于视频生成技术构建的交互式世界模拟器。它不是简单的视频合成工具,而是一个能响应用户动作、维持物理逻辑、保持长期一致性的动态虚拟世界框架。项...
    世界模型# LingBot-World# 蚂蚁灵波
    2个月前
    02950
    美团 LongCat 团队发布 LongCat-Flash-Thinking-2601:5600 亿参数智能体推理模型,支持深度思考与抗噪泛化

    美团 LongCat 团队发布 LongCat-Flash-Thinking-2601:5600 亿参数智能体推理模型,支持深度思考与抗噪泛化

    美团 LongCat 团队正式推出 LongCat-Flash-Thinking-2601 —— 一款总参数量达 5600 亿、激活参数仅 270 亿 的高效混合专家(MoE)大模型。该模型专为现实世...
    大语言模型# LongCat# LongCat-Flash-Thinking-2601# 美团
    2个月前
    01240
    美团 LongCat 团队发布 LongCat-Flash-Lite:685 亿参数 MoE 模型,用 N-gram 嵌入表突破推理效率瓶颈

    美团 LongCat 团队发布 LongCat-Flash-Lite:685 亿参数 MoE 模型,用 N-gram 嵌入表突破推理效率瓶颈

    美团 LongCat 团队近日开源了 LongCat-Flash-Lite —— 一款拥有 685 亿总参数、激活参数约 30 亿 的混合专家(MoE)语言模型。它基于 LongCat-Flash 架...
    大语言模型# LongCat# LongCat-Flash-Lite# 美团
    2个月前
    01080
    腾讯优图发布 Youtu-VL:40 亿参数轻量模型,统一处理视觉与语言任务

    腾讯优图发布 Youtu-VL:40 亿参数轻量模型,统一处理视觉与语言任务

    腾讯优图实验室近日开源了 Youtu-VL——一款仅有 40 亿参数 的轻量级视觉语言模型(VLM),却能在无需任务专用模块的前提下,同时胜任通用多模态任务与高难度的以视觉为中心的任务(如图像分割、深...
    多模态模型# Youtu-VL
    2个月前
    01500
    阿里DiffSynth-Studio  项目组推出Z-Image-i2L:从单张图像一键生成风格 LoRA

    阿里DiffSynth-Studio  项目组推出Z-Image-i2L:从单张图像一键生成风格 LoRA

    阿里 DiffSynth-Studio 项目组 推出 Z-Image-i2L(Image to LoRA)模型——一种“以图生 LoRA”的创新方案。只需输入一张或多张风格统一的图像,模型即可自动生成...
    图像模型# DiffSynth-Studio# Z-Image-i2L
    2个月前
    01730
    AI2发布Open Coding Agents:低成本、可复现的开源编程智能体,支持任意私有代码库

    AI2发布Open Coding Agents:低成本、可复现的开源编程智能体,支持任意私有代码库

    过去一年,编程智能体(Coding Agents)显著改变了软件开发流程——从自动调试、重构到提交 PR,它们正逐步成为开发者的新“协作者”。然而,主流系统多为闭源、训练成本高昂,且难以适配私有代码库...
    大语言模型# Ai2# Open Coding Agents# 编程智能体
    2个月前
    0910
    阿里通义 MAX 项目组发布 Z-Image :支持 CFG 与微调,面向专业创作的非蒸馏基础模型

    阿里通义 MAX 项目组发布 Z-Image :支持 CFG 与微调,面向专业创作的非蒸馏基础模型

    在用户热切期盼下,阿里通义 MAX 项目组正式开源 Z-Image 完整版——这是 Z-Image 系列的基础大模型,专为追求最高生成质量、最大创作自由度与最强提示控制力的专业用户设计。 Huggin...
    图像模型# Z-Image# 通义 MAX
    2个月前
    0380
    月之暗面开源最强多模态模型 Kimi K2.5,支持百智能体协同与视觉编程

    月之暗面开源最强多模态模型 Kimi K2.5,支持百智能体协同与视觉编程

    月之暗面(Moonshot AI)正式发布 Kimi K2.5——目前最强的开源多模态大模型。它在 Kimi K2 基础上,基于约 15 万亿混合视觉-文本 Token 进行预训练,不仅在编码与视觉理...
    多模态模型# Kimi K2.5# 月之暗面
    2个月前
    0270
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Flova

    新Flova

    Flova AI 最近宣布集成字节跳动最新的视频生成模型——Seedance 2.0。这不仅仅是一个新模型的上线,更意味着普通创作者现在也能轻松制作出长达 60 至 90 秒、角色稳定、剧情连贯的电影级短剧。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    即梦 CLI

    即梦 CLI

    即梦 CLI (Jimeng CLI) 是字节跳动官方推出的面向 AI Agent 的命令行工具包。它打破了图形界面的限制,让任何 AI 智能体(如基于 OpenClaw 的助手)都能直接调用即梦强大的 Seedance 2.0 旗舰模型,实现图片与视频的自动化生成。
    Meshy

    Meshy

    Meshy 是一款非常适合初学者和专业用户的 3D 模型生成工具。无论是快速建模、3D 打印还是动画设计,它都能轻松应对。如果你对 3D 模型创建感兴趣,不妨试试 Meshy,让生成式 AI 为你的创意插上翅膀!
    查看完整榜单