SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1234 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    OmniVoice:小米 K2-FSA 团队开源 600+ 语言零样本 TTS,一句话复刻全球声音

    OmniVoice:小米 K2-FSA 团队开源 600+ 语言零样本 TTS,一句话复刻全球声音

    OmniVoice 是由 小米 K2-Fsa 团队 最新推出的文本转语音(TTS)模型。它打破了传统 TTS 的语言壁垒,支持超过 600 种语言(包括大量低资源语言和方言),并凭借创新的 扩散语言模...
    语音模型# OmniVoice# TTS
    5天前
    0120
    谷歌发布Gemma 4:迄今为止最智能的开放模型,多硬件适配可离线运行

    谷歌发布Gemma 4:迄今为止最智能的开放模型,多硬件适配可离线运行

    今日,谷歌正式推出全新开放模型Gemma 4,并称其为“迄今为止最智能的开放模型”。该模型专为高级推理和智能体工作流打造,核心亮点在于实现了前所未有的单位参数智能水平,既能在自有硬件上高效运行,又能通...
    大语言模型早报# Gemma 4# 谷歌
    5天前
    0140
    英伟达发布 Nemotron OCR v2:企业级多语言文本识别OCR模型

    英伟达发布 Nemotron OCR v2:企业级多语言文本识别OCR模型

    英伟达正式推出了 Nemotron OCR v2,这是一款专为复杂真实世界场景设计的尖端多语言光学字符识别(OCR)模型。作为 NVIDIA NeMo Retriever 系列的核心成员,该模型不仅实...
    多模态模型# Nemotron OCR v# 英伟达
    5天前
    090
    阿里正式发布Qwen3.6-Plus :迈向现实世界智能体的关键一步

    阿里正式发布Qwen3.6-Plus :迈向现实世界智能体的关键一步

    阿里巴巴今日正式宣布 Qwen3.6-Plus 上线,标志着通义千问系列在智能体(Agent)编程与原生多模态推理领域实现了里程碑式的跨越。作为 Qwen3.5 系列的继任者,Qwen3.6-Plus...
    多模态模型# Qwen3.6-Plus# 阿里巴巴
    5天前
    060
    阿里巴巴发布 Wan2.7-Image:集图像生成与编辑于一体的统一模型,人更真、字更稳、色更准

    阿里巴巴发布 Wan2.7-Image:集图像生成与编辑于一体的统一模型,人更真、字更稳、色更准

    阿里巴巴今日正式发布 Wan2.7-Image,一款集图像生成与编辑于一体的统一模型。专为对内容品质有极致要求的创作者打造,Wan2.7-Image 直击当前 AI 生图领域的三大痛点:人物同质化(A...
    图像模型# Wan2.7-Image# 阿里巴巴
    6天前
    0250
    Mugen:基于 Flux 2 VAE 的 SDXL 动漫模型新生,低成本实现高质量角色生成

    Mugen:基于 Flux 2 VAE 的 SDXL 动漫模型新生,低成本实现高质量角色生成

    Mugen 是开发者 Cabal Research 推出的最新动漫生成模型系列。作为从 SDXL 到 Flux 2 VAE 潜空间转换技术的延续,Mugen 不仅重命名以区别于原始的 NoobAI 模...
    图像模型# Mugen# SDXL# 动漫模型
    6天前
    0290
    Liquid AI 发布 LFM2.5-350M:3.5 亿参数的“边缘智能”奇迹,重新定义小模型极限

    Liquid AI 发布 LFM2.5-350M:3.5 亿参数的“边缘智能”奇迹,重新定义小模型极限

    在生成式 AI 领域,“大力出奇迹”的规模法则(Scaling Law)似乎是不可动摇的铁律。然而,Liquid AI 今日发布的 LFM2.5-350M 向这一传统观念发起了有力挑战。这是一个仅有 ...
    大语言模型# LFM2.5-350M# Liquid AI
    6天前
    080
    微软发布 Harrier-OSS-v1:基于解码器架构的多语言嵌入模型新标杆

    微软发布 Harrier-OSS-v1:基于解码器架构的多语言嵌入模型新标杆

    微软正式发布了 Harrier-OSS-v1,这是一套全新的多语言文本嵌入(Text Embedding)模型系列。该系列包含三种不同规模(2.7亿、6亿、270亿参数),并在权威的 多语言 MTEB...
    大语言模型百科# Harrier-OSS-v1# 多语言嵌入模型# 微软
    6天前
    0120
    Chroma 发布 Context-1:20B 参数“侦察兵”模型,重新定义多跳检索与 RAG 架构

    Chroma 发布 Context-1:20B 参数“侦察兵”模型,重新定义多跳检索与 RAG 架构

    在当前的 AI 浪潮中,“大力出奇迹”的上下文窗口扩展策略正面临瓶颈。将数百万 token 强行塞入提示词,不仅带来高昂的延迟和成本,更导致了著名的“迷失在中间(Lost in the Middle...
    大语言模型# Chroma# Context-1
    6天前
    0150
    谷歌推出 Veo 3.1 Lite:最具成本效益的视频生成模型,助力开发者大规模应用

    谷歌推出 Veo 3.1 Lite:最具成本效益的视频生成模型,助力开发者大规模应用

    谷歌今日正式宣布推出 Veo 3.1 Lite,这是其 Veo 3.1 系列中最具成本效益的视频生成模型。该模型现已通过 Gemini API 和 Google AI Studio 向开发者开放,旨在...
    早报视频模型# Veo 3.1 Lite# 谷歌
    7天前
    0140
    LongCat-AudioDiT:美团开源的端到端语音合成模型,直接在波形潜空间生成高保真语音

    LongCat-AudioDiT:美团开源的端到端语音合成模型,直接在波形潜空间生成高保真语音

    美团 LongCat 团队推出了 LongCat-AudioDiT,这是一种基于扩散模型的最新文本转语音(TTS)系统。该模型的核心创新在于摒弃了传统的中间声学特征(如梅尔频谱图),直接在波形潜空间...
    语音模型# LongCat-AudioDiT# TTS# 美团
    7天前
    0100
    See-through:一张静态动漫图,自动“透视”拆分为可动 2.5D 角色

    See-through:一张静态动漫图,自动“透视”拆分为可动 2.5D 角色

    在虚拟主播(VTuber)、游戏开发和视觉小说制作中,将静态插画转化为可互动的 Live2D 模型 是标准流程。然而,传统制作极其耗时:画师需要手动将图片切割成数十个图层,凭想象“脑补”被头发遮挡的脸...
    图像模型# Live2D 模型# See-through
    7天前
    0310
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    S.H.I.T

    S.H.I.T

    在主流学术界为顶刊版面、高影响因子和“非升即走”的考核指标疯狂内卷之时,一场名为“学术垃圾”的反叛运动正在角落里悄然兴起。一群“想开了”的硕博研究生和青年学者(青椒),不再试图迎合传统的学术评价体系,而是隆重推出了一系列名字惊世骇俗的“旗舰”期刊——《SHIT》、《Notrue》、《Silence》、《Crazy》。
    Flova

    新Flova

    Flova AI 最近宣布集成字节跳动最新的视频生成模型——Seedance 2.0。这不仅仅是一个新模型的上线,更意味着普通创作者现在也能轻松制作出长达 60 至 90 秒、角色稳定、剧情连贯的电影级短剧。
    ITELLOU

    ITELLOU

    ITELLYOU(也称为NEXT, ITELLYOU)是一个专注于提供微软原版软件资源的非官方网站,主要帮助用户获取未经修改的微软产品镜像,如Windows操作系统、Office办公软件和开发工具等。
    Tripo

    Tripo

    Tripo AI 是一家领先的 AI 驱动 3D 建模解决方案提供商,允许用户使用文本、单张图像、多张图像、涂鸦或视频等输入,快速创建高质量的 3D 模型和环境。
    即梦 CLI

    即梦 CLI

    即梦 CLI (Jimeng CLI) 是字节跳动官方推出的面向 AI Agent 的命令行工具包。它打破了图形界面的限制,让任何 AI 智能体(如基于 OpenClaw 的助手)都能直接调用即梦强大的 Seedance 2.0 旗舰模型,实现图片与视频的自动化生成。
    CoPaw

    CoPaw

    阿里云旗下阿里桌面 Agent 工具 CoPaw 正式开源,CoPaw 原生支持钉钉、飞书、QQ、Discord、iMessage 等聊天软件和平台,内置了多种 Skills,用户可一键本地部署也可通过阿里云计算巢和魔搭社区创空间实现一键云端部署,并调用千问系列等主流模型,是业界部署门槛最低的 Agent 工具之一。
    查看完整榜单