SD百科导航
  • 首页
  • 快讯
  • 早报
  • 模型
  • ComfyUI
  • 新技术
  • 百科
    • 教程
    • 硬件
    • 科普
  • 百科工具
    • 工具
  • 排行榜
  • 网址提交
    • 首页
    • 快讯
    • 早报
    • 模型
    • ComfyUI
    • 新技术
    • 百科
      • 教程
      • 硬件
      • 科普
    • 百科工具
      • 工具
    • 排行榜
    • 网址提交

    模型

    共 1136 篇文章
    百科工具模型ComfyUIAI合集web UI提示词
    大语言模型多模态模型图像模型语音模型3D模型Flux衍生视频模型世界模型
    排序
    发布更新浏览点赞
    Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音

    Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音

    在语音生成技术快速迭代的当下,开发者与用户对高保真、可定制、低延迟的语音合成方案需求日益迫切。阿里Qwen项目组推出的 Qwen3-TTS 开源全家桶,凭借音色克隆、音色创造、拟人化语音生成与自然语言...
    语音模型# Qwen3-TTS# 阿里
    4周前
    0800
    英伟达推出实时语音对话模型PersonaPlex,打造支持自定义角色与声音的自然对话AI

    英伟达推出实时语音对话模型PersonaPlex,打造支持自定义角色与声音的自然对话AI

    长期以来,语音对话 AI 面临一个根本性矛盾: 传统级联系统(ASR → LLM → TTS)允许你自定义角色和声音,但对话僵硬、延迟高、无法被打断; 全双工模型(如 Moshi)实现了自然的话轮转换...
    语音模型# PersonaPlex# 实时语音对话模型# 英伟达
    4周前
    0250
    LightOn AI推出的第二代模型 LightOnOCR-2-1B:1B 参数端到端 OCR 模型,支持边界框输出

    LightOn AI推出的第二代模型 LightOnOCR-2-1B:1B 参数端到端 OCR 模型,支持边界框输出

    在文档数字化处理领域,兼顾高精度转录、轻量化部署、高效推理的OCR模型一直是行业刚需。LightOn AI推出的第二代模型 LightOnOCR-2-1B,以1B参数量实现端到端PDF文档转写能力,不...
    多模态模型# LightOn AI# LightOnOCR-2-1B# OCR 模型
    4周前
    0730
    FlashLabs推出Chroma 1.0:首个开源实时语音对话模型,支持低延迟个性化语音克隆

    FlashLabs推出Chroma 1.0:首个开源实时语音对话模型,支持低延迟个性化语音克隆

    在虚拟人交互与语音合成领域,兼顾低延迟、高保真语音克隆、多轮对话理解的模型一直是技术难点。由FlashLabs开发的 Chroma 1.0 正是一款突破性的多模态因果语言模型,它不仅能直接处理音频输入...
    语音模型# Chroma# FlashLabs# 实时语音对话模型
    4周前
    04410
    智谱发布 GLM-4.7-Flash:30B 级 MoE 模型,本地部署首选编码与代理助手

    智谱发布 GLM-4.7-Flash:30B 级 MoE 模型,本地部署首选编码与代理助手

    智谱 AI 正式推出 GLM-4.7-Flash——一款基于 30B 总参数、激活 3B(A3B)的稀疏混合专家(MoE)架构 的大语言模型。它在高性能与高效率之间取得出色平衡,成为本地部署场景下理想...
    大语言模型# GLM-4.7-Flash# 智谱
    1个月前
    0400
    Liquid AI发布LFM2.5系列模型:新一代设备端AI,开放权重+多模态+边缘高效部署

    Liquid AI发布LFM2.5系列模型:新一代设备端AI,开放权重+多模态+边缘高效部署

    Liquid AI 正式推出 LFM2.5 系列模型,这是该团队针对边缘 AI 部署打造的新一代旗舰产品,基于 LFM2 设备优化架构升级而来,实现了 1B 级模型能力边界的重大突破。此次发布覆盖基础...
    大语言模型# LFM2.5# Liquid AI
    1个月前
    0220
    Liquid AI 发布 LFM2.5-1.2B-Thinking:900MB 内存即可运行的设备端推理模型

    Liquid AI 发布 LFM2.5-1.2B-Thinking:900MB 内存即可运行的设备端推理模型

    两年前,复杂的推理任务还需要依赖数据中心。如今,Liquid AI 发布的 LFM2.5-1.2B-Thinking 模型,让这一切在任何拥有 900MB 可用内存的手机上成为可能。 地址:https...
    大语言模型# LFM2.5-1.2B-Thinking# Liquid AI
    1个月前
    0230
    HeartMuLa:开源音乐基础模型家族,支持歌词识别、高保真生成与细粒度控制

    HeartMuLa:开源音乐基础模型家族,支持歌词识别、高保真生成与细粒度控制

    如果你曾幻想过——只需输入一段歌词和一句描述(如“一首欢快的流行歌,吉他伴奏,副歌要有电子音效”),AI 就能生成一首结构完整、音质高保真的歌曲——那么 HeartMuLa 项目正将这一愿景变为现实...
    语音模型# HeartMuLa# 音乐模型
    1个月前
    01740
    FrankenMotion:首个支持身体部位级精细控制的文本驱动人体动作生成框架

    FrankenMotion:首个支持身体部位级精细控制的文本驱动人体动作生成框架

    在虚拟角色、游戏动画或人机交互中,如何让 AI 根据自然语言描述生成逼真且可控的人体动作,一直是计算机图形学与 AI 领域的挑战。现有方法大多只能生成整体动作(如“走路”“跳舞”),难以对手臂、腿部...
    3D模型# FrankenMotion# 人体动作
    1个月前
    0360
    谷歌开源新翻译模型TranslateGemma:4B 到 27B 全覆盖,支持 55 种语言

    谷歌开源新翻译模型TranslateGemma:4B 到 27B 全覆盖,支持 55 种语言

    谷歌发布 TranslateGemma —— 一套基于 Gemma 3 构建的全新开源翻译模型家族,包含 4B、12B 和 27B 三种参数规模,支持 55 种语言 的高质量互译。更重要的是,它在效率...
    大语言模型# TranslateGemma# 翻译模型# 谷歌
    1个月前
    0650
    黑森林实验室发布 FLUX.2 [klein]:统一生成与编辑的最快开源模型

    黑森林实验室发布 FLUX.2 [klein]:统一生成与编辑的最快开源模型

    黑森林实验室(Black Forest Labs)今日正式推出 FLUX.2 [klein] 模型系列——这是目前速度最快、体积最小的高质量图像生成模型家族。它将文生图、图像编辑与多参考图生成统一于单...
    图像模型# FLUX.2 [klein]# 黑森林实验室
    1个月前
    01490
    智谱AI开源GLM-TTS:LLM驱动的高质量TTS系统,支持零样本克隆与情感增强

    智谱AI开源GLM-TTS:LLM驱动的高质量TTS系统,支持零样本克隆与情感增强

    智谱AI推出的GLM-TTS是一款基于大语言模型的文本到语音合成系统,创新性采用LLM+Flow模型的两阶段架构,不仅实现了零样本语音克隆、流式推理等实用功能,还通过多奖励强化学习框架,大幅提升了语音...
    语音模型# GLM-TTS# 智谱AI
    1个月前
    0370
    加载更多
    SD百科导航
    SD百科导航是专注于AI创作领域的专业导航网站。我们全面涵盖Stable Diffusion、Flux、AI绘画、AI视频、AI音乐以及大语言模型等前沿内容。

    关于我们网址提交友链申请广告合作

    扫码关注微信公众号SD百科导航
    扫码关注微信公众号
    Copyright © 2026 SD百科导航 皖ICP备18025588号-5  皖公网安备34040002000401 
    网址
    网址文章软件模型

    网址

    日榜周榜月榜
    OpenClaw

    OpenClaw

    OpenClaw 是一个个人 AI 助手,可在您自己的设备上运行。它通过您已经使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及 BlueBubbles、Matrix、Zalo 和 Zalo Personal 等扩展渠道与您交流。它可以在 macOS/iOS/Android 上说话和聆听,并能渲染一个您控制的实时画布。网关只是控制平面——产品本身才是助手。
    A股智能分析系统

    A股智能分析系统

    A股智能分析系统是基于 AI 大模型的 A 股自选股智能分析系统,每日自动分析并推送「决策仪表盘」到企业微信/飞书/Telegram/邮箱
    OpenClaw(Clawdbot/Moltbot)

    OpenClaw(Clawdbot/Moltbot)

    Clawdbot 是一款可在您自己的设备上运行的个人 AI 助手。它在您已使用的渠道(WhatsApp、Telegram、Slack、Discord、Google Chat、Signal、iMessage、Microsoft Teams、WebChat)以及扩展渠道(如 BlueBubbles、Matrix、Zalo 和 Zalo Personal)上为您提供应答。它可以在 macOS/iOS/Android 上进行语音交谈,并能渲染一个您可控制的实时画布。网关仅是控制平面——核心产品是助手本身。
    Skills.sh

    Skills.sh

    Vercel 近日上线了一个名为 skills.sh 的新站点,专门用于发现、浏览和安装 AI 智能体的“技能”(Skills)。
    3D Arena

    3D Arena

    Hugging Face 推出的 3D Arena 是生成式 3D 领域的一项重要进展。它首次实现了大规模、结构化的人类偏好数据收集,并通过 ELO 排名系统提供可靠、可解释的模型评估结果。
    BuildCores

    BuildCores

    BuildCores 是一款集 3D 组装预览、智能兼容性检测、全球比价 于一体的在线装机工具。无论你是首次装机的新手,还是追求极致性能的发烧友,都能在手机或电脑上轻松规划、验证并优化你的 PC 配置。
    查看完整榜单