Qwen3-TTS 全家桶开源:支持音色克隆、创造与多语言拟人语音在语音生成技术快速迭代的当下,开发者与用户对高保真、可定制、低延迟的语音合成方案需求日益迫切。阿里Qwen项目组推出的 Qwen3-TTS 开源全家桶,凭借音色克隆、音色创造、拟人化语音生成与自然语言...语音模型# Qwen3-TTS# 阿里4周前0800
英伟达推出实时语音对话模型PersonaPlex,打造支持自定义角色与声音的自然对话AI长期以来,语音对话 AI 面临一个根本性矛盾: 传统级联系统(ASR → LLM → TTS)允许你自定义角色和声音,但对话僵硬、延迟高、无法被打断; 全双工模型(如 Moshi)实现了自然的话轮转换...语音模型# PersonaPlex# 实时语音对话模型# 英伟达4周前0250
LightOn AI推出的第二代模型 LightOnOCR-2-1B:1B 参数端到端 OCR 模型,支持边界框输出在文档数字化处理领域,兼顾高精度转录、轻量化部署、高效推理的OCR模型一直是行业刚需。LightOn AI推出的第二代模型 LightOnOCR-2-1B,以1B参数量实现端到端PDF文档转写能力,不...多模态模型# LightOn AI# LightOnOCR-2-1B# OCR 模型4周前0730
FlashLabs推出Chroma 1.0:首个开源实时语音对话模型,支持低延迟个性化语音克隆在虚拟人交互与语音合成领域,兼顾低延迟、高保真语音克隆、多轮对话理解的模型一直是技术难点。由FlashLabs开发的 Chroma 1.0 正是一款突破性的多模态因果语言模型,它不仅能直接处理音频输入...语音模型# Chroma# FlashLabs# 实时语音对话模型4周前04410
智谱发布 GLM-4.7-Flash:30B 级 MoE 模型,本地部署首选编码与代理助手智谱 AI 正式推出 GLM-4.7-Flash——一款基于 30B 总参数、激活 3B(A3B)的稀疏混合专家(MoE)架构 的大语言模型。它在高性能与高效率之间取得出色平衡,成为本地部署场景下理想...大语言模型# GLM-4.7-Flash# 智谱1个月前0400
Liquid AI发布LFM2.5系列模型:新一代设备端AI,开放权重+多模态+边缘高效部署Liquid AI 正式推出 LFM2.5 系列模型,这是该团队针对边缘 AI 部署打造的新一代旗舰产品,基于 LFM2 设备优化架构升级而来,实现了 1B 级模型能力边界的重大突破。此次发布覆盖基础...大语言模型# LFM2.5# Liquid AI1个月前0220
Liquid AI 发布 LFM2.5-1.2B-Thinking:900MB 内存即可运行的设备端推理模型两年前,复杂的推理任务还需要依赖数据中心。如今,Liquid AI 发布的 LFM2.5-1.2B-Thinking 模型,让这一切在任何拥有 900MB 可用内存的手机上成为可能。 地址:https...大语言模型# LFM2.5-1.2B-Thinking# Liquid AI1个月前0230
HeartMuLa:开源音乐基础模型家族,支持歌词识别、高保真生成与细粒度控制如果你曾幻想过——只需输入一段歌词和一句描述(如“一首欢快的流行歌,吉他伴奏,副歌要有电子音效”),AI 就能生成一首结构完整、音质高保真的歌曲——那么 HeartMuLa 项目正将这一愿景变为现实...语音模型# HeartMuLa# 音乐模型1个月前01740
FrankenMotion:首个支持身体部位级精细控制的文本驱动人体动作生成框架在虚拟角色、游戏动画或人机交互中,如何让 AI 根据自然语言描述生成逼真且可控的人体动作,一直是计算机图形学与 AI 领域的挑战。现有方法大多只能生成整体动作(如“走路”“跳舞”),难以对手臂、腿部...3D模型# FrankenMotion# 人体动作1个月前0360
谷歌开源新翻译模型TranslateGemma:4B 到 27B 全覆盖,支持 55 种语言谷歌发布 TranslateGemma —— 一套基于 Gemma 3 构建的全新开源翻译模型家族,包含 4B、12B 和 27B 三种参数规模,支持 55 种语言 的高质量互译。更重要的是,它在效率...大语言模型# TranslateGemma# 翻译模型# 谷歌1个月前0650
黑森林实验室发布 FLUX.2 [klein]:统一生成与编辑的最快开源模型黑森林实验室(Black Forest Labs)今日正式推出 FLUX.2 [klein] 模型系列——这是目前速度最快、体积最小的高质量图像生成模型家族。它将文生图、图像编辑与多参考图生成统一于单...图像模型# FLUX.2 [klein]# 黑森林实验室1个月前01490
智谱AI开源GLM-TTS:LLM驱动的高质量TTS系统,支持零样本克隆与情感增强智谱AI推出的GLM-TTS是一款基于大语言模型的文本到语音合成系统,创新性采用LLM+Flow模型的两阶段架构,不仅实现了零样本语音克隆、流式推理等实用功能,还通过多奖励强化学习框架,大幅提升了语音...语音模型# GLM-TTS# 智谱AI1个月前0370