Cohere 重磅开源 Tiny Aya:33 亿参数撬动 70+ 语言,手机离线也能跑的“多语言神器”在多语言 AI 领域,长期存在一个悖论:要么模型巨大无比、依赖云端算力,只能覆盖主流语言;要么模型轻量但能力孱弱,无法处理复杂的小语种任务。 今日,在印度 AI 峰会期间,企业级 AI 独角兽 Coh...大语言模型# Cohere# Tiny Aya4周前0280
Capybara:统一视觉创作模型,一个模型搞定文生图、视频生成与全能编辑在当前的 AI 视觉创作领域,我们正陷入一种“工具碎片化”的困境:生成图片用 Midjourney,生成视频换 Runway,修图得开 Photoshop,剪视频又要另一套流程。这些工具不仅接口割裂...视频模型# Capybara# 统一视觉创作模型4周前0680
加州理工推出Conversational Image Segmentation:对话式图像分割,让 AI 真正听懂“这个稳不稳”、“那个能不能坐”在传统的计算机视觉中,AI 擅长回答“这是什么?”(分类)或“它在哪里?”(检测/分割)。如果你问它:“把左边那个红色的杯子框出来”,它能做得很好。 但如果你问:“哪个行李箱可以单独拿走而不弄倒整堆行...多模态模型# Conversational Image Segmentation# 对话式图像分割4周前0160
字节跳动开源 BitDance:14B 参数自回归模型,生成速度超越扩散模型 30 倍在 AI 绘画领域,长期存在着“画质”与“速度”的博弈,以及“扩散模型”与“自回归模型”的路线之争。扩散模型(如 Stable Diffusion)画质优异但推理步骤繁琐;自回归模型(类似 LLM 生...图像模型# BitDance# 字节跳动# 自回归模型4周前01830
TADA:给AI音乐生成装上"调音台",让创作精准可控想象一下,你对AI说"生成一首桑巴舞曲",它确实生成了一段不错的音乐。但你现在觉得节奏稍微快了点,或者想把女声换成男声,又或者想加点钢琴伴奏——用传统的文字提示,你只能说"一首快节奏的男性演唱桑巴舞曲...语音模型# TADA# 音频扩散模型4周前0170
阿里发布Qwen3.5 系列大模型:两大旗舰模型登场,多项评测超越国际一线今天下午,阿里并未进行大规模宣传,而是在其官方对话页面chat.qwen.ai上低调上线了Qwen3.5系列的两款全新大语言模型——Qwen3.5-Plus与Qwen3.5-397B-A17B。 项目...大语言模型早报# Qwen3.5# Qwen3.5-397B-A17B# Qwen3.5-Plus4周前0270
Qwen-Image-Edit-Causal:用分块因果注意力加速图像编辑推理Light AI 近日发布了 Qwen-Image-Edit-Causal V1.0,这是对 Qwen-Image-Edit-2511 的一次关键优化。新模型通过引入 分块因果注意力(block ca...图像模型# Qwen-Image-Edit-2511# Qwen-Image-Edit-Causal4周前0510
NineNineSix 开源 KaniTTS2:4 亿参数实时对话 TTS 模型,支持语音克隆与多语言AI 初创公司 NineNineSix 正式开源其新一代文本转语音(TTS)模型 KaniTTS2。该模型专为低延迟、高自然度的实时对话场景设计,支持语音克隆、多语言输出,并提供完整的从零预训练代码框...语音模型# KaniTTS2# TTS 模型4周前0270
让视频"无中生有"的AI魔术师!PISCO:基于稀疏控制的精确视频实例插入技术想象一下,你拍了一段空无一人的街道视频,现在想把一只奔跑的猫放进画面里——不仅要让它看起来真实,还要让它和周围环境产生互动:地上要有影子,经过水坑要有倒影,被路灯照到要反光。更神奇的是,你只需要告诉A...视频模型# PISCO# 视频编辑4周前0150
京东开源 JoyAI-LLM-Flash:3B 激活参数 MoE 模型,专为智能体与高吞吐场景优化京东在 Hugging Face 正式开源其最新大语言模型 JoyAI-LLM-Flash,标志着其在高效、低成本、智能体友好型 AI 基础模型领域的重大进展。 模型:https://huggingf...大语言模型# JoyAI-LLM-Flash# 京东4周前0390
字节跳动发布豆包大模型2.0:数学推理顶尖,复杂任务执行强,API价格仅为竞品五分之一继 Seedance 2.0 视频模型和 Seedream 5.0 Lite 图像模型后,字节跳动于 2 月 14 日正式推出 豆包大模型 2.0(Doubao-Seed-2.0)系列。新版本针对大规...大语言模型早报# Doubao-Seed-2.0# 字节跳动# 豆包大模型2.01个月前0210
Kyutai 开源 Hibiki-Zero:3B 参数实时语音翻译模型,无需词级对齐,支持音色迁移实时语音翻译的核心挑战在于如何在翻译质量与系统延迟之间取得最佳平衡。传统方法通常需要大量精细标注的词级对齐数据来指导模型何时开始翻译,这不仅成本高昂,也极大地限制了模型向新语言的扩展能力。 为彻底解决...语音模型# Hibiki-Zero# 实时语音翻译模型1个月前0170