新中国多所高校联合推出 DeepGen 1.0:50 亿参数小模型逆袭,图像生成与编辑能力媲美 800 亿巨无霸在AI领域,“大力出奇迹”似乎已成为一种默认法则:模型参数越大,效果越好。然而,由上海创智学院、复旦大学、中国科学技术大学、上海交通大学、浙江大学、西湖大学、南京大学以及南加州大学的研究人员共同推出的...图像模型# DeepGen 1.0# 多模态模型13小时前070
新谷歌发布全新音乐模型 Lyria 3:已集成到Gemini,输入文字或图片,30 秒生成原创音乐谷歌周三正式宣布,其旗舰 AI 助手 Gemini 迎来重大功能升级——集成音乐生成能力。这一新功能由谷歌旗下 DeepMind 团队最新研发的 Lyria 3 模型驱动,目前正处于测试阶段,面向全球...早报语音模型# Lyria 3# 谷歌# 音乐模型14小时前040
新Anthropic 重磅发布 Sonnet 4.6:100 万上下文窗口 + 类人操作电脑,免费用户直接升级今日,Anthropic 正式发布了 Claude Sonnet 4.6,这是其中型模型系列的最新力作。不仅保持了公司标志性的四个月更新周期,更带来了令人瞩目的性能飞跃:100 万 Token 的超长...大语言模型早报# Anthropic# Claude Sonnet 4.6# Sonnet 4.62天前070
新Cohere 重磅开源 Tiny Aya:33 亿参数撬动 70+ 语言,手机离线也能跑的“多语言神器”在多语言 AI 领域,长期存在一个悖论:要么模型巨大无比、依赖云端算力,只能覆盖主流语言;要么模型轻量但能力孱弱,无法处理复杂的小语种任务。 今日,在印度 AI 峰会期间,企业级 AI 独角兽 Coh...大语言模型# Cohere# Tiny Aya2天前040
新Capybara:统一视觉创作模型,一个模型搞定文生图、视频生成与全能编辑在当前的 AI 视觉创作领域,我们正陷入一种“工具碎片化”的困境:生成图片用 Midjourney,生成视频换 Runway,修图得开 Photoshop,剪视频又要另一套流程。这些工具不仅接口割裂...视频模型# Capybara# 统一视觉创作模型2天前060
新加州理工推出Conversational Image Segmentation:对话式图像分割,让 AI 真正听懂“这个稳不稳”、“那个能不能坐”在传统的计算机视觉中,AI 擅长回答“这是什么?”(分类)或“它在哪里?”(检测/分割)。如果你问它:“把左边那个红色的杯子框出来”,它能做得很好。 但如果你问:“哪个行李箱可以单独拿走而不弄倒整堆行...多模态模型# Conversational Image Segmentation# 对话式图像分割2天前040
新字节跳动开源 BitDance:14B 参数自回归模型,生成速度超越扩散模型 30 倍在 AI 绘画领域,长期存在着“画质”与“速度”的博弈,以及“扩散模型”与“自回归模型”的路线之争。扩散模型(如 Stable Diffusion)画质优异但推理步骤繁琐;自回归模型(类似 LLM 生...图像模型# BitDance# 字节跳动# 自回归模型2天前0170
新TADA:给AI音乐生成装上"调音台",让创作精准可控想象一下,你对AI说"生成一首桑巴舞曲",它确实生成了一段不错的音乐。但你现在觉得节奏稍微快了点,或者想把女声换成男声,又或者想加点钢琴伴奏——用传统的文字提示,你只能说"一首快节奏的男性演唱桑巴舞曲...语音模型# TADA# 音频扩散模型3天前060
新阿里发布Qwen3.5 系列大模型:两大旗舰模型登场,多项评测超越国际一线今天下午,阿里并未进行大规模宣传,而是在其官方对话页面chat.qwen.ai上低调上线了Qwen3.5系列的两款全新大语言模型——Qwen3.5-Plus与Qwen3.5-397B-A17B。 项目...大语言模型早报# Qwen3.5# Qwen3.5-397B-A17B# Qwen3.5-Plus3天前050
Qwen-Image-Edit-Causal:用分块因果注意力加速图像编辑推理Light AI 近日发布了 Qwen-Image-Edit-Causal V1.0,这是对 Qwen-Image-Edit-2511 的一次关键优化。新模型通过引入 分块因果注意力(block ca...图像模型# Qwen-Image-Edit-2511# Qwen-Image-Edit-Causal3天前0150
NineNineSix 开源 KaniTTS2:4 亿参数实时对话 TTS 模型,支持语音克隆与多语言AI 初创公司 NineNineSix 正式开源其新一代文本转语音(TTS)模型 KaniTTS2。该模型专为低延迟、高自然度的实时对话场景设计,支持语音克隆、多语言输出,并提供完整的从零预训练代码框...语音模型# KaniTTS2# TTS 模型4天前080
让视频"无中生有"的AI魔术师!PISCO:基于稀疏控制的精确视频实例插入技术想象一下,你拍了一段空无一人的街道视频,现在想把一只奔跑的猫放进画面里——不仅要让它看起来真实,还要让它和周围环境产生互动:地上要有影子,经过水坑要有倒影,被路灯照到要反光。更神奇的是,你只需要告诉A...视频模型# PISCO# 视频编辑4天前050