阿里通义千问推出机器翻译模型Qwen-MT:92种语言互译,打造高效智能翻译新体验阿里通义千问团队近日通过Qwen API平台正式发布机器翻译模型Qwen-MT的最新升级版本——qwen-mt-turbo。该模型基于强大的Qwen3架构,结合超大规模多语言翻译数据与强化学习技术,在...大语言模型# Qwen-MT# 翻译模型6个月前04380
东京大学推出基准测试MangaVQA和多模态漫画理解模型MangaLMM东京大学的研究人员推出一个名为 MangaVQA 的基准测试和一个名为 MangaLMM 的专门模型,用于多模态漫画理解。漫画(Manga)是一种将图像和文本以复杂方式结合的叙事形式,理解漫画需要同时...多模态模型# MangaLMM# MangaVQA# 东京大学6个月前01410
Ultra3D:一种高效且高保真的稀疏体素3D生成框架在生成式 AI 向三维空间延伸的进程中,高质量、高分辨率的3D内容生成已成为核心挑战。尽管基于稀疏体素的方法在几何细节建模方面表现出色,但其普遍采用的双阶段扩散架构常因注意力机制的二次计算复杂度而面临...3D模型# 3D生成框架# Ultra3D6个月前05250
交互式世界生成模型 Yume:通过输入图像、文本或视频来创建一个动态、逼真且可交互的世界由上海市人工智能实验室、复旦大学与上海创新研究院联合研发的新型生成模型 Yume 正式亮相。该模型旨在突破传统生成式 AI 的静态局限,构建一个可探索、可控制、高保真且动态演化的虚拟世界。 项目主页...视频模型# Yume# 交互式世界生成模型6个月前01860
字节跳动发布 Seed LiveInterpret 2.0:首个中英同传延迟与准确率接近人类水平的端到端语音翻译系统在跨语言实时沟通的长期挑战中,机器能否真正替代人类同声传译?字节跳动 Seed 团队给出了迄今为止最接近“是”的答案。 今日,字节跳动正式发布 Seed LiveInterpret 2.0 —— 一款...语音模型# Seed LiveInterpret 2.0# 同声传译模型# 字节跳动6个月前02960
浙大 × 阿里巴巴推出 OmniAvatar:首个支持音频驱动全身动画的可控虚拟人视频生成模型在数字人、虚拟主播、AI 视频创作等领域,仅靠语音生成逼真且动作自然的虚拟形象视频,一直是生成式 AI 的关键挑战之一。 现有音频驱动视频生成方法大多聚焦于面部动画,尤其是唇部同步,而对身体动作、姿态...视频模型# OmniAvatar# 虚拟人6个月前02110
谷歌发布 Gemini 2.5 Flash-Lite 稳定版:更快、更轻、更具成本效益谷歌宣布,Gemini 2.5 Flash-Lite 正式进入稳定版本并全面开放使用。作为 Gemini 2.5 模型系列中速度最快、成本最低的成员,该模型旨在为大规模生产场景提供高性价比的智能推理能...大语言模型# Gemini 2.5 Flash-Lite# 谷歌6个月前01100
阿里Qwen团队推出新一代代码大模型 Qwen3-Coder阿里通义Qwen团队发布全新代码大模型系列 Qwen3-Coder,这是目前 Qwen 系列中最具代理(Agent)能力的代码模型。此次发布的最大版本为 Qwen3-Coder-480B-A35B-I...大语言模型# Qwen Code CLI# Qwen3-Coder# 代码大模型6个月前02070
南洋理工大学 S-Lab 提出新型对象移除框架ObjectClear ,精准消除物体及其阴影、反射在图像编辑任务中,移除一个物体看似简单,实则极具挑战。 不仅要将目标对象从画面中“擦除”,还需同步清除其带来的视觉副产物——如阴影、倒影、高光、遮挡痕迹等。若处理不当,即便主体消失,残留的影子或反光仍...图像模型# ObjectClear# 南洋理工大学# 对象移除6个月前03400
快手 Kwaipilot 团队开源 40B 大模型 KAT-V1-40B :用 AutoThink 实现智能“何时思考”在当前大模型普遍追求“深度推理”的趋势下,一个更现实的问题逐渐浮现:是否每个问题都需要长篇思维链? 过度使用思维链(Chain-of-Thought, CoT)不仅增加计算开销、拖慢响应速度,还可能导...大语言模型# KAT-V1-40B# 快手6个月前01310
SongBloom:一种实现结构连贯与高保真度的全曲生成新框架在自动音乐生成领域,生成一首具备完整结构、风格统一、人声与伴奏和谐融合的全长歌曲,依然是极具挑战性的任务。 现有方法——无论是基于语言模型的自回归生成,还是基于扩散模型的音频合成——往往面临两难困境...语音模型# SongBloom# 音乐生成6个月前01000
字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3字节跳动Seed团队近日推出一款面向复杂操作任务的大规模机器人模型——Seed GR-3(Generalist Robot Model-3)。该模型具备良好的泛化能力,支持长序列任务执行与多模态指令理...多模态模型# Seed GR-3# 字节跳动6个月前01630