阿里Qwen团队推出新一代代码大模型 Qwen3-Coder阿里通义Qwen团队发布全新代码大模型系列 Qwen3-Coder,这是目前 Qwen 系列中最具代理(Agent)能力的代码模型。此次发布的最大版本为 Qwen3-Coder-480B-A35B-I...大语言模型# Qwen Code CLI# Qwen3-Coder# 代码大模型8个月前02160
南洋理工大学 S-Lab 提出新型对象移除框架ObjectClear ,精准消除物体及其阴影、反射在图像编辑任务中,移除一个物体看似简单,实则极具挑战。 不仅要将目标对象从画面中“擦除”,还需同步清除其带来的视觉副产物——如阴影、倒影、高光、遮挡痕迹等。若处理不当,即便主体消失,残留的影子或反光仍...图像模型# ObjectClear# 南洋理工大学# 对象移除8个月前04430
快手 Kwaipilot 团队开源 40B 大模型 KAT-V1-40B :用 AutoThink 实现智能“何时思考”在当前大模型普遍追求“深度推理”的趋势下,一个更现实的问题逐渐浮现:是否每个问题都需要长篇思维链? 过度使用思维链(Chain-of-Thought, CoT)不仅增加计算开销、拖慢响应速度,还可能导...大语言模型# KAT-V1-40B# 快手8个月前01360
SongBloom:一种实现结构连贯与高保真度的全曲生成新框架在自动音乐生成领域,生成一首具备完整结构、风格统一、人声与伴奏和谐融合的全长歌曲,依然是极具挑战性的任务。 现有方法——无论是基于语言模型的自回归生成,还是基于扩散模型的音频合成——往往面临两难困境...语音模型# SongBloom# 音乐生成8个月前01040
字节跳动Seed团队发布新一代机器人操作大模型Seed GR-3字节跳动Seed团队近日推出一款面向复杂操作任务的大规模机器人模型——Seed GR-3(Generalist Robot Model-3)。该模型具备良好的泛化能力,支持长序列任务执行与多模态指令理...多模态模型# Seed GR-3# 字节跳动8个月前01930
DMOSpeech 2:用强化学习优化语音合成的时长预测在零样本文本到语音(TTS)领域,基于扩散模型的系统近年来取得了显著进展。然而,大多数方法仍难以实现对整个生成流程的端到端感知质量优化——尤其是时长预测这一关键组件,长期依赖自监督训练,未能与语音生成...语音模型# DMOSpeech 2# TTS 框架8个月前03370
告别旧版,迎接进化!阿里Qwen团队发布Qwen3-235B-A22B-Instruct-2507在与社区深入交流并综合反馈后,阿里Qwen团队做出一项重要决策:停止使用混合“思维模式”(Thinking Mode)的训练方式,转而采用 Instruct 与 Thinking 模型分离训练 的新策...大语言模型# Qwen3-235B-A22B-Instruct-25078个月前06540
CoPart:基于“部分”的3D生成框架,让AI更精细地理解3D对象在3D内容生成领域,早期的研究主要依赖于2D渲染图像的多视角驱动方法。然而,随着技术的发展,3D原生扩散模型逐渐展现出更强的生成能力,尤其是在几何建模和纹理细节方面,因为它直接利用了真实3D数据所包含...3D模型# 3D生成# CoPart8个月前03180
英伟达发布OpenReasoning-Nemotron:多规模推理模型,覆盖数学、科学与编程英伟达近日发布了 OpenReasoning-Nemotron 模型家族,这是一组专为数学、科学和编程推理任务优化的大语言模型。 模型:https://huggingface.co/collectio...大语言模型# OpenReasoning-Nemotron# 英伟达8个月前03360
新型扩散模型 Diffuman4D :从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频浙江大学和蚂蚁研究的研究人员推出新型扩散模型 Diffuman4D ,从稀疏视角视频中生成高质量、4D 一致的人体自由视角视频。该模型通过引入滑动迭代去噪过程和基于人体骨骼的姿态条件机制,显著提升了生...视频模型# Diffuman4D# 人体自由视角视频8个月前03680
FantasyPortrait:基于DIT架构模型的多角色肖像动画生成框架由阿里巴巴与北京邮电大学联合提出,FantasyPortrait 是一个基于扩散变换器(Diffusion Transformer)的创新框架,用于从静态图像生成高保真、富有表现力的单角色与多角色面部...视频模型# FantasyPortrait# 多角色肖像动画生成8个月前01010
蚂蚁集团发布 M2-Reasoning-7B:通用与空间推理能力领先的多模态大模型蚂蚁集团 inclusionAI 项目组 正式发布 M2-Reasoning-7B,一个在通用推理与空间推理领域表现卓越的多模态大语言模型(MLLM)。该模型基于 70 亿参数架构,通过创新的数据生成...多模态模型# M2-Reasoning-7B# 多模态大模型# 蚂蚁集团8个月前01970