3D-R1:让大模型真正理解三维空间的统一推理模型上海工程技术大学与北京大学计算机学院联合提出一个开源通用模型 3D-R1,旨在提升3D视觉-语言模型(3D Vision-Language Models, 3D-VLMs)在复杂场景中的推理能力,推动...3D模型# 3D-R1# 推理模型5个月前01280
小米自研声音理解大模型 MiDashengLM-7B 正式开源小米正式发布并全量开源其自研声音理解大模型 —— MiDashengLM-7B。该模型在性能与效率上实现双重突破,标志着小米在多模态AI领域,尤其是声音理解方向的又一次重要进展。 GitHub 主页...语音模型# MiDashengLM-7B# 声音理解大模型# 小米5个月前02340
腾讯混元发布四款小尺寸开源模型,端侧 AI 应用迎来新选择继此前开源大尺寸模型后,腾讯混元团队近日推出四款全新小尺寸开源模型,参数量分别为 0.5B、1.8B、4B 和 7B。这些模型专为低功耗、资源受限场景设计,可在消费级显卡、笔记本电脑、手机、智能座舱及...大语言模型# 腾讯混元5个月前03690
PixNerd:无需 VAE,用神经场实现端到端像素级图像生成在图像生成领域,扩散模型已成主流,但其典型架构依赖变分自编码器(VAE)将图像压缩至低维潜在空间,再在该空间进行生成。这种“两阶段”范式虽能降低计算负担,却也带来了解码伪影与信息损失等固有缺陷。 为突...图像模型# PixNerd5个月前02590
面向代码修复与优化任务的经验驱动型实验框架SWE-Exp在自动化软件工程领域,一个长期存在的挑战是:如何让 AI 代理不仅“能修代码”,还能“会总结、能举一反三”? 上海交通大学、华为、加州大学圣地亚哥分校与西安电子科技大学的联合研究团队近日提出 SWE...大语言模型# SWE-Exp# 软件工程5个月前01990
阿里 Qwen 项目组发布 Qwen-Image:首个 20B 级 MMDiT 图像生成基础模型阿里 Qwen 项目组正式推出 Qwen-Image,这是通义千问系列中首个专注于图像生成的基础大模型。基于 20B 参数的 MMDiT(Multimodal Diffusion Transforme...图像模型# Qwen-Image# 图像生成模型5个月前03180
问小白开源基于反思型生成范式训练的推理模型XBai o4问小白发布了XBai o4,o=open,o4代表其开源的第四代大模型技术。XBai o4在复杂推理能力方面表现出色,在Medium模式下,XBai o4 现已全面超越OpenAI-o3-mini。 ...大语言模型# XBai o4# 问小白5个月前01760
字节跳动Seed项目组推出基于大语言模型(LLM)的自动化定理证明系统 Seed-Prover字节跳动Seed项目组推出基于大语言模型(LLM)的自动化定理证明系统 Seed-Prover,Seed-Prover 通过结合 LLM 的推理能力和形式化语言(如 Lean)的验证能力,实现了对数学...大语言模型# Seed-Prover# 字节跳动# 自动化定理证明5个月前0970
MiniMax-Remover:港中大等联合提出高效视频目标移除新方法在视频编辑中,目标移除是一项关键任务:从视频中删除指定对象(如行人、车辆、水印),同时保持背景的视觉一致性与时间连贯性。然而,现有方法常面临三大挑战: 生成伪影或“幻觉对象” 推理速度慢,依赖高步数采...视频模型# MiniMax-Remover5个月前01620
GPT-IMAGE-EDIT-1.5M:用 GPT-4o 重构开源图像编辑数据集在图像生成领域,闭源模型如 GPT-4o、IDEF-2 和 DALL·E 3 已展现出令人惊叹的指令遵循能力,能够精准执行复杂的文本引导编辑任务。相比之下,开源社区虽有进展,却始终受限于高质量、大规模...图像模型# GPT-Image-Edit# GPT-IMAGE-EDIT-1.5M# 图像编辑模型5个月前01770
微软推出Phi-Ground:提高计算机界面(GUI)定位(grounding)的准确性微软推出一个名为 Phi-Ground 的模型家族,旨在提高计算机界面(GUI)定位(grounding)的准确性。GUI 定位是计算机使用代理(CUAs)执行实际操作的核心组件,类似于机器人中的机械...大语言模型# Phi-Ground# 微软5个月前01650
DreamScene:用 GPT-4 规划 + 3D 高斯建模,实现端到端文本生成 3D 场景从一句“现代客厅,带沙发和挂墙电视”,到一个完整、一致、可编辑的 3D 场景——这曾是 3D 内容创作的理想。如今,中国科学技术大学、南洋理工大学、香港科技大学(广州)与奥胡斯大学联合提出的 Drea...3D模型# 3D 场景# DreamScene6个月前01810