北大 × 字节 × CMU 联合推出 PartCrafter:首个支持多部件联合生成的 3D 网格生成模型来自北京大学、字节跳动和卡内基梅隆大学(CMU)的研究团队联合发布了一项突破性的研究成果——PartCrafter,这是目前首款能够从单张 RGB 图像中联合生成多个语义明确、几何独立的 3D 网格部...3D模型# 3D 网格生成模型# PartCrafter9个月前01210
用于音频驱动的多人对话视频生成的新框架 MultiTalk:根据多路音频输入和提示生成包含互动的视频,同时确保唇部动作与音频同步中山大学深圳校区、美团和香港科技大学的研究人员推出用于音频驱动的多人对话视频生成的新框架 MultiTalk,该框架能够根据多路音频输入和提示生成包含互动的视频,同时确保唇部动作与音频同步。 项目主页...视频模型# MultiTalk# 多人对话视频生成9个月前01910
新型训练范式Self Forcing:用于自回归视频扩散模型,解决模型在训练和推理时的分布不一致问题Adobe研究和德克萨斯大学奥斯汀分校的研究人员推出新型训练范式Self Forcing ,用于自回归视频扩散模型,旨在解决模型在训练和推理时的分布不一致问题(即暴露偏差问题),从而提高视频生成的...视频模型# Self Forcing# 训练范式9个月前04890
Mistral发布首款推理模型Magistral,挑战Gemini 2.5 Pro与Claude Opus法国AI实验室 Mistral AI 正式发布了其首个推理模型家族——Magistral,标志着这家以开源著称的AI公司正式进军高阶推理领域。 该系列包括两个版本: Magistral Small(2...大语言模型# Magistral# Mistral AI# 推理模型9个月前01480
音频描述数据集FusionAudio-1.2M:通过多模态上下文融合来生成细粒度的音频描述香港中文大学(深圳)和华南理工大学的研究人员推出推出一个名为FusionAudio-1.2M的音频描述数据集,通过多模态上下文融合来生成细粒度的音频描述。该数据集通过模拟人类听觉感知的方式,整合了多种...语音模型# FusionAudio-1.2M9个月前01950
华科大联合金山办公推出文档解析新模型MonkeyOCR近日,华中科技大学与金山办公联合研究团队发布了一款全新的文档解析模型 —— MonkeyOCR。该模型通过引入“结构-识别-关系”(Structure-Recognition-Relation, SR...多模态模型# MonkeyOCR# 文档解析9个月前02460
英伟达推出一款专为复杂推理任务设计的开源模型 — Nemotron-Research-Reasoning-Qwen-1.5B英伟达近日发布了一款专为复杂推理任务设计的开源模型 —— Nemotron-Research-Reasoning-Qwen-1.5B,该模型参数量为 1.5B,在数学、编程、科学问题和逻辑谜题等任务上...大语言模型# Nemotron-Research-Reasoning-Qwen-1.5B# 英伟达9个月前01330
昆仑万维推出 SkyReels-Audio:多模态驱动、无限长度的高质量会说话肖像视频生成框架昆仑万维旗下 SkyReels 团队 发布了全新音视频生成模型——SkyReals-Audio,一个用于合成高保真、时间一致的“会说话”肖像视频的统一框架。 项目主页:https://skyworka...语音模型# SkyReels-Audio# 昆仑万维10个月前02940
小红书 Hi Lab 发布 1420 亿参数 MoE 大模型 dots.llm1:推理仅激活 140 亿参数,性能媲美 Qwen2.5-72B小红书 Hi Lab 团队近日正式开源了其自研大规模 MoE 文本大模型 dots.llm1,该模型总参数量高达 1420 亿(142B),但在每次推理时仅激活 140 亿(14B)参数,实现了高效能...大语言模型# dots.llm1# 小红书10个月前03810
面壁智能发布 MiniCPM 4.0:端侧大模型效率再升级,极限提速 220 倍!6 日晚,面壁智能正式发布了新一代高效端侧大语言模型 MiniCPM 4.0。该系列模型以极致轻量化和高效推理为核心目标,结合自研 CPM.cu 推理框架 和稀疏注意力机制,在端侧设备上实现了惊人的性...大语言模型# MiniCPM 4.0# 面壁智能10个月前03940
微软提出 GUI-Actor:基于视觉语言模型的无坐标 GUI 定位新范式在构建基于视觉语言模型(VLM)的 GUI 代理系统中,一个关键挑战是如何准确理解屏幕上的视觉内容并定位应执行操作的区域。传统方法通常将此问题建模为“文本到坐标的生成”任务,即通过语言描述预测具体像素...多模态模型# GUI-Actor# 微软10个月前03900
EleutherAI 发布首个大规模许可训练数据集 The Common Pile v0.1近日,开源人工智能研究组织 EleutherAI 正式发布了名为 The Common Pile v0.1 的全新训练数据集。该数据集据称是目前用于训练 AI 模型的最大合法授权+公共领域文本集合之一...大语言模型# EleutherAI# The Common Pile v0.1# 数据集10个月前03770