让语言模型“集体进化”:Gensyn推出去中心化强化学习新算法 SAPO在提升语言模型推理能力的道路上,传统方法往往依赖大量人工标注数据进行监督微调(SFT),或集中式强化学习系统完成后训练。然而,这类方式成本高昂、扩展困难,且对硬件资源要求严苛。 最近,AI初创公司 G...大语言模型# SAPO# 强化学习3个月前01040
北邮、浙大等团队联合提出视觉-语言-动作模型 VLA-Adapter:用轻量桥接实现高效机器人控制在当前机器人智能领域,视觉-语言-动作(Vision-Language-Action, VLA)模型正成为连接感知与行为的核心技术。这类模型能让机器人“听懂指令”、“看懂场景”,并自主执行任务,例如...多模态模型# VLA-Adapter# 视觉-语言-动作模型3个月前02810
Meta 发布MobileLLM-R1 系列模型:专为数学、编程(Python/C++)和科学推理任务设计Meta 正式发布 MobileLLM-R1 系列模型,包含 140M、360M 和 950M 三款尺寸,专为数学、编程(Python/C++)和科学推理任务设计。它不是通用聊天模型,而是一个经过精细...大语言模型# Meta# MobileLLM-R13个月前02370
香港中文大学(深圳)提出语音到语音大语言模型EchoX:用“回声训练”弥合语音生成中的语义鸿沟近年来,语音到语音大语言模型(Speech-to-Speech LLMs, SLLMs)成为多模态 AI 的重要方向——用户说一句话,模型直接以语音回应,无需经过“语音→文本→语音”的中间转换。 但这...语音模型# EchoX# 语音到语音大语言模型3个月前01310
清华大学 & 字节跳动联合推出 HuMo:一个以人为中心的多模态视频生成框架一段文字描述 + 一张人物照片 + 一段语音音频,能否生成一个口型同步、动作自然、形象一致的高质量人物视频? 现在,可以了。 清华大学与字节跳动智能创作团队合作推出 HuMo(Human-Centri...视频模型# HuMo# 字节跳动3个月前0940
蚂蚁集团推出推理模型 Ring-mini-2.0蚂蚁集团推出了一款紧凑而强大的推理模型 Ring-mini-2.0。该模型总参数量为 16B,但每个输入 token 仅激活 14 亿个参数(非嵌入参数部分为 7.89 亿)。尽管 Ring-mini...大语言模型# Ring-mini-2.0# 推理模型# 蚂蚁集团3个月前0970
阿里Qwen团队发布Qwen3-Next-80B-A3B:用混合注意力 + 高稀疏MoE 实现极致性价比在大模型进入“长上下文”与“超大规模参数”竞争的新阶段,如何平衡性能、训练成本与推理效率,成为决定落地能力的关键。 为此,阿里通义千问(Qwen)项目组正式推出 Qwen3-Next ——一个全新设计...大语言模型# Qwen3-Next# Qwen3-Next-80B-A3B3个月前04250
腾讯混元联合高校提出 Direct-Align:用“一步恢复”实现扩散模型的高效偏好对齐在文生图模型日益成熟的今天,提升生成质量已不再是唯一目标——如何让图像真正符合人类的审美偏好,成为更高阶的挑战。 现有方法通常依赖强化学习或可微奖励机制,将模型输出与人类偏好对齐。但这些方法普遍存在两...图像模型# Direct-Align# flux.1-dev-SRPO# 腾讯混元3个月前01580
字节跳动开源UMO:统一多身份优化框架,让AI准确“认出”每个人在图像定制领域,个性化生成已逐渐从“一个人一个风格”迈向“多人协同场景”的复杂需求。然而,当一张图中需要同时呈现多个真实人物时,模型常常出现“张冠李戴”——面部特征混淆、身份错位,导致输出失真。这不仅...图像模型# UMO# 字节跳动3个月前02840
Stable Audio 2.5 发布:Stability AI 推出首款企业级音效制作专用音频模型Stability AI 正式推出 Stable Audio 2.5——这是业内首款专为企业级音效制作设计的音频生成模型。该模型聚焦企业在规模化定制高质量音频时的核心需求,通过技术升级与生态合作,助力...语音模型# Stability AI# Stable Audio 2.53个月前01530
中国团队推出 Lumina-DiMOO:支持生成与理解的全能多模态模型由上海人工智能实验室牵头,联合上海创智学院、上海交通大学、悉尼大学、南京大学、香港中文大学和清华大学的研究团队,共同推出 Lumina-DiMOO ——一个面向多模态生成与理解一体化的新型基础模型。 ...图像模型# Lumina-DiMOO# 多模态模型3个月前01710
字节跳动 & 港大推出 Mini-o3:可扩展多轮推理的开源视觉智能体字节跳动与香港大学联合发布 Mini-o3 ——一个具备强大图像理解与长程多轮交互能力的开源多模态模型。该模型能够生成类似 OpenAI o3 风格的代理行为轨迹,在复杂视觉搜索任务中实现数十轮持续推...多模态模型# Mini-o3# 视觉智能体3个月前01830