浙大×华为联合推出 DeepSeek-R1-Safe:基于昇腾的安全大模型浙江大学网络空间安全学院与华为合作,发布了一款基于 DeepSeek 模型架构 的安全增强型大语言模型 —— DeepSeek-R1-Safe。该模型依托华为昇腾(Ascend)AI 芯片及 Mind...大语言模型# DeepSeek-R1-Safe# 华为3个月前01580
FastMTP:通过增强多令牌预测提升大模型推理效率在大语言模型(LLM)的实际应用中,推理速度是影响用户体验和部署成本的关键因素。尽管模型能力不断提升,但逐个生成 token 的方式带来了较高的延迟和计算开销。推测解码(Speculative Dec...大语言模型# FastMTP# 推理模型3个月前01300
蚂蚁集团开源 Ring-flash-2.0:高效 MoE 架构下的高性能思考模型蚂蚁集团正式宣布开源 Ring-flash-2.0 ——一款基于 MoE(混合专家)架构的高性能“思考型”大语言模型。该模型总参数量达 100B,但在每次推理时仅激活 6.1B 参数(其中非嵌入部分约...大语言模型# Ring-flash-2.0# 蚂蚁集团3个月前02400
通义 DeepResearch:首个全开源 Web Agent,性能对标 OpenAI 深度研究模型阿里通义实验室正式发布 Tongyi DeepResearch —— 一个在性能上可与当前最先进闭源系统相媲美的全开源 Web Agent。 项目主页:https://tongyi-agent.git...大语言模型# Tongyi DeepResearch# 深度研究模型3个月前02170
MACHINELEARNINGLM:过持续预训练提升大语言模型在多示例上下文学习能力中科院大学、华南理工大学、斯坦福大学的研究人员推出一种名为 MACHINELEARNINGLM 的新型框架,旨在通过持续预训练(continued pretraining)提升大语言模型(LLMs)在...大语言模型# MACHINELEARNINGLM3个月前01070
华为开源盘古 Embedded-7B-V1.1:支持“快慢思考”的高效大模型华为正式开源新一代高效大语言模型 —— openPangu-Embedded-7B-V1.1。该模型是基于昇腾 NPU 从零训练的 7B 级别密集架构模型(不含词表 Embedding),在通用能力...大语言模型# openPangu-Embedded-7B-V1.1# 华为# 盘古3个月前02690
让语言模型“集体进化”:Gensyn推出去中心化强化学习新算法 SAPO在提升语言模型推理能力的道路上,传统方法往往依赖大量人工标注数据进行监督微调(SFT),或集中式强化学习系统完成后训练。然而,这类方式成本高昂、扩展困难,且对硬件资源要求严苛。 最近,AI初创公司 G...大语言模型# SAPO# 强化学习3个月前01040
Meta 发布MobileLLM-R1 系列模型:专为数学、编程(Python/C++)和科学推理任务设计Meta 正式发布 MobileLLM-R1 系列模型,包含 140M、360M 和 950M 三款尺寸,专为数学、编程(Python/C++)和科学推理任务设计。它不是通用聊天模型,而是一个经过精细...大语言模型# Meta# MobileLLM-R13个月前02360
蚂蚁集团推出推理模型 Ring-mini-2.0蚂蚁集团推出了一款紧凑而强大的推理模型 Ring-mini-2.0。该模型总参数量为 16B,但每个输入 token 仅激活 14 亿个参数(非嵌入参数部分为 7.89 亿)。尽管 Ring-mini...大语言模型# Ring-mini-2.0# 推理模型# 蚂蚁集团3个月前0970
阿里Qwen团队发布Qwen3-Next-80B-A3B:用混合注意力 + 高稀疏MoE 实现极致性价比在大模型进入“长上下文”与“超大规模参数”竞争的新阶段,如何平衡性能、训练成本与推理效率,成为决定落地能力的关键。 为此,阿里通义千问(Qwen)项目组正式推出 Qwen3-Next ——一个全新设计...大语言模型# Qwen3-Next# Qwen3-Next-80B-A3B3个月前04170
百度推出轻量级推理模型ERNIE-4.5-21B-A3B-Thinking:原生支持函数调用,可联网查天气、调数据库百度推出ERNIE-4.5-21B-A3B-Thinking,一款专为复杂推理任务优化的轻量级 MoE(Mixture of Experts)大模型。该模型在原有 ERNIE-4.5 基础上显著提升了...大语言模型# ERNIE-4.5-21B-A3B-Thinking# 百度3个月前01240
SGP-Gen :用强化学习提升大模型生成 SVG 图像的能力由香港中文大学、西湖大学、上海人工智能实验室与马克斯·普朗克智能系统研究所联合开展的研究团队,近日推出 SGP-Gen ——一项探索大语言模型(LLM)在符号图形编程(Symbolic Graphic...大语言模型# SGP-Gen# SVG 图像3个月前01330