Mistral发布首款推理模型Magistral,挑战Gemini 2.5 Pro与Claude Opus法国AI实验室 Mistral AI 正式发布了其首个推理模型家族——Magistral,标志着这家以开源著称的AI公司正式进军高阶推理领域。 该系列包括两个版本: Magistral Small(2...大语言模型# Magistral# Mistral AI# 推理模型5天前0210
英伟达推出一款专为复杂推理任务设计的开源模型 — Nemotron-Research-Reasoning-Qwen-1.5B英伟达近日发布了一款专为复杂推理任务设计的开源模型 —— Nemotron-Research-Reasoning-Qwen-1.5B,该模型参数量为 1.5B,在数学、编程、科学问题和逻辑谜题等任务上...大语言模型# Nemotron-Research-Reasoning-Qwen-1.5B# 英伟达6天前0200
小红书 Hi Lab 发布 1420 亿参数 MoE 大模型 dots.llm1:推理仅激活 140 亿参数,性能媲美 Qwen2.5-72B小红书 Hi Lab 团队近日正式开源了其自研大规模 MoE 文本大模型 dots.llm1,该模型总参数量高达 1420 亿(142B),但在每次推理时仅激活 140 亿(14B)参数,实现了高效能...大语言模型# dots.llm1# 小红书1周前0320
面壁智能发布 MiniCPM 4.0:端侧大模型效率再升级,极限提速 220 倍!6 日晚,面壁智能正式发布了新一代高效端侧大语言模型 MiniCPM 4.0。该系列模型以极致轻量化和高效推理为核心目标,结合自研 CPM.cu 推理框架 和稀疏注意力机制,在端侧设备上实现了惊人的性...大语言模型# MiniCPM 4.0# 面壁智能1周前0690
EleutherAI 发布首个大规模许可训练数据集 The Common Pile v0.1近日,开源人工智能研究组织 EleutherAI 正式发布了名为 The Common Pile v0.1 的全新训练数据集。该数据集据称是目前用于训练 AI 模型的最大合法授权+公共领域文本集合之一...大语言模型# EleutherAI# The Common Pile v0.1# 数据集1周前0290
阿里正式发布 Qwen3 Embedding和Reranker 系列模型:专为文本表征与检索排序设计今天凌晨,阿里巴巴正式开源 Qwen3 Embedding 系列模型,作为 Qwen 模型家族的最新成员,该系列专注于文本语义表征、信息检索与排序任务,在多语言理解、跨语言检索和代码相关性建模等方面展...大语言模型# Qwen3 Embedding# Qwen3 Reranker# 阿里1周前0230
Homunculus-12B:在消费级显卡上运行的高效推理模型随着大语言模型不断向轻量化和高性能方向演进,Arcee Homunculus-12B 成为一个值得关注的新成员。它是一款基于 Qwen3-235B 蒸馏而来、部署在 Mistral-Nemo 架构上的...大语言模型# Homunculus-12B# 推理模型1周前0500
快手开源 KwaiCoder-AutoThink-preview:打造自动切换“思考模式”的大模型快手 Kwaipilot 团队正式开源了其最新研究成果——KwaiCoder-AutoThink-preview 自动思考大模型。该模型针对当前深度思考类大模型中普遍存在的“过度思考”问题,提出了一种...大语言模型# KwaiCoder-AutoThink-preview# 快手2周前0320
Snowflake 开源两款 AI 工具Arctic-Text2SQL-R1 和 Arctic Inference,专治企业最头疼的两个难题!生成式 AI 发展到今天,很多问题已经解决,但仍有两大“顽疾”困扰着企业用户: 文本转 SQL 的准确性问题:AI 写出来的 SQL 看起来像模像样,但在真实数据库上却执行失败; AI 推理的速度与成...大语言模型# Arctic Inference# Arctic-Text2SQL-R1# Snowflake2周前0430
DeepSeek R1 升级:推理能力逼近顶尖模型,小模型也迎来突破DeepSeek 最新发布了其旗舰模型 DeepSeek R1 的升级版本 —— DeepSeek-R1-0528。这次更新不仅在推理深度上有了显著提升,还在幻觉控制、函数调用支持和代码生成体验等方面...大语言模型# DeepSeek-R12周前0360
DeepSeek推出基于Qwen3-8B的小型推理模型:DeepSeek-R1-0528-Qwen3-8B深度求索在本周对DeepSeek R1进行了升级,还开源了此版本模型DeepSeek-R1-0528,官方还推出了一个基于Qwen3-8B的小型推理模型:DeepSeek-R1-0528-Qwen3...大语言模型# DeepSeek# DeepSeek-R1-0528-Qwen3-8B# 深度求索2周前0510
阿里推出高效的长上下文压缩框架QwenLong-CPRS在大语言模型(LLM)处理长文本时,两个核心问题始终存在:计算开销高 和 中间信息丢失严重。为了解决这些问题,阿里通义实验室 Qwen-Doc 团队推出了一个全新上下文压缩框架 —— QwenLong...大语言模型# QwenLong-CPRS# QwenLong-CPRS-7B3周前0970