腾讯推出大型混合 Transformer-Mamba 专家混合(MoE)模型Hunyuan-TurboS腾讯推出了Hunyuan-TurboS,这是一个新型的大型混合 Transformer-Mamba 专家混合(MoE)模型。它结合了 Mamba 架构在长序列处理上的高效性与 Transformer ...大语言模型# Hunyuan-TurboS# 腾讯7个月前02570
小红书 Hi Lab 发布 1420 亿参数 MoE 大模型 dots.llm1:推理仅激活 140 亿参数,性能媲美 Qwen2.5-72B小红书 Hi Lab 团队近日正式开源了其自研大规模 MoE 文本大模型 dots.llm1,该模型总参数量高达 1420 亿(142B),但在每次推理时仅激活 140 亿(14B)参数,实现了高效能...大语言模型# dots.llm1# 小红书6个月前02550
Sakana AI 推出 AB-MCTS:让多个前沿模型协作解决复杂推理问题Sakana AI 发布了一项令人瞩目的研究成果:他们开发出一种名为 AB-MCTS(自适应分支蒙特卡洛树搜索) 的新算法。该算法在 ARC-AGI-2 基准测试中表现出色,显著优于单独使用 o4-m...大语言模型# AB-MCTS# Sakana AI5个月前02540
英伟达发布开源大语言模型Llama-3.1 Nemotron Ultra-253B-v1:以半数参数超越DeepSeek R1英伟达今天发布了一款全新的开源大语言模型—Llama-3.1 Nemotron Ultra-253B-v1,这款拥有2530亿参数的模型在多个基准测试中表现出色,甚至超越了竞争对手DeepSeek R...大语言模型# Llama-3.1 Nemotron Ultra# Llama-3.1 Nemotron Ultra-253B-v1# 英伟达8个月前02540
谷歌推出Gemma系列最新模型Gemma 3,号称是全球最佳单加速器模型自首次推出以来,Gemma 模型已被下载超过 1 亿次,社区创造了超过 60,000 个适用于各种用例的变体。今天,谷歌正式发布 Gemma 3,这是 Gemma 开源模型家族中最强大、最先进的版本...大语言模型# Gemma 3# 多语言大语言模型# 大语言模型9个月前02510
阿里通义实验室推出的端到端网络代理训练框架WebDancer在信息检索和智能代理领域,如何让 AI 代理具备自主搜索、推理和决策能力是一个关键挑战。为此,阿里通义实验室提出了 WebDancer —— 一个全新的 端到端代理训练框架,旨在增强基于网络的代理在多...大语言模型# WebDancer# 阿里通义实验室6个月前02480
蚂蚁集团开源 Ring-flash-2.0:高效 MoE 架构下的高性能思考模型蚂蚁集团正式宣布开源 Ring-flash-2.0 ——一款基于 MoE(混合专家)架构的高性能“思考型”大语言模型。该模型总参数量达 100B,但在每次推理时仅激活 6.1B 参数(其中非嵌入部分约...大语言模型# Ring-flash-2.0# 蚂蚁集团3个月前02420
Meta 发布MobileLLM-R1 系列模型:专为数学、编程(Python/C++)和科学推理任务设计Meta 正式发布 MobileLLM-R1 系列模型,包含 140M、360M 和 950M 三款尺寸,专为数学、编程(Python/C++)和科学推理任务设计。它不是通用聊天模型,而是一个经过精细...大语言模型# Meta# MobileLLM-R13个月前02370
瑞士发布国家级开源大模型 Apertus,构建自主可控、合规透明的AI基础设施瑞士近日正式推出其国家级开源大语言模型 Apertus,标志着该国在构建自主可控、合规透明的人工智能基础设施方面迈出关键一步。 这一模型由 洛桑联邦理工学院(EPFL)、苏黎世联邦理工学院(ETH Z...大语言模型# Apertus# 开源大模型# 瑞士3个月前02360
英伟达推出小型语言模型 Nemotron-Nano-9B-V2:更小、更快、可控制“思考”的AI当AI模型不再一味追求“更大”,而是转向“更高效”时,小型语言模型(SLM)的时代正悄然到来。 继麻省理工学院衍生公司 Liquid AI 推出可在智能手表上运行的视觉模型、谷歌发布手机端运行的轻量级...大语言模型# Nemotron-Nano-9B-V2# 英伟达4个月前02360
LongWriter-Zero:通过强化学习从零开始训练大语言模型,以实现超长文本生成新加坡科技设计大学和清华大学的研究人员推出新型模型LongWriter-Zero,基于 Qwen 2.5-32B-Base 构建,通过强化学习(RL)从零开始训练大语言模型(LLMs),以实现超长文本...大语言模型# LongWriter-Zero# 大语言模型6个月前02340
微软与 OpenAI 支持,哈佛法学院发起:首个大规模公共 AI 图书数据集正式开源上周,由微软与 OpenAI 联合资助、起源于哈佛大学法学院图书馆研究计划的 机构资料计划(Institutional Data Initiative,简称 IDI)宣布开源其首个大型 AI 数据集...大语言模型# OpenAI# 哈佛法学院# 微软6个月前02340