印度SarvamAI 开源 30B/105B 推理模型，全栈自研挑战全球巨头

127 0

印度初创公司 SarvamAI 开源了其旗舰推理模型系列：Sarvam 30B 和 Sarvam 105B。这两个模型不仅是目前印度本土构建的最大规模开源模型，更代表了全球范围内罕见的全栈自研（Full-Stack Sovereign）成就——从数据策划、分词器设计、模型架构、训练框架到推理优化，全部在印度本土完成，运行于 IndiaAI 任务提供的算力之上。

官方介绍：https://www.sarvam.ai/blogs/sarvam-30b-105b
Sarvam 30B：https://huggingface.co/sarvamai/sarvam-30b
Sarvam 105B：https://huggingface.co/sarvamai/sarvam-105b

此次发布标志着印度 AI 生态从“依赖西方 API”迈向“构建主权基座”的关键转折点。Sarvam 模型在数学、编码、智能体任务及22 种印度语言上的表现，不仅超越了同量级模型，甚至在部分基准上挑战了闭源巨头。

核心亮点：全栈自研与极致效率

1. 🇮🇳 真正的“主权堆栈” (Sovereign Stack)

Sarvam 拒绝做“套壳”厂商。其核心能力完全内化：

数据主权：使用内部精心策划的大规模数据集，涵盖代码、STEM、多语言内容（特别是 10 种主流印度语言），并在预训练、SFT 和 RL 阶段全程把控质量。
架构创新：基于混合专家（MoE）Transformer，采用稀疏路由机制。
- Sarvam 30B：仅 2.4B 激活参数，采用分组查询注意力（GQA），专为实时部署优化。
- Sarvam 105B：采用多头潜在注意力（MLA），进一步压缩长上下文显存占用，专为复杂推理和智能体工作流设计。
训练技术：引入基于 Sigmoid 的路由分数（替代 Softmax）以防止路由崩溃，并使用异步 GRPO 架构进行强化学习，实现高效的大规模训练。

2. 印度语言的绝对统治者

这是 Sarvam 最显著的护城河。针对印度复杂的语言环境（12 种文字、22 种语言、罗马化拼写），Sarvam 做了深度优化：

专用分词器：针对印度语言的高效分词设计，显著降低了 Token 消耗（Fertility Score 优于其他开源模型），直接降低推理成本和延迟。
双语能力：在正式书面语（本土文字）和非正式口语（罗马化拉丁文字）上均表现卓越。
基准碾压：在印度语言基准测试中，Sarvam 30B/105B 的平均胜率高达 89%，远超规模大得多的国际模型。

3. 推理性能的极致优化

Sarvam 不仅训练强，更让模型跑得快、跑得便宜：

内核级重写：针对不同硬件（H100, L40S, MacBook M3）定制融合算子。
性能飞跃：
- 在 H100 上，吞吐量比 Qwen3 基线高 3-6 倍。
- 在 L40S 上，吞吐量提升 1.5-3 倍。
- 在 MacBook Pro M3 (MXFP4 量化) 上，本地推理速度提升 20-40%，使得在个人设备上运行 30B 模型成为可能。

硬核基准测试：与全球顶尖模型正面交锋

Sarvam 模型在通用推理、编程和智能体任务上展现了惊人的竞争力。

Sarvam 105B：百亿参数级的推理怪兽

基准测试	Sarvam-105B	GLM-4.5-Air (106B)	GPT-OSS-120B	Qwen3-Next-80B	Deepseek R1	o4-mini
Math500	98.6	97.2	97.0	98.2	-	-
Live Code Bench v6	71.7	59.5	72.3	68.7	73.3	80.2
MMLU	90.6	87.3	90.0	90.0	-	-
AIME 25 (带工具)	88.3 (96.7)	83.3	90.0	87.8	87.5	92.7
GPQA Diamond	78.7	75.0	80.1	77.2	81.0	81.4
BrowseComp (智能体)	49.5	21.3	-	38.0	3.2	28.3
Tau2 (智能体)	68.3	53.2	65.8	55.0	62.0	65.9

💡 解读：Sarvam 105B 在数学（Math500）、智能体任务（BrowseComp, Tau2）上全面领跑同量级开源模型，甚至在部分指标上超越更大规模的闭源模型。其工具使用能力（AIME + Tools）尤为突出。

Sarvam 30B：小身材大能量

基准测试	Sarvam-30B	Gemma 27B	Mistral 24B	Qwen3-30B	GLM 4.7 Flash
Math500	97.0	87.4	69.4	97.6	97.0
HumanEval	92.1	88.4	92.9	95.7	96.3
Live Code Bench v6	70.0	28.0	26.0	66.0	64.0
MMLU Pro	80.0	68.1	69.1	80.9	73.6
BrowseComp	35.5	-	-	2.9	42.8

💡 解读：凭借仅 2.4B 的激活参数，Sarvam 30B 在编码（LiveCodeBench）和智能体任务上吊打同尺寸竞品，甚至逼近更大模型。它是边缘部署和实时应用的绝佳选择。

实际应用：从 JEE 考试到代码竞赛

Sarvam 不仅在榜单上好看，更在真实场景中经受住了考验：

🎓 JEE Mains 2026 挑战：在印度最难的理工科入学考试（JEE Main）中，Sarvam 105B 在 Pass@2 设置下，实现了物理、化学、数学 全科满分 (75/75)。即使面对复杂的图表题，通过结构化文本描述也能完美解答。
💻 Codeforces 实战：在 2026 年 2 月的真实竞赛中（知识截止日期后），Sarvam 105B 取得了 42.3% (Pass@1) 的通过率，证明了其强大的泛化和解题能力。
🗣️ Samvaad & Indus：
- Samvaad：基于 Sarvam 30B 的对话平台，支持印地语、泰米尔语等多语言电话交互，精准处理数字和工具调用。
- Indus：基于 Sarvam 105B 的智能助手，能用泰卢固语等本地语言回答复杂问题，并自动调用英语网络搜索获取最新信息。