Sarvam Akshar

1天前发布 2 00

Sarvam Akshar是一个基于其视觉语言模型 Sarvam Vision 构建的文档智能工作台。

所在地:
印度
收录时间:
2026-02-19
其他站点:
Sarvam AksharSarvam Akshar

在由美国和中国巨头主导的全球 AI 格局中,印度本土 AI 实验室 Sarvam AI 正走出一条差异化道路。近日,该公司不仅发布了新一代高效大语言模型,更宣布了一项宏大的部署计划:将 AI 能力带入诺基亚功能手机、汽车以及自研智能眼镜,旨在让智能触达每一台边缘设备。

Sarvam Akshar

边缘优先:让 AI 在兆字节级设备上运行

Sarvam 的核心策略是“边缘优先”。公司推出的最新模型经过极致优化,仅占用兆字节(MB)级的存储空间,无需依赖云端算力,即可在搭载现有处理器的普通手机上离线运行。

  • 功能手机的智能化:Sarvam 正与 HMD Global(诺基亚手机品牌持有者)深度合作,将对话式 AI 助手植入功能手机。演示视频显示,用户只需按下专用 AI 键,即可用当地语言与助手交流,获取政府计划解读或当地市场行情。这种低门槛的交互方式,有望让数亿非智能手机用户首次体验 AI 红利。
  • 汽车与物联网:除了手机,Sarvam 还与德国工程巨头 博世(Bosch) 合作,探索车载 AI 助手的应用场景。同时,公司与 高通(Qualcomm) 联手,针对其芯片组优化模型,共同开发适用于手机、PC、汽车及 IoT 设备的“主权 AI 体验套件”。

Sarvam 边缘 AI 负责人 Tushar Goswamy 表示:“我们的目标是通过边缘 AI,将智能赋予每部手机、每台笔记本、每辆汽车,乃至新一代可穿戴设备。”

Sarvam Akshar

模型升级:小而美的开源路线

此次发布标志着 Sarvam 从企业级语音服务向消费者通用模型的转型。新推出的模型家族包括:

  • 300 亿参数模型:采用混合专家(MoE)架构,支持 32k 上下文窗口,专为实时对话优化。
  • 1050 亿参数模型:同样基于 MoE 架构,拥有 128k 超长上下文,擅长复杂多步推理。
  • 多模态能力:配套发布了文本转语音(TTS)、语音转文本(STT)及文档解析视觉模型。

与许多直接在开源模型上微调的做法不同,Sarvam 强调这些模型是从头开始训练的。其中,300 亿参数模型在约 16 万亿 token 上预训练,而 1050 亿参数模型则重点覆盖了多种印度语言数据。

Sarvam 联合创始人兼 CEO Vivek Raghavan 指出:“我们采取有节制的扩展策略,不盲目追求参数规模,而是聚焦于哪些任务真正需要规模效应。我们将开源这些模型,推动印度乃至全球的开发者优先使用本地化、低成本的 AI 方案。”

重磅新品:Akshar 工作台,攻克文档智能“最后一英里”

在发布会的另一大亮点是 Sarvam Akshar——一个基于其视觉语言模型 Sarvam Vision 构建的文档智能工作台。

痛点:传统 OCR 的局限

现有的 OCR 技术(如 Tesseract 或 Google Cloud Vision)在处理复杂排版、手写体及印度语系特有的连字和变音符号时,往往表现不佳。它们通常采用“自底向上”的字符识别方式,缺乏对页面语义和空间布局的理解,导致多栏内容错乱、上下文丢失。即便是先进的多模态大模型,也常因概率性输出而产生事实幻觉,难以满足金融、医疗等高精度场景的需求。

解决方案:从“被动提取”到“主动推理”

Akshar 引入了智能体(Agent)编排机制,实现了范式转变:

  1. 视觉定位与布局理解:不仅能提取文字,还能精确定位元素坐标,理解表格、图表及多栏排版的语义结构。
  2. 智能体循环(Plan-Reason-Act):系统不再是一次性输出,而是像人类专家一样工作。它能识别不确定区域,自动进行校对,甚至发起“人机协作”——将存疑部分标记出来,供人工快速验证。
  3. 可审计性:所有智能体的操作均作为“建议”呈现,用户可接受或拒绝,确保最终结果的准确性与可追溯性。

Pratyush Kumar 联合创始人举例道:“面对 19 世纪的古吉拉特语手稿,传统模型常将古老字体‘幻觉’为现代拼写。Akshar 能识别这种不确定性,让语言学家在转录一页的时间内验证数百页,极大提升了效率。”

自有硬件:Sarvam Kaze 智能眼镜

除了软件模型,Sarvam 还展示了其首款硬件产品——Sarvam Kaze 智能眼镜。这款在印度设计并制造的设备,被定位为“面向开发者的工具”,预计于今年 5 月上市。它将作为 Sarvam 边缘 AI 模型的载体,探索增强现实(AR)与语音交互的新形态。

数据统计

相关导航

暂无评论

none
暂无评论...