Sarvam AI 发布 Sarvam-Translate：支持印度22种语言的文档级翻译模型

大语言模型9个月前发布小马良

158 0

Sarvam AI 推出了其最新翻译模型 Sarvam-Translate，一款专注于支持印度 22 种官方语言的高质量、上下文感知翻译系统。该模型基于 Google 的 Gemma3-4B-IT 进行微调，解决传统翻译模型在印度语言上的局限性，满足对长文本、结构化内容和多格式文档的现代翻译需求。

模型：https://huggingface.co/sarvamai/sarvam-translate

为什么需要 Sarvam-Translate？

在全球化的数字环境中，实现跨语言内容可访问性是提升信息平等的关键。尽管当前许多大型语言模型（LLM）已经具备一定的翻译能力，但在以下三个方面仍存在挑战：

语言覆盖范围有限：主流模型通常优先支持英语等高资源语言，而忽视了如印度语系这类低资源语言。
缺乏自然表达与风格保留：多数系统难以准确翻译习语、俚语或正式文体，导致译文生硬。
处理复杂格式的能力不足：面对包含数学公式、HTML 标签、代码注释或 OCR 错误的文档时，翻译质量下降明显。

Sarvam-Translate 正是在这些背景下诞生，致力于填补印度语言在 AI 翻译领域的空白。

核心功能亮点

✅ 支持印度22种官方语言

Sarvam-Translate 覆盖如下语言：

阿萨姆语、孟加拉语、博多语、多格里语、古吉拉特语、英语、印地语、卡纳达语、克什米尔语、孔卡尼语、迈蒂利语、马拉雅拉姆语、曼尼普尔语、马拉地语、尼泊尔语、奥迪亚语、旁遮普语、梵语、桑塔利语、信德语、泰米尔语、泰卢固语、乌尔都语

✅ 文档级翻译能力

不同于传统的句子级翻译，Sarvam-Translate 可以处理完整的文档、网页、演讲稿、教科书甚至科学论文，最大支持 8,000 token 的上下文长度，确保翻译连贯、语义完整。

✅ 多样化格式兼容

模型支持多种输入格式，包括：

Markdown 和 HTML 内容
包含数学和化学公式的文档
经 OCR 数字化的扫描文件（具备抗错能力）
仅翻译代码中的注释部分

✅ 上下文感知与风格适配

Sarvam-Translate 能根据输入内容自动识别并保留语气（正式/非正式）、风格（文学性、技术性）以及文化细节（如性别归因），从而提供更自然、更具包容性的翻译结果。

技术架构与性能优势

基于 Gemma3-4B-IT 微调，轻量高效。
在人工评估中，表现优于更大的模型如 Gemma3-27B-IT、Llama4 Scout 和 Llama-3.1-405B-FP8。
自动评估显示，在 15 种语言的结构化内容翻译任务中平均得分超过 4.9 分（满分 5 分）。

实际应用场景举例

教育领域：将英文教材翻译为印地语、泰米尔语等，便于本地学生学习。
政府服务：将政策文件、法律条文精准翻译为地方语言，提升公众理解力。
医疗健康：将医学资料、药品说明翻译为地区语言，帮助基层医生和患者沟通。
企业全球化：助力企业拓展印度市场，提供多语言客服、产品文档本地化支持。

开放与部署方式

Sarvam-Translate 已通过以下方式开放使用：

API 商店：开发者可直接接入 API 构建应用程序。
Hugging Face 开源权重：研究人员和技术团队可下载模型进行定制开发。

这一举措延续了 Sarvam AI 推动建立印度本土 AI 生态系统的承诺，也进一步推动了 AI 在语言多样性保护方面的实践。

大语言模型 # Sarvam AI # Sarvam-Translate # 翻译模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

通义 DeepResearch：首个全开源 Web Agent，性能对标 OpenAI 深度研究模型

通义 DeepResearch：首个全开源 Web Agent，性能对标 OpenAI 深度研究模型

大语言模型 # Tongyi DeepResearch # 深度研究模型

7个月前

03740

阿里发布 AgentScope 1.0：面向生产级智能体的开源开发框架

阿里发布 AgentScope 1.0：面向生产级智能体的开源开发框架

大语言模型 # AgentScope 1.0 # 智能体开发框架 # 阿里巴巴

7个月前

01840

OpenAI 发布 GPT-5.4 mini 与 nano：极速、低价，重塑智能体经济

OpenAI 发布 GPT-5.4 mini 与 nano：极速、低价，重塑智能体经济

大语言模型 # GPT-5.4 mini # GPT-5.4 nano # OpenAI

2周前

0160

Qodo推出代码嵌入模型Qodo-Embed-1：专为软件开发领域设计，在优化自然语言到代码和代码到代码的检索任务

Qodo推出代码嵌入模型Qodo-Embed-1：专为软件开发领域设计，在优化自然语言到代码和代码到代码的检索任务

大语言模型 # Qodo # Qodo-Embed-1 # Qodo-Embed-1-1.5B

1年前

05710

暂无评论

none

暂无评论...