Sarvam AI 发布 Sarvam-Translate:支持印度22种语言的文档级翻译模型

大语言模型5个月前发布 小马良
131 0

Sarvam AI 推出了其最新翻译模型 Sarvam-Translate,一款专注于支持印度 22 种官方语言的高质量、上下文感知翻译系统。该模型基于 Google 的 Gemma3-4B-IT 进行微调,解决传统翻译模型在印度语言上的局限性,满足对长文本、结构化内容和多格式文档的现代翻译需求。

为什么需要 Sarvam-Translate?

在全球化的数字环境中,实现跨语言内容可访问性是提升信息平等的关键。尽管当前许多大型语言模型(LLM)已经具备一定的翻译能力,但在以下三个方面仍存在挑战:

  1. 语言覆盖范围有限:主流模型通常优先支持英语等高资源语言,而忽视了如印度语系这类低资源语言。
  2. 缺乏自然表达与风格保留:多数系统难以准确翻译习语、俚语或正式文体,导致译文生硬。
  3. 处理复杂格式的能力不足:面对包含数学公式、HTML 标签、代码注释或 OCR 错误的文档时,翻译质量下降明显。

Sarvam-Translate 正是在这些背景下诞生,致力于填补印度语言在 AI 翻译领域的空白。

核心功能亮点

✅ 支持印度22种官方语言

Sarvam-Translate 覆盖如下语言:

阿萨姆语、孟加拉语、博多语、多格里语、古吉拉特语、英语、印地语、卡纳达语、克什米尔语、孔卡尼语、迈蒂利语、马拉雅拉姆语、曼尼普尔语、马拉地语、尼泊尔语、奥迪亚语、旁遮普语、梵语、桑塔利语、信德语、泰米尔语、泰卢固语、乌尔都语

✅ 文档级翻译能力

不同于传统的句子级翻译,Sarvam-Translate 可以处理完整的文档、网页、演讲稿、教科书甚至科学论文,最大支持 8,000 token 的上下文长度,确保翻译连贯、语义完整。

✅ 多样化格式兼容

模型支持多种输入格式,包括:

  • Markdown 和 HTML 内容
  • 包含数学和化学公式的文档
  • 经 OCR 数字化的扫描文件(具备抗错能力)
  • 仅翻译代码中的注释部分

✅ 上下文感知与风格适配

Sarvam-Translate 能根据输入内容自动识别并保留语气(正式/非正式)、风格(文学性、技术性)以及文化细节(如性别归因),从而提供更自然、更具包容性的翻译结果。

技术架构与性能优势

  • 基于 Gemma3-4B-IT 微调,轻量高效。
  • 在人工评估中,表现优于更大的模型如 Gemma3-27B-IT、Llama4 Scout 和 Llama-3.1-405B-FP8
  • 自动评估显示,在 15 种语言的结构化内容翻译任务中平均得分超过 4.9 分(满分 5 分)

实际应用场景举例

  • 教育领域:将英文教材翻译为印地语、泰米尔语等,便于本地学生学习。
  • 政府服务:将政策文件、法律条文精准翻译为地方语言,提升公众理解力。
  • 医疗健康:将医学资料、药品说明翻译为地区语言,帮助基层医生和患者沟通。
  • 企业全球化:助力企业拓展印度市场,提供多语言客服、产品文档本地化支持。

开放与部署方式

Sarvam-Translate 已通过以下方式开放使用:

  • API 商店:开发者可直接接入 API 构建应用程序。
  • Hugging Face 开源权重:研究人员和技术团队可下载模型进行定制开发。

这一举措延续了 Sarvam AI 推动建立印度本土 AI 生态系统的承诺,也进一步推动了 AI 在语言多样性保护方面的实践。

© 版权声明

相关文章

暂无评论

none
暂无评论...