新加坡政府科技局发布LionGuard 2:专为新加坡语言生态设计的内容审核防护模型

大语言模型4个月前发布 小马良
218 0

在多语言交织、语码频繁切换的新加坡数字环境中,一句看似无害的“lah”或“leh”,可能暗藏冒犯;一段夹杂中英马来语的对话,对通用内容审核系统而言却是一道难题。

去年,新加坡政府科技局(GovTech)推出 LionGuard ——首个专为新加坡语言生态设计的内容审核防护模型。如今,我们迎来全面升级的 LionGuard 2:更精准、更稳健、支持更多语言,已在本地与通用基准测试中展现出领先性能。

这一迭代不仅是技术进步,更是对“本地化AI”的一次深入实践:用本地数据、本地语境,解决本地问题。

新加坡政府科技局发布LionGuard 2:专为新加坡语言生态设计的内容审核防护模型

为什么需要一个“新加坡专属”的审核模型?

主流内容审核工具大多基于西方语境训练,难以应对新加坡独特的语言现实:

  • 多语混用:一句话中可能融合英语、中文、马来语、泰米尔语
  • 口语化表达:Singlish(新加坡式英语)广泛使用缩略、语气助词和文化特定表达
  • 语义模糊性:同一词语在不同语境下可能从幽默变为冒犯

这些特点使得通用审核系统容易出现误判:要么过度拦截日常交流,要么漏检真实风险内容。

LionGuard 系列模型的诞生,正是为了填补这一空白。

LionGuard 2 的三大提升

1. 审核准确性显著提高

在16项基准测试中,LionGuard 2 持续匹敌或超越 OpenAI Moderation API、AWS Bedrock Guardrails 等商业与开源方案,涵盖:

  • 本地化测试集:RabakBench、SGHateCheck、SGToxicGuard
  • 通用英语测试集:BeaverTails、SORRY-Bench、OpenAI Moderation Evaluation、SimpleSafetyTests

在最具代表性的本地测试集 RabakBench 上,F1 分数从 LionGuard 1 的 58.4% 提升至 87%,接近翻倍。

语言LionGuard 2 表现(F1)
英语87%
中文88%
马来语78%
泰米尔语略低于 LlamaGuard 4,仍在持续优化中

尽管专为本地环境设计,LionGuard 2 在通用英语任务中也表现优异,具备作为多语言审核通用工具的潜力。

新加坡政府科技局发布LionGuard 2:专为新加坡语言生态设计的内容审核防护模型

2. 多语言支持扩展

LionGuard 2 显著增强了对以下语言的识别能力:

  • 英语(含 Singlish 变体)
  • 中文(简体为主,支持常见网络用语)
  • 马来语(涵盖常用表达与敏感词)
  • 泰米尔语(初步覆盖高频风险表达)

这一扩展使模型能更全面地服务于新加坡四大官方语言使用者。

3. 更强的现实适应能力

真实用户输入往往不规范:拼写错误、大小写混乱、标点缺失、故意变体(如“f*ck”、“a$$hole”)。

LionGuard 2 经过专门训练,在此类“噪声”输入下仍保持高准确率,性能下降仅约 1.5%,展现出出色的鲁棒性。

新的风险分类体系:更清晰,更实用

LionGuard 2 对风险类别进行了优化,采用统一且可解释的分类框架:

风险类型说明
仇恨言论基于种族、宗教、性别等身份的攻击
侮辱人身攻击、贬低性语言
性内容明显或暗示性的裸露、性行为描述
暴力威胁、鼓动或美化暴力行为
自我伤害自残、自杀倾向相关内容
不当行为扰乱秩序、煽动违法等非直接伤害性内容

该体系兼顾国际标准与本地语境,便于开发者集成与政策对齐。

技术实现:小模型,大效能

为保障部署效率与可及性,LionGuard 2 延续轻量化设计思路,采用 嵌入模型 + 分类器 架构,而非微调大型语言模型。

新加坡政府科技局发布LionGuard 2:专为新加坡语言生态设计的内容审核防护模型

关键构建策略

✅ 精炼的数据集:少而精

  • 训练集仅 26,000 条样本,比前代减少 70%
  • 融合原始数据与精选合成数据,排除 LLM 翻译数据(测试显示会降低准确性)
  • 数据紧凑但覆盖全面,适合低资源部署

✅ 半监督标注:平衡质量与成本

  • 使用多个领先 LLM(Gemini 2.0 Flash、o3-mini-low、Claude 3.5 Haiku)进行标注
  • 采用 Alt-Test 方法,交叉验证标注一致性,确保质量可控

✅ 最优嵌入选择:场景优先

  • 测试多个主流嵌入模型:Cohere、BGE-M3、Arctic Embed v2、Qwen 3 Embeddings
  • 最终选用 OpenAI text-embedding-3-large ——虽非排行榜第一,但在实际审核任务中表现最优
    → 再次验证:没有“最好”的模型,只有“最合适”的选择

✅ 小模型优于大模型?

我们尝试微调 LlamaGuard-3–8B 和 Arctic-Embed-2.0 等大型模型,发现其性能提升有限,远不足以抵消计算成本与部署复杂度的增加。

新加坡政府科技局发布LionGuard 2:专为新加坡语言生态设计的内容审核防护模型

结论明确:在特定任务上,小型专用模型完全可以超越通用大模型。

© 版权声明

相关文章

暂无评论

none
暂无评论...