在多语言交织、语码频繁切换的新加坡数字环境中,一句看似无害的“lah”或“leh”,可能暗藏冒犯;一段夹杂中英马来语的对话,对通用内容审核系统而言却是一道难题。
去年,新加坡政府科技局(GovTech)推出 LionGuard ——首个专为新加坡语言生态设计的内容审核防护模型。如今,我们迎来全面升级的 LionGuard 2:更精准、更稳健、支持更多语言,已在本地与通用基准测试中展现出领先性能。
- 模型:https://huggingface.co/govtech/lionguard-2
- Demo:https://huggingface.co/spaces/govtech/lionguard-2-demo
这一迭代不仅是技术进步,更是对“本地化AI”的一次深入实践:用本地数据、本地语境,解决本地问题。

为什么需要一个“新加坡专属”的审核模型?
主流内容审核工具大多基于西方语境训练,难以应对新加坡独特的语言现实:
- 多语混用:一句话中可能融合英语、中文、马来语、泰米尔语
- 口语化表达:Singlish(新加坡式英语)广泛使用缩略、语气助词和文化特定表达
- 语义模糊性:同一词语在不同语境下可能从幽默变为冒犯
这些特点使得通用审核系统容易出现误判:要么过度拦截日常交流,要么漏检真实风险内容。
LionGuard 系列模型的诞生,正是为了填补这一空白。
LionGuard 2 的三大提升
1. 审核准确性显著提高
在16项基准测试中,LionGuard 2 持续匹敌或超越 OpenAI Moderation API、AWS Bedrock Guardrails 等商业与开源方案,涵盖:
- 本地化测试集:RabakBench、SGHateCheck、SGToxicGuard
- 通用英语测试集:BeaverTails、SORRY-Bench、OpenAI Moderation Evaluation、SimpleSafetyTests
在最具代表性的本地测试集 RabakBench 上,F1 分数从 LionGuard 1 的 58.4% 提升至 87%,接近翻倍。
| 语言 | LionGuard 2 表现(F1) |
|---|---|
| 英语 | 87% |
| 中文 | 88% |
| 马来语 | 78% |
| 泰米尔语 | 略低于 LlamaGuard 4,仍在持续优化中 |
尽管专为本地环境设计,LionGuard 2 在通用英语任务中也表现优异,具备作为多语言审核通用工具的潜力。

2. 多语言支持扩展
LionGuard 2 显著增强了对以下语言的识别能力:
- 英语(含 Singlish 变体)
- 中文(简体为主,支持常见网络用语)
- 马来语(涵盖常用表达与敏感词)
- 泰米尔语(初步覆盖高频风险表达)
这一扩展使模型能更全面地服务于新加坡四大官方语言使用者。
3. 更强的现实适应能力
真实用户输入往往不规范:拼写错误、大小写混乱、标点缺失、故意变体(如“f*ck”、“a$$hole”)。
LionGuard 2 经过专门训练,在此类“噪声”输入下仍保持高准确率,性能下降仅约 1.5%,展现出出色的鲁棒性。
新的风险分类体系:更清晰,更实用
LionGuard 2 对风险类别进行了优化,采用统一且可解释的分类框架:
| 风险类型 | 说明 |
|---|---|
| 仇恨言论 | 基于种族、宗教、性别等身份的攻击 |
| 侮辱 | 人身攻击、贬低性语言 |
| 性内容 | 明显或暗示性的裸露、性行为描述 |
| 暴力 | 威胁、鼓动或美化暴力行为 |
| 自我伤害 | 自残、自杀倾向相关内容 |
| 不当行为 | 扰乱秩序、煽动违法等非直接伤害性内容 |
该体系兼顾国际标准与本地语境,便于开发者集成与政策对齐。
技术实现:小模型,大效能
为保障部署效率与可及性,LionGuard 2 延续轻量化设计思路,采用 嵌入模型 + 分类器 架构,而非微调大型语言模型。

关键构建策略
✅ 精炼的数据集:少而精
- 训练集仅 26,000 条样本,比前代减少 70%
- 融合原始数据与精选合成数据,排除 LLM 翻译数据(测试显示会降低准确性)
- 数据紧凑但覆盖全面,适合低资源部署
✅ 半监督标注:平衡质量与成本
- 使用多个领先 LLM(Gemini 2.0 Flash、o3-mini-low、Claude 3.5 Haiku)进行标注
- 采用 Alt-Test 方法,交叉验证标注一致性,确保质量可控
✅ 最优嵌入选择:场景优先
- 测试多个主流嵌入模型:Cohere、BGE-M3、Arctic Embed v2、Qwen 3 Embeddings
- 最终选用 OpenAI text-embedding-3-large ——虽非排行榜第一,但在实际审核任务中表现最优
→ 再次验证:没有“最好”的模型,只有“最合适”的选择
✅ 小模型优于大模型?
我们尝试微调 LlamaGuard-3–8B 和 Arctic-Embed-2.0 等大型模型,发现其性能提升有限,远不足以抵消计算成本与部署复杂度的增加。

结论明确:在特定任务上,小型专用模型完全可以超越通用大模型。















