新加坡政府科技局发布LionGuard 2：专为新加坡语言生态设计的内容审核防护模型

大语言模型8个月前发布小马良

304 0

在多语言交织、语码频繁切换的新加坡数字环境中，一句看似无害的“lah”或“leh”，可能暗藏冒犯；一段夹杂中英马来语的对话，对通用内容审核系统而言却是一道难题。

去年，新加坡政府科技局（GovTech）推出 LionGuard ——首个专为新加坡语言生态设计的内容审核防护模型。如今，我们迎来全面升级的 LionGuard 2：更精准、更稳健、支持更多语言，已在本地与通用基准测试中展现出领先性能。

模型：https://huggingface.co/govtech/lionguard-2
Demo：https://huggingface.co/spaces/govtech/lionguard-2-demo

这一迭代不仅是技术进步，更是对“本地化AI”的一次深入实践：用本地数据、本地语境，解决本地问题。

新加坡政府科技局发布LionGuard 2：专为新加坡语言生态设计的内容审核防护模型

为什么需要一个“新加坡专属”的审核模型？

主流内容审核工具大多基于西方语境训练，难以应对新加坡独特的语言现实：

多语混用：一句话中可能融合英语、中文、马来语、泰米尔语
口语化表达：Singlish（新加坡式英语）广泛使用缩略、语气助词和文化特定表达
语义模糊性：同一词语在不同语境下可能从幽默变为冒犯

这些特点使得通用审核系统容易出现误判：要么过度拦截日常交流，要么漏检真实风险内容。

LionGuard 系列模型的诞生，正是为了填补这一空白。

LionGuard 2 的三大提升

1. 审核准确性显著提高

在16项基准测试中，LionGuard 2 持续匹敌或超越 OpenAI Moderation API、AWS Bedrock Guardrails 等商业与开源方案，涵盖：

本地化测试集：RabakBench、SGHateCheck、SGToxicGuard
通用英语测试集：BeaverTails、SORRY-Bench、OpenAI Moderation Evaluation、SimpleSafetyTests

在最具代表性的本地测试集 RabakBench 上，F1 分数从 LionGuard 1 的 58.4% 提升至 87%，接近翻倍。

语言	LionGuard 2 表现（F1）
英语	87%
中文	88%
马来语	78%
泰米尔语	略低于 LlamaGuard 4，仍在持续优化中

尽管专为本地环境设计，LionGuard 2 在通用英语任务中也表现优异，具备作为多语言审核通用工具的潜力。

新加坡政府科技局发布LionGuard 2：专为新加坡语言生态设计的内容审核防护模型

2. 多语言支持扩展

LionGuard 2 显著增强了对以下语言的识别能力：

英语（含 Singlish 变体）
中文（简体为主，支持常见网络用语）
马来语（涵盖常用表达与敏感词）
泰米尔语（初步覆盖高频风险表达）

这一扩展使模型能更全面地服务于新加坡四大官方语言使用者。

3. 更强的现实适应能力

真实用户输入往往不规范：拼写错误、大小写混乱、标点缺失、故意变体（如“f*ck”、“a$$hole”）。

LionGuard 2 经过专门训练，在此类“噪声”输入下仍保持高准确率，性能下降仅约 1.5%，展现出出色的鲁棒性。

新的风险分类体系：更清晰，更实用

LionGuard 2 对风险类别进行了优化，采用统一且可解释的分类框架：

风险类型	说明
仇恨言论	基于种族、宗教、性别等身份的攻击
侮辱	人身攻击、贬低性语言
性内容	明显或暗示性的裸露、性行为描述
暴力	威胁、鼓动或美化暴力行为
自我伤害	自残、自杀倾向相关内容
不当行为	扰乱秩序、煽动违法等非直接伤害性内容

该体系兼顾国际标准与本地语境，便于开发者集成与政策对齐。

技术实现：小模型，大效能

为保障部署效率与可及性，LionGuard 2 延续轻量化设计思路，采用 嵌入模型 + 分类器 架构，而非微调大型语言模型。

新加坡政府科技局发布LionGuard 2：专为新加坡语言生态设计的内容审核防护模型

关键构建策略

✅ 精炼的数据集：少而精

训练集仅 26,000 条样本，比前代减少 70%
融合原始数据与精选合成数据，排除 LLM 翻译数据（测试显示会降低准确性）
数据紧凑但覆盖全面，适合低资源部署

✅ 半监督标注：平衡质量与成本

使用多个领先 LLM（Gemini 2.0 Flash、o3-mini-low、Claude 3.5 Haiku）进行标注
采用 Alt-Test 方法，交叉验证标注一致性，确保质量可控

✅ 最优嵌入选择：场景优先

测试多个主流嵌入模型：Cohere、BGE-M3、Arctic Embed v2、Qwen 3 Embeddings
最终选用 OpenAI text-embedding-3-large ——虽非排行榜第一，但在实际审核任务中表现最优
→ 再次验证：没有“最好”的模型，只有“最合适”的选择

✅ 小模型优于大模型？

我们尝试微调 LlamaGuard-3–8B 和 Arctic-Embed-2.0 等大型模型，发现其性能提升有限，远不足以抵消计算成本与部署复杂度的增加。

新加坡政府科技局发布LionGuard 2：专为新加坡语言生态设计的内容审核防护模型

结论明确：在特定任务上，小型专用模型完全可以超越通用大模型。

大语言模型 # LionGuard 2 # 内容审核防护模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Deep Cogito发布Cogito v2 预览版：从“思考更多”到“直觉更强”的推理范式跃迁

Deep Cogito发布Cogito v2 预览版：从“思考更多”到“直觉更强”的推理范式跃迁

大语言模型 # Cogito v2 # Deep Cogito

8个月前

04520

通义 DeepResearch：首个全开源 Web Agent，性能对标 OpenAI 深度研究模型

通义 DeepResearch：首个全开源 Web Agent，性能对标 OpenAI 深度研究模型

大语言模型 # Tongyi DeepResearch # 深度研究模型

6个月前

03630

研究员改造 OpenAI 开源模型 gpt-oss-20b：移除推理约束，还原 “无对齐” 基础版本

研究员改造 OpenAI 开源模型 gpt-oss-20b：移除推理约束，还原 “无对齐” 基础版本

大语言模型 # gpt-oss-20b # gpt-oss-20b-base

7个月前

01720

Mistral AI 推出 Devstral Medium 以及 Devstral Small 的升级版本

Mistral AI 推出 Devstral Medium 以及 Devstral Small 的升级版本

大语言模型 # Devstral Medium # Devstral Small # Mistral AI

8个月前

02210

暂无评论

none

暂无评论...