谷歌推出开源医疗 AI 模型系列MedGemma及轻量级图像编码器 MedSigLIP

多模态模型8个月前发布小马良

156 0

谷歌近日宣布推出其最新的开源医疗 AI 模型系列——MedGemma，并同时发布了轻量级图像编码器 MedSigLIP。这是继健康 AI 开发者基础（HAI-DEF）项目之后，谷歌在医疗 AI 领域迈出的重要一步。

这些模型不仅性能强大，还完全开源，旨在为全球开发者提供一个可定制、可扩展、注重隐私的医疗 AI 开发起点。

医疗 AI 的新方向：高效、灵活、安全

随着 AI 在医疗行业的广泛应用，从辅助诊断到患者管理，对 AI 系统的要求也日益提高：不仅要准确、高效，还要兼顾数据隐私和系统可控性。

为此，谷歌推出了 HAI-DEF 项目，作为一系列轻量级开源模型的基础平台。今年5月，谷歌进一步推出了 MedGemma 系列，基于 Gemma 3 构建，专为医疗与生命科学领域设计。

新模型发布：MedGemma 27B 多模态 + MedSigLIP 图像编码器

本次更新中，谷歌正式发布两款新模型：

✅ MedGemma 27B 多模态模型

支持文本和图像输入，生成高质量文本输出。
可处理复杂多模态任务，如电子健康记录解读、医学影像分析等。
在多个医学基准测试中表现优异，是当前小型开源模型中性能最强之一。

✅ MedSigLIP

基于 SigLIP 架构构建的轻量级图像编码器（仅400M参数）。
经过医疗图像调优，适用于胸部X光、病理切片、皮肤病图像等多种医学影像任务。
同时保持对自然图像的强大识别能力，具备跨模态检索与分类功能。

性能亮点一览

模型	特点	应用场景
MedGemma 4B 多模态	小型但高性能，在MedQA得分64.4%，81%医生认可其报告准确性	X光报告生成、医学问答、结构化摘要
MedGemma 27B 文本/多模态	更大规模，MedQA得分87.7%，接近DeepSeek R1水平，推理成本低至其十分之一	电子病历解读、医学知识推理、多模态问答
MedSigLIP	支持零样本分类、语义检索、图像匹配，适配多种医学图像	分类、检索、分诊辅助、图像相似度分析

值得一提的是，这些模型均可在单个 GPU 上运行，甚至 MedGemma 4B 和 MedSigLIP 还可在移动设备上部署。

技术架构与训练方式

MedGemma 系列基于 Gemma 3 构建，并通过专门优化的医学图像编码器进行训练。该编码器后来独立发布为 MedSigLIP。

谷歌特别强调保留了 Gemma 的通用能力，使 MedGemma 不仅适用于纯医疗任务，还能应对混合内容场景，并支持多语言指令响应。

开源的价值：灵活性、隐私与可重复性

开源是 MedGemma 系列的核心优势之一：

隐私保护：模型可本地部署，避免敏感数据上传云端。
高度定制：开发者可根据具体任务微调模型，提升特定场景下的性能。
稳定可靠：模型参数固定，不会因 API 更新而变动，保障医疗系统的稳定性与一致性。

如何开始使用？

谷歌已在 GitHub 上提供了详细的使用示例和微调指南，帮助开发者快速上手：

支持 Hugging Face 格式加载
可无缝集成到 Vertex AI 等云服务
提供演示代码与端点部署示例

此外，HAI-DEF 官网和 Hugging Face 页面均已上线相关资源，开发者可通过以下链接访问：

项目主页：https://deepmind.google/models/gemma/medgemma/
模型：https://huggingface.co/collections/google/MedGemma-release-680aade845f90bec6a3f60c4

⚠️ 使用免责声明

尽管 MedGemma 与 MedSigLIP 展现出强大的潜力，但它们仍需经过适当的验证与调整后才能用于实际医疗场景。

注意：这些模型不应用于直接指导临床诊断、治疗决策或任何直接影响患者的实践应用。

所有输出应视为初步结果，需结合专业判断与临床验证。

多模态模型 # MedGemma # MedSigLIP # 谷歌

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

谷歌扩展“关于你的结果”工具：支持移除含身份证件和敏感个人信息的搜索结果

谷歌扩展“关于你的结果”工具：支持移除含身份证件和敏感个人信息的搜索结果

早报 # 谷歌

4周前

0140

智源研究院推出全新多模态系列模型Emu3

智源研究院推出全新多模态系列模型Emu3

多模态模型 # Emu3 # 多模态模型 # 智源研究院

1年前

04250

让大模型真正“看懂”界面：InfiGUI-G1提升 GUI 操作中的语义理解能力

让大模型真正“看懂”界面：InfiGUI-G1提升 GUI 操作中的语义理解能力

多模态模型 # InfiGUI-G1

7个月前

02190

谷歌旗下的AI图像生成工具 Imagen 3

谷歌旗下的AI图像生成工具 Imagen 3

工具 # Imagen 3 # 谷歌

2年前

06220

暂无评论

none

暂无评论...