
罕见病虽“罕见”,但全球累计影响超 3亿人。由于症状复杂、医生认知有限,患者往往经历“诊断长跑”——平均耗时 5-7年,期间可能接受数十次误诊。
为破解这一难题,上海交通大学、新华医院、上海人工智能实验室与哈佛医学院联合研发并发布 DeepRare —— 全球首个基于大语言模型(LLM)的可解释型罕见病智能诊断系统。

该系统不仅能处理自由文本、HPO术语、基因VCF文件等多模态输入,更能通过迭代式证据收集与自我反思机制,生成带有透明推理链的诊断建议,在测试中对 1013种罕见病实现100%召回率(在2919种疾病中),显著优于现有工具。
核心目标:让AI诊断“可理解、可验证、可协作”
传统AI诊断模型常被视为“黑箱”:给出结果却无法解释“为何是这个病”。这在临床场景中难以被医生信任。
DeepRare 的核心突破在于:
不仅告诉你“是什么病”,还清晰展示“为什么是这个病”。
它将诊断过程重构为一个人机协同的推理流程,最终输出一份按可能性排序的疾病列表,每一条都附带:
- 关键证据摘要;
- 引用的医学文献或数据库条目(如OMIM、ClinVar);
- 与患者表型和基因变异的匹配逻辑。
这种“可解释性”是其能进入真实临床工作流的关键。

技术架构:模块化智能体系统
DeepRare 并非单一模型,而是一个由多个智能体协同工作的模块化诊断系统,包含三大核心组件:
1. 信息收集:多源证据采集
系统接收患者数据后,自动分解为多个子任务,调用专业“代理”从权威数据库中检索证据:
- 表型匹配 → HPO数据库、Orphanet
- 基因变异分析 → OMIM、ClinVar、gnomAD
- 疾病-基因关联 → GenCC、PanelApp
支持输入形式包括:
- 自由文本临床描述(如“患儿发育迟缓、肌张力低下”)
- HPO 术语(标准表型本体)
- VCF 基因检测文件
2. 自我反思诊断:迭代验证假设
中央主机整合证据,生成初步诊断假设,并启动“自我反思”机制:
- 质疑假设的合理性;
- 检查是否存在更匹配的疾病;
- 验证基因-表型一致性;
- 排除常见病或误报变异。
这一过程可多次迭代,显著降低误诊风险。
3. 输出诊断结果:透明推理链
最终输出:
- 一个按概率排序的罕见病列表(Recall@1 达70.6%);
- 每个诊断附带完整的推理路径;
- 所有引用来源可追溯、可验证。
✅ 主要功能亮点
| 功能 | 说明 |
|---|---|
| 多模态输入支持 | 兼容文本、HPO、VCF,适配临床真实数据形态 |
| 高召回率 | 在2919种疾病中,1013种实现100%召回 |
| 可解释诊断 | 提供透明推理链,支持医生复核与决策 |
| 自我反思机制 | 主动验证与修正假设,提升准确性 |
| 模块化设计 | 易于扩展新数据源或代理模块 |
测试表现:全面领先现有方法
| 测试场景 | DeepRare 表现 | 对比方法 |
|---|---|---|
| HPO基准测试 (Recall@1) | 57.18% | 第二名(Reasoning LLM):33.39% |
| 全外显子测序案例 (Recall@1) | 70.60% | Exomiser:53.20% |
| 专家人工验证 (推理链一致性) | 95.40% | —— |
💡 在180个真实病例中,10位罕见病专家对推理链进行盲评,结果显示其与权威来源高度一致。
临床价值:从“辅助”到“协作者”
DeepRare 不是替代医生,而是成为其“智能协作者”:
- 缩短诊断周期:从数年缩短至数小时;
- 减少误诊漏诊:尤其适用于基层医院缺乏罕见病经验的医生;
- 支持科研与教学:提供结构化诊断路径,用于病例分析与培训。
未来可集成至医院电子病历系统或基因检测平台,实现“检测-分析-诊断”闭环。
数据统计
相关导航


AI Student Pack

UltraRAG

Revornix

微信读书 MCP 服务器

POML

MCP安全检查清单






