Meta 发布 TRIBE v2：AI 模型可精准预测大脑反应，神经科学迎来“数字孪生”时代

脑科学研究长期受限于高昂的实验成本和缓慢的数据采集速度。功能性磁共振成像（fMRI）不仅需要昂贵的设备，还要求受试者长时间配合，且数据充满噪声。

GitHub：https://github.com/facebookresearch/tribev2
模型：https://huggingface.co/facebook/tribev2
Demo：https://aidemos.atmeta.com/tribev2

Meta FAIR 实验室推出了突破性成果——TRIBE v2。这是一个基于海量 fMRI 数据训练的人工智能模型，能够精准预测人类大脑对图像、声音和语言刺激的反应。令人惊讶的是，在多项测试中，TRIBE v2 的预测结果比任何单个真实受试者的扫描数据都更接近“典型的大脑反应模式”，仿佛它构建了一个通用的数字大脑孪生体。

Meta 发布 TRIBE v2：AI 模型可精准预测大脑反应，神经科学迎来“数字孪生”时代

核心突破：比真人扫描更“标准”的预测

1. 噪声过滤与群体平均

真实的 fMRI 扫描深受心跳、头部微动和设备伪影的干扰，往往需要多次扫描取平均值才能看到清晰信号。

TRIBE v2 的优势：它直接在由 720 名受试者、超过 1000 小时 的高质量 fMRI 数据上训练，学习的是“去噪后”的群体规律。
实测表现：在人类连接组项目（使用高场强 7T 扫描仪）的数据集中，TRIBE v2 的预测与群体平均响应的相关性，是普通个体受试者相关性的两倍。这意味着，用 AI 预测可能比单独扫描一个人更准确、更稳定。

2. 复现数十年神经科学发现

研究人员用经典实验范式测试 TRIBE v2，结果令人惊叹：

视觉区定位：输入人脸图片，模型准确激活了已知的“梭状回面孔区”；输入场景图片，激活了“海马旁回位置区”。
语言网络：输入完整句子 vs 随机单词列表，模型完美复现了左半球语言区的更强激活模式。
痛觉区分：甚至能区分处理“情感痛苦”与“身体痛苦”的不同脑区。
意义：这证明 AI 已经内化了人类几十年的神经科学知识，未来的新假设可以先在“硅基大脑”中进行低成本模拟验证。

技术架构：三模态融合 Transformer

TRIBE v2 并非端到端黑盒，而是采用了精妙的模块化设计：

预处理层（专家编码）：
- 文本 → Llama 3.2：提取语义嵌入。
- 音频 → Wav2Vec-Bert-2.0：捕捉声音特征。
- 视频 → Video-JEPA-2：理解视觉动态。
融合层（跨模态理解）：
- 一个强大的 Transformer 将三种模态的表示对齐并融合，捕捉跨感官的复杂模式（如听到“狗叫”同时看到狗的画面）。
输出层（脑图谱映射）：
- 特定于人的层将融合特征映射为包含 70,000 个体素（3D 像素） 的全脑活动图谱。