Meta 开源全新 AI 模型 TRIBE v2，精准预测人类大脑多模态反应

抖音秀百科资讯 2026-03-28 12:18:24 5

3 月 28 日消息，科技媒体 The Decoder 昨日（3 月 27 日）发布博文，报道称 Meta 基础人工智能研究团队（FAIR）开源全新 AI 模型 TRIBE v2，可精准预测人类大脑对图像、声音和文本的反应。

该模型最大的亮点，在于无需实际测量，即可精准预测人类大脑对视觉、听觉和语言刺激的反应，有望打破传统神经科学研究周期长、成本高的瓶颈。

TRIBE v2 的核心逻辑在于“多模态融合”。模型接收视频、音频和文本后，分别通过 Video-JEPA-2、Wav2Vec-Bert-2.0 和 Llama 3.2 这三个预训练大模型提取特征。随后，Transformer 架构将这些信息整合，最终输出一张包含 7 万个“体素”（3D 像素）的高精度大脑活动图。

TRIBE v2 可推广到新科目，无需重新培训。绿色条表示模型的预测准确性; 灰点显示了单个脑部扫描与群体平均值的相关性。简短的微调（底部）进一步提升了精度。| 图源：Meta

在性能表现上，TRIBE v2 的预测结果比单人真实的脑扫描图更清晰。真实的功能性磁共振成像（fMRI）常受心跳、头部微动等噪音干扰，TRIBE v2 通过直接预测“调整后的平均反应”来消除杂音。实验表明，其预测准确度远超传统线性模型，并成功在计算机上复现了大量经典神经科学实验。

TRIBE v2 预测大脑在皮层和皮层下区域的活动。预测质量因刺激类型而异，明显优于线性基线。随着训练数据的增加，准确性稳步提升（右下角）。| 图源：Meta

该模型还揭示了不同感官如何激活特定的大脑区域。单独输入音频会激活听觉皮层，而同时输入多模态数据时，大脑颞叶、顶叶和枕叶交界处的预测准确率可飙升 50%。

.在视觉实验中，TRIBE v2 识别了已知的面部、地点、身体和角色的专门大脑区域。顶部：展示图片。中间：模型预测。底部：实际测量的大脑活动。| 图源：Meta

尽管表现惊艳，TRIBE v2 仍存在局限性。它依赖存在数秒延迟的血流数据，无法捕捉毫秒级的神经动态，也缺乏触觉和嗅觉维度。

在语言实验中，TRIBE v2 复制了经典的神经语言学发现，如言语与沉默、情感与身体疼痛，或句子与词汇列表的区分。预测的激活模式与测量数据相符。| 图源：Meta

Meta 目前已全面开源该模型的代码与权重，未来将重点探索其在规划脑科学实验、构建类脑 AI 架构及诊断脑部疾病等领域的应用潜力。

附上参考地址

Meta's new AI model predicts how your brain reacts to images, sounds, and speech

本文地址： http://www.douyinshow.com/20636.html

文章来源：抖音秀