Meta 开源全新 AI 模型 TRIBE v2,精准预测人类大脑多模态反应

抖音秀 百科资讯 5

3 月 28 日消息,科技媒体 The Decoder 昨日(3 月 27 日)发布博文,报道称 Meta 基础人工智能研究团队(FAIR)开源全新 AI 模型 TRIBE v2,可精准预测人类大脑对图像、声音和文本的反应。

该模型最大的亮点,在于无需实际测量,即可精准预测人类大脑对视觉、听觉和语言刺激的反应,有望打破传统神经科学研究周期长、成本高的瓶颈。

TRIBE v2 的核心逻辑在于“多模态融合”。模型接收视频、音频和文本后,分别通过 Video-JEPA-2、Wav2Vec-Bert-2.0 和 Llama 3.2 这三个预训练大模型提取特征。随后,Transformer 架构将这些信息整合,最终输出一张包含 7 万个“体素”(3D 像素)的高精度大脑活动图。

TRIBE v2 可推广到新科目,无需重新培训。绿色条表示模型的预测准确性; 灰点显示了单个脑部扫描与群体平均值的相关性。简短的微调(底部)进一步提升了精度。| 图源:Meta

在性能表现上,TRIBE v2 的预测结果比单人真实的脑扫描图更清晰。真实的功能性磁共振成像(fMRI)常受心跳、头部微动等噪音干扰,TRIBE v2 通过直接预测“调整后的平均反应”来消除杂音。实验表明,其预测准确度远超传统线性模型,并成功在计算机上复现了大量经典神经科学实验。

TRIBE v2 预测大脑在皮层和皮层下区域的活动。预测质量因刺激类型而异,明显优于线性基线。随着训练数据的增加,准确性稳步提升(右下角)。| 图源:Meta

该模型还揭示了不同感官如何激活特定的大脑区域。单独输入音频会激活听觉皮层,而同时输入多模态数据时,大脑颞叶、顶叶和枕叶交界处的预测准确率可飙升 50%。

.在视觉实验中,TRIBE v2 识别了已知的面部、地点、身体和角色的专门大脑区域。顶部:展示图片。中间:模型预测。底部:实际测量的大脑活动。| 图源:Meta

尽管表现惊艳,TRIBE v2 仍存在局限性。它依赖存在数秒延迟的血流数据,无法捕捉毫秒级的神经动态,也缺乏触觉和嗅觉维度。

在语言实验中,TRIBE v2 复制了经典的神经语言学发现,如言语与沉默、情感与身体疼痛,或句子与词汇列表的区分。预测的激活模式与测量数据相符。| 图源:Meta

Meta 目前已全面开源该模型的代码与权重,未来将重点探索其在规划脑科学实验、构建类脑 AI 架构及诊断脑部疾病等领域的应用潜力。

附上参考地址

  • Meta's new AI model predicts how your brain reacts to images, sounds, and speech