量子位 | 公众号 QbitAI
首个能跨领域精准预测人类认知的基础模型诞生!
不仅可以完全预判你的行为,还能知道你是如何思考、以及为什么思考。
这是一项最新登上Nature的突破性研究,来自德国的研究团队只用了5天训练时间就开发出人类认知的通用计算模型——Centaur。
Centaur现在就像一名专业的心理学家,只需传统模型Llama的0.15%参数,就可以完美模拟人类在160项心理学实验中的行为,理解人类如何学习、决策甚至犯错。
不仅仅受限于单一领域,而是真正的多任务全能选手,性能全面超越传统的特定领域认知模型。
更惊人的是,其神经表征竟与真人fMRI(功能性磁共振成像)扫描结果高度吻合。
AI,正在成为最懂人类的“读心者”。
Centaur:心理学与AI的跨界突破
认知的统一理论是唯一能将我们日益增长的丰富知识,置于理智掌控之下的方法。
认知的统一理论是唯一能将我们日益增长的丰富知识,置于理智掌控之下的方法。
那么首先需要构建一个能够预测和模拟人类行为的通用计算模型,它不是AlphaGo这种专为某一个领域而生的模型,而是面向所有领域、各种情况。
于是,Centaur——首个人类认知基础模型诞生了。
研究团队首先为之构建了史上最大规模的人类行为数据集Psych-101,涵盖160项心理学实验,涉及60092名参与者、超1000万次选择,以及2亿多个文本tokens。
数据集包含多臂老虎机、决策制定、记忆、逻辑推理、马尔可夫决策过程等多种任务。
此外研究人员还将全部实验数据转化为自然语言形式,为不同实验范式提供统一表达格式。
而模型本身基于开源语言模型Llama 3.1 70B构建,采用参数高效微调技术QLoRA(量化低秩适应)进行训练。
具体而言是在冻结的4位量化基础模型上,为所有非嵌入层添加秩为8的低秩适配器,最后新增参数仅占基础模型的0.15%。
然后将模型置于Psych-101数据集上进行微调,使用标准的交叉熵损失函数,只专注聚焦在人类响应token上。
值得注意的是,整个训练过程在A100 80GB GPU上,只耗时5天时间。
短短5天,一个通用的LLM模型就蜕变成了可以真正“读懂”人类的认知模型,甚至全面超越传统模型。
超越传统认知模型
研究人员为了考验Centaur的认知能力,设计了一系列实验验证。
首先是对人类行为的捕捉,判断其能否精准地预测人类行为。
实验将参与者分为90%的训练组和10%的测试组,负对数似然值作为衡量模型对人类选择拟合度的指标。
结果显示,Centaur的负对数似然值为0.44,在拟合度上显著优于Llama的0.58。
在对未参与训练者的行为预测表现也优于14种经典认知模型(如前景理论、强化学习模型),平均差异达0.13,且通过了显著性检验。
将模型自身响应反馈给模型本身后,Centaur还表现出了多个与人类相似的行为特征,例如在两步任务(Two-Step Task)中,它复现了与人类行为分布高度一致的轨迹。
此外还能区别人类与人工智能体的行为,预测人类行为准确率高达64%,而预测人工智能体的行为准确率只有35%。
基于描述选择反应时间与选项数量关系的希克定律,研究人员分析模型对人类反应时间的预测能力。
结果表明,Centaur 的响应熵所能解释的反应时间方差比例(条件 R²=0.87)高于 Llama(0.75)和领域特定模型(0.77),显示出其在捕捉人类行为时间特征方面的优势。
其次,研究人员还重点探究了Centaur的泛化能力。
- 只修改故事背景,不改变任务内容
实验将原来的“太空船寻宝”改为“魔毯探险”的新故事后,Centaur在新故事场景下人类行为的预测负对数似然值,依旧显著优于Llama和领域特定认知模型,说明Centaur不受任务表面描述变化影响。
- 修改任务结构
在原来的两臂老虎机实验上,新增成三臂,选择加一,但Centaur的负对数似然值(0.42)依旧远低于 Llama(0.62)和领域特定模型(0.98),表明其能适应任务结构的扩展与调整。
- 全新领域的任务
让模型处理未包含在Psych-101数据集内的逻辑推理任务,Centaur 的负对数似然值(1.65)显著低于 Llama(1.92),体现出微调后对全新认知领域的预测能力依旧强力。
最后,研究人员还聚焦于Centaur与人类神经活动的对齐性,分析验证其内部表征与人类大脑活动的联系。
实验让94名参与者完成两步任务,并记录下他们的fMRI数据,通过分析,Centaur的各层表征对全脑区域神经活动的皮尔逊相关系数均显著高于基础模型Llama,且优于传统认知模型和随机初始化控制模型。
尤其在与奖励相关脑区(如伏隔核)和运动皮层,Centaur的预测表现更为突出,说明其拥有优秀的人类神经活动预测能力。
另外在让5名参与者阅读1000个句子的语言理解任务中,Centaur中间层的表征预测效果最佳,包含最丰富信息,且在与语言处理相关的脑区表现最为稳定。
实验说明,虽然Centaur在训练过程中没有明确匹配神经数据,但在微调后却出乎意料的和人类神经活动呈现出一致性。
据推测,也许是模型内部表征捕捉到了人类认知加工的神经基础特征。
Centaur的出现证明了构建计算模型实现跨领域捕捉人类行为是可行的。
未来它或许将作为 “计算望远镜”,帮助研究者从从海量行为数据中提炼关键信息,为统一认知理论的发展提供强有力的数据驱动路径。
正如作者在论文结尾所言:
是时候将这种通用计算模型,转化为统一的人类认知理论了。
是时候将这种通用计算模型,转化为统一的人类认知理论了。
参考链接: