没有闻过花香、触摸过花瓣,或在花园散步过,有可能真正了解什么是“花”吗?这个问题引发了不少科学争论。有认知理论专家认为,亲身感受和体验是概念形成的关键,但目前飞速发展的大语言模型研究却表明,仅凭语言便有可能建立对现实具有意义的真实表征。
近日,记者从香港理工大学了解到,该校研究人员与俄亥俄州立大学、普林斯顿大学及纽约市立大学的研究人员合作,他们通过分析大语言模型和人类在概念表征上的相似度,为语言能在多大程度上推动复杂概念的形成和学习提出了新见解。相关成果发表于《自然—人类行为》。
港理工人文学院院长李平领导的研究团队,选取大语言模型ChatGPT和 Google LLMs所生成的词汇评分,并将其与公开发表及经过验证的《格拉斯哥词汇模板》和《兰卡斯特词汇模板》数据集中近4500个词语的人类评分进行比较。这些评分涵盖了情感效价、具体性、可意象性等非感官运动领域;视觉、嗅觉、听觉等感官领域;腿/脚、嘴巴/喉咙等运动领域。
研究团队以人与人之间的配对结果作为基准,首先将个别人类和大语言模型生成的数据进行比较,以探究人类与大语言模型的词汇评分在上述领域各维度中的相似程度,从中找出大模型和人类在理解不同领域概念上的一致性,并运用了表征相似性分析,整合了每个词汇在各领域多个范畴的评分数据,以进行更全面的人类与模型比对。
研究结果表明,大语言模型生成的词汇表征与人类表征的相似度,在非感官运动领域最高,感官领域次之,而在运动领域表现最差。这凸显了大语言模型在表征人类概念上的局限性。大模型虽然能够有效掌握非感官运动领域的概念,但在理解涉及视觉外观、味觉等感官概念,或需要肢体动作体验的运动概念时,表现明显较为逊色。其中,动作性的概念较少被文字完整描述,且高度依赖具身经验,相对于色彩一类能从文本数据学习到的感官概念,对模型而言更具挑战性。
基于研究结果,研究人员进一步检验了具身化训练能否提升大语言模型的表现,他们发现结合视觉输入的模型生成的表征与人类表征相似度明显更高。
论文通讯作者李平表示:“纯语言训练及语言+视觉输入(如图像及视频等)训练的大语言模型,为研究感官及运动信息如何影响人类概念形成提供了独特的机遇。我们的研究展现了多模态学习的潜在优势,因为实时整合多种模态的信息正是人类学习和表征的特点,如果大模型能吸取到这个特征,就可更趋近人类的认知模式。”
研究团队指出,未来可以通过类人型机器人技术整合大语言模型与多模态数据,使其能主动解读真实世界,并作出相应行动。李平指出:“技术的发展有望推动大语言模型真正实现具身人工表征,从反映出人类认知所具有的复杂性和丰富性。”
相关论文信息:https://doi.org/10.1038/s41562-025-02203-8
版权声明:凡本网注明“来源:中国科学报、科学网、科学新闻杂志”的所有作品,网站转载,请在正文上方注明来源和作者,且不得对内容作实质性改动;微信公众号、头条号等新媒体平台,转载请联系授权。邮箱:shouquan@stimes.cn。