来源:Engineering 发布时间:2025/3/17 12:15:46
选择字号:
李静海院士团队:未来数据系统的逻辑与架构 Engineering

论文标题:The Logic and Architecture of Future Data Systems

期刊:Engineering

DOI:https://doi.org/10.1016/j.eng.2025.02.006

微信链接:点击此处阅读微信文章

李静海a,*,郭力a,b

a中国科学院过程工程研究所,介科学与工程全国重点实验室,100190,北京,中国

b中国科学院大学化学工程学院,101408,北京,中国

本文展望了数据科学的未来发展,强调了其对人工智能的重要性。文章首先探讨了数据科学当前所面临的挑战。接着,通过阐释与多层次复杂性相关的数据逻辑和原则,提出了应对这些挑战的策略。文章最后简要概述了迫切需要采取的行动:

1. 科学数据系统面临的挑战

科学数据系统在科学技术发展中的重要性日益显著,受到了学术界和工业界的广泛关注。数据已成为近年人工智能迅猛发展的核心驱动力之一,它贯穿于人工智能模型的开发、训练、评估和优化等各个环节,数据质量对于构建高效、可靠、适用的人工智能系统至为关键。因此,人们愈发期望数据在未来能够充分发挥其基础性作用,特别是在能够精准、完整地表达人类对复杂世界的认知方面。

事实上,由于科学数据主要源自对多层次复杂时空动态过程的长期研究积累,而人类对这些复杂时空动态结构本身的认知尚不全面,这就导致在数据的积累、建模、应用过程中面临诸多尚未被充分关注的挑战性问题。厘清这些问题对于未来数据科学的健康可持续发展极为关键!同时,也对所有学科领域的相关科学研究提出了新的要求,这亟待我们高度关注并认真对待!

以目前的图像识别应用为例,图像数据本身具有丰富的层次结构,自底向上依次是像素、边缘、纹理、部件、整体对象,每一层都承载着不同尺度的特征信息,这种内在的层次结构为建立图像识别的人工智能模型提供了天然框架。基于卷积神经网络[1]的图像识别正是按照这一顺序,从下向上逐层归纳与识别,最终得到结果[2]。

由此可见,科学数据的采集与组织应关注其内在逻辑,进一步而言,如果科学数据系统的逻辑和架构能够反映研究对象的内在特征、结构、行为和功能关系,就有利于构建出具有更高准确性、鲁棒性和可解释性的人工智能模型。反之,若用于处理科学数据的模型、软件以及相应硬件资源的逻辑与架构与数据本身不相匹配,将不可避免地导致模型预测偏差大、模型泛化能力差、因果关系挖掘困难、建模计算量攀升、训练数据量增多以及模型可解释性减弱等问题。这正是当前人工智能亟待攻克的挑战性难题!

这一挑战不仅关乎人工智能与数据科学的长远发展,也是科学研究中一个易于被忽视的重要方面!例如,对于同一现象,不同研究者所获取的数据经常存在差异,这可能是由于层次划分错误或缺失导致的;更为严重的是,对于复杂时空结构,人们往往倾向于进行平均化处理,从而忽视了其中最为关键的实质性的复杂性内涵,比如,系统、层次、尺度之间的关系是什么?数据问题已经成为转变科研范式、应对重大挑战和填补知识体系缺失环节共同面对的实质性难题之一[3]。

2. 科学数据收集和处理应遵循的原则

近年来,我们在复杂性原理的研究上,特别是在探索复杂性和多样性中的共性原理方面取得了一些进展,提出了介科学的概念和方法[4],并在不同系统中进行了应用。我们认为,系统的复杂性通常表现为多层次的复杂结构,并且每一层次呈现多尺度(单元尺度、介尺度和系统尺度)的特征,复杂性总是出现在介于单元尺度和系统尺度中间的介尺度的介区域上。复杂系统可能由至少两种控制机制所支配,控制机制之间的竞争中的协调(CIC)是系统复杂性的起源。

针对前面提出的数据问题,考虑到复杂系统的多层次特征,以及每个层次构成了一个既与相邻层次相互作用、又相对独立的多尺度子系统的属性[4],未来的数据收集和系统化处理在满足现有常规数据规范要求的同时,还应特别遵循以下原则:

在收集数据时,务必明确其可能具有的多层次特征,并精准识别和定义所收集数据的具体层次,避免不同层次数据的混淆和错位;

明确每个层次数据的时空结构特征,辨识每一层次内及其与相邻层次间相互作用的关键变量,以确保数据的完整性和可靠性;

对于特定层次,考虑到其边界和操作条件的变化(包括层次之间的相互作用),可能存在着多种操作区域,因此,需清晰表达这些不同区域之间过渡或突变的临界条件;

对于那些因当前认知手段限制而暂时无法获取的各层次上的动态结构数据,应当加以详细标注,预留完善空间,并提示用户予以持续关注。

上面这些原则只提供了一个大致的框架,并非覆盖了数据系统全部内容。另外,考虑到不同学科和领域的共性和多样性,为实用起见,还需要制定一个更为详细的实施指南。

在这个框架下,人工智能模型的逻辑也应该被重构为多层次结构。以大型语言模型(LLM)[5,6]为例,当前的Transformer架构[7]将文本视为一系列token的时序数据进行处理,聚焦于token间的注意力。然而,人类可理解的文本数据通常具有自己的内在逻辑和结构,以单词作为最基本的单元,从下至上构建出句子、段落、章节,直至整个文档。文本的结构和叙事逻辑明显呈现出如前所述的多层次特性,同一层次的单元之间存在着语义上的时序关系,下一层次构成上一层次的单元,并且不同层次之间也存在语义的关联。若在构建LLM时集成这些结构和逻辑,将能更有效地捕捉更为丰富和深层的语义信息,以及文本的内在逻辑,这将有助于提升LLM的文本理解、语句生成、逻辑推理等能力。

3. 应当充分重视对数据系统逻辑与架构的研究

目前的数据收集和处理过程中普遍未将上述因素纳入考量,或者考虑不够全面,这制约了数据系统乃至人工智能的持续发展。实际上,当前人工智能在那些数据架构定义较为清晰的领域取得了相对成功的应用,但在层次和结构不够明确的领域,尤其在涉及多层次过程的工程领域,其成效往往不尽如人意。这从另一个侧面更清晰地突显了数据系统逻辑与架构的重要性。

因此,对数据系统逻辑与架构的研究应当引起各方面的充分重视!未来我们需要在数据系统逻辑与架构方面进行持续的创新和探索,待时机成熟时,建立一个全球性的分层次结构化的数据标准协议框架并随后发布操作指南,以彻底解决这一问题。唯有如此,才能对生成和收集数据的科研工作提出明确的要求,确保高质量数据生态系统的逐渐形成,促进人工智能的健康发展和高效应用。

进一步而言,将“多层次、多尺度、控制机制之间的竞争中协调导致介尺度复杂性”的原理应用到数据的采集、分析和建模的过程中,对数据科学和人工智能的发展均十分必要[8]。

综上所述,在新范式下的科研活动中,对数据的收集、组织和人工智能分析应当特别关注所研究复杂系统的多层次结构,严格遵循其行为和功能关系与研究对象使用相同逻辑和架构的原则,这对跨学科研究提出了更高的要求。我们不应受限于长期形成的学科分隔的惯性思维,而应积极地逐步融入科研范式变革的进程,将各学科和领域对数据系统逻辑与架构的共性要求,也就是知识体系的逻辑和架构,贯穿于整个科研过程和数据产品之中,以应对人工智能时代的新挑战。在当代科学中,我们不应忽视将不合逻辑的数据错误地纳入科学数据系统的问题,这是全球科学共同体应当充分重视并尽快采取行动的方面。

参考文献

[1] LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 86(11): 2278-2324.

[2] Zeiler, M.D., Fergus, R. (2014). Visualizing and understanding convolutional networks. In: Fleet, D., Pajdla, T., Schiele, B., Tuytelaars, T. (eds). Computer Vision – ECCV 2014, Lecture Notes in Computer Science, vol 8689: 818-833. Springer, Cham.

[3] Jinghai Li (2016). Exploring the logic and landscape of the knowledge system: multilevel structures, each multiscaled with complexity at the mesoscale. Engineering, 2(3): 276-285.

[4] Jinghai Li (2024). The principle of compromise-in-competition: Understanding mesoscale complexity of different levels. Proceedings of the Royal Society A, 480: 20240031.

[5] Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2019). BERT: Pre-training of deep bidirectional transformers for language understanding. Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, 1, 4171-4186.

[6] Radford, A., Narasimhan, K., Salimans, T., & Sutskever, I. (2018). Improving language understanding by generative pre-training. OpenAI. https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf

[7] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., Kaiser, ?., & Polosukhin, I. (2017). Attention is all you need. Advances in Neural Information Processing Systems, 30, 5998-6008.

[8] Li Guo, Jun Wu, Jinghai Li (2019). Complexity at Mesoscales: A Common Challenge in Developing Artificial Intelligence. Engineering, 5(5): 924-929.

文章信息:

The Logic and Architecture of Future Data Systems

未来数据系统的逻辑与架构

作者:

李静海*, 郭力

引用:

Jinghai Li, Li Guo, The Logic and Architecture of Future Data Systems, Engineering, 2025, https://doi.org/10.1016/j.eng.2025.02.006.

更多内容

中南大学喻海良教授团队成功制备高强度高延展性纯镍薄板

汽车主动悬架系统研究进展

同济大学团队:数字孪生使能技术在道路工程全生命周期中的应用综述

电动汽车电池二次利用,开启太阳能存储新篇章

通知:补充征集AI for Engineering专题选题 | Engineering

 
 
 
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
子午工程二期通过国家验收 科学家将光转为可流动超固体
你可以“训练”大脑,不被视觉错觉迷惑 银河系三维尘埃分布和特性图发布
>>更多
 
一周新闻排行
 
编辑部推荐博文