大模型赋能智能质量控制：方法、挑战与展望综述—论文

作者：王迪等来源：《工程·管理》发布时间：2026/6/4 15:47:56

选择字号：小中大

大模型赋能智能质量控制：方法、挑战与展望综述

质量控制（QC）是现代制造业的基石，对生产效率、产品可靠性和客户满意度具有决定性影响。然而，传统质量控制体系主要依赖基于规则的框架和狭义定义的统计方法，在处理当代工业数据的规模、多样性和复杂性方面，局限性日益凸显。这一局限性为探索大模型（LMs）推动质量控制技术升级的潜力提供了核心动因。大模型在知识整合、上下文理解和自适应推理方面具备强大能力，为质量控制的现代化转型带来了变革性机遇。本综述首先从三个维度分析了大模型赋能质量控制的核心优势：输入对齐，可实现多源异构数据的无缝融合；任务适应性，支持跨多个质量控制任务的关联学习与知识迁移；增强智能，可为人类专家的复杂决策提供辅助支撑。文章梳理了大模型在工业场景应用的最新研究进展，重点聚焦方法创新、部署实践以及工作流融合路径。为系统梳理当前研究格局，本文将核心挑战划分为数据、模型与评估三个相互关联的维度，分别对应真实工业场景中模型训练、工程落地与可持续适配的核心需求。在此基础上，本文进一步勾勒了未来的研究方向，明确数据安全协作、系统级集成与动态环境下的持续学习是下一阶段发展的核心重点。综上，本文研究结论充分印证了大模型的应用潜力，其将推动质量控制向智能化、高韧性、面向未来的全新范式转型。

引言

在智能制造时代，质量控制已超越了传统产后检验环节的职能定位，成为贯穿整个制造全生命周期的战略性核心环节。它对于维持生产过程的稳定性、保障产品质量的一致性，以及支撑制造系统的整体韧性至关重要。在过去一个世纪里，质量控制经历了多个重要的发展阶段：20 世纪初起源于经验性质量检验，随着休哈特控制图的提出发展为统计质量控制（SQC），后续又逐步演进为统计过程控制（SPC）与全面质量管理（TQM），强调全组织的质量意识建设（Ebadi et al., 2021; Woodall and Montgomery, 2014）。随着工业 4.0 范式下数字化与信息物理系统的兴起，质量控制正式迈入 “质量 4.0” 时代。这一阶段的核心特征是制造环境日趋复杂、互联互通性不断增强、数据密集度持续提升，企业可借助人工智能（AI）、工业物联网（IIoTs）与高级分析技术，构建具备智能感知与自适应能力的质量体系（Escobar et al., 2025; Klingenberg et al., 2019; Lee et al., 2019）。质量控制的这一新发展阶段彻底突破了传统被动响应式的范式，转而强调主动式、预测性的管控策略，核心焦点也从事后故障修复转向质量预防与早期预警（Megahed et al., 2024; Gomaa, 2025）。在此背景下，现代质量控制应被重新定义为一个贯穿产品全生命周期、智能化与数据驱动的完整流程，具体包括：以质量为核心的产品与工艺设计，即从历史故障中学习并优化设计参数（Yu et al., 2021; Deng et al., 2023）；过程在线监控，即通过多传感器融合保障生产一致性（Woodall and Montgomery, 2014; Yin et al., 2014）；智能故障诊断，即识别异常与缺陷的根本成因（Kouchakzadeh and ElMaraghy, 2024; Lei et al., 2020）；预测性健康维护，即基于历史与实时数据预判设备性能退化或潜在故障，通过持续的状态预测减少非计划停机（Hu et al., 2022; Gomaa, 2025）。

在这一发展进程中，各类方法体系从不同维度推动了上述质量控制任务的技术升级。贝叶斯与高级统计方法通过在分层或非参数模型中嵌入先验工艺知识，将统计过程控制拓展至高维、动态生产数据场景，为决策提供具备可解释性的后验风险度量（Yang and Zhang, 2024; Qiu and Xie, 2022）；这类方法还可实现多通道轮廓 / 函数型数据监控（Capezza et al., 2024）、追踪复杂动态轨迹的自适应指数加权移动平均（EWMA）控制图（Capezza et al., 2025），以及部分可观测、传感器间强耦合场景下的在线贝叶斯变点检测（Guo et al., 2023）。与此同时，数字孪生（DT）方法将基于物理机理的仿真与流数据相结合，构建产品与设备的动态虚拟映射模型，为机械加工场景提供实时状态估计、工艺参数情景分析与多尺度质量表征支撑（Gaikwad et al., 2020; Psarommatis and May, 2023; Liu et al., 2023a）；基于数字孪生的预测性维护进一步融合了性能退化模型与虚拟测试，有效缓解了故障数据稀缺的问题，实现了从诊断到控制的闭环管控（van Dinter et al., 2022）。此外，数据驱动的机器学习（ML）与深度学习（DL）方法，能够实现检测与预测任务的自动化特征学习（Li et al., 2024a; Lv et al., 2024），例如可联合建模波动传递规律与多质量指标的多阶段多任务网络（Wang et al., 2023a），以及面向时序质量预测与异常检测的多传感器融合模型（Tercan and Meisen, 2022; Wu et al., 2022）。然而，这些方法通常受制于对单一模态数据的依赖以及任务设定的局限性，因而难以有效应对现代制造环境所呈现的复杂挑战。具体而言，这类方法在面向大规模、集成化系统时往往难以实现有效扩展；其性能提升通常高度依赖于大量标注数据的支撑；同时，在处理高维、异构以及未知工况等复杂情形时，也普遍缺乏足够的鲁棒性。上述局限充分表明，智能制造领域亟需发展更加具备可扩展性、灵活性与泛化能力的先进方法，以切实满足其动态化、多维化和复杂化的发展需求。

在工业质量控制向数据驱动模式演进的同时，人工智能领域正发生着一场并行的技术革命（Bommasani et al., 2022）。大模型（包括大语言模型 LLMs、大多模态模型 LMMs、大视觉语言模型 LVLMs 等）的出现，并非对传统机器学习方法的渐进式优化，而是人工智能学习与泛化模式的根本性变革。大模型的核心优势源于其数据与参数量的双重规模化：这类模型在海量、多元的数据集上完成预训练，数据来源涵盖文本语料、图像集乃至多模态数据，从而形成了丰富且深度的上下文理解能力。这种规模化特性让大模型在小样本、零样本学习任务中表现卓越，仅需极少的任务专属样本即可完成预测或内容生成。Transformer 架构是大模型能力的核心支撑（Vaswani et al., 2017），其通过注意力机制捕捉长程依赖关系，理解精细化的语义信息，并有效建模跨模态关联。通过聚焦输入数据中的相关部分，Transformer 架构让大模型能够学习复杂的模式与关联关系，从而构建出精度更高、自适应能力更强的人工智能系统。

基于上述特性，大模型已在多个领域展现出卓越性能：在自然语言处理（NLP）领域，其凭借从海量文本语料中习得的知识，实现了高阶的语言理解与生成（Devlin et al., 2019; Brown et al., 2020）；在计算机视觉（CV）领域，其在图像分类、分割、视觉推理等任务中超越了传统卷积神经网络（CNNs）（Kawaharazuka et al., 2023）；在医疗健康领域，大模型正推动诊断技术的革新，成为精准医疗的核心基石，通过分析病理图像、基因组数据与电子病历，实现异常检测与个性化治疗方案指导（Mahesh et al., 2024）。综上，大模型已展现出变革性的技术能力，在多个领域实现了当前最优的性能表现。大模型的应用，将能够推动制造业从基于规则的检验模式，向人工智能驱动的系统转型，这类系统能够捕捉复杂模式、高精度检测异常，并输出实时的指导性决策洞见（Li et al., 2024b; Zhang et al., 2026），为工业人工智能新范式的构建奠定了基础。

如图1所示，技术发展趋势清晰表明，在当前数据密集型的制造环境下，大模型具备推动质量控制体系变革的巨大潜力。与此同时，工业场景提出的独特且复杂的需求，也能通过催生面向真实应用场景的新能力、适配方案与研究方向，反向推动大模型的技术进步。然而，要实现二者的成功融合，必须深入理解大模型的能力边界与局限性。本综述的核心贡献主要体现在三个方面：第一，探究了大模型具备赋能质量控制任务潜力的底层逻辑；第二，围绕感知、推理、交互三大核心功能维度，全面梳理了当前大模型在真实工业质量控制场景中的应用研究进展；第三，明确了当前制约大模型在工业质量控制中有效落地的核心挑战，并提出了有望突破这些壁垒的未来研究方向。最终，本文旨在弥合大模型的理论能力与其在质量提升领域的实际工业应用之间的脱节问题。

图1. 质量控制与大模型交叉领域的创新赋能框架

大模型应用于质量控制的核心动因

大模型在质量控制领域的应用，并非单纯为了应对传统技术的局限性，更是现代制造业发展格局下的必然结果。随着质量控制流程产生的多模态数据日益增多，检测任务的关联性不断增强，行业对模型的泛化能力、自适应能力与智能化水平提出了更高要求。本章将阐述大模型与质量控制融合的三大核心驱动因素（见图2）：输入对齐，体现了大模型有效处理制造业时序、多模态、低标注数据的能力；任务适应性，强调其通过统一表征与联合建模，在设计、监控、诊断、预测性健康管理全流程任务中实现泛化的能力；增强智能，阐释了大模型如何融合领域知识与推理、生成能力，提升质量控制流程的可解释性与决策支撑水平。

图2. 大模型赋能质量控制的核心动因

2.1 输入对齐制造业的快速数字化转型，催生了海量、多元、高维数据的积累，数据类型涵盖时序信号、文本、传感器流等。丰富的数据资源为大模型发挥统一表征的优势、构建更鲁棒、可扩展的质量控制体系提供了天然基础。

2.2 任务适应性制造业的质量控制本质上是一个多维度的综合性体系。从业人员需要实时监控生产过程、诊断故障根因、预测未来质量结果，每一项任务对数据表征、建模策略与可解释性都有着不同的要求。面对工业数据固有的复杂性与多变性，这些要求共同给传统机器学习方法带来了巨大挑战。

多任务学习（MTL）无需为每个任务单独训练模型，而是通过统一框架，用单个模型同时学习多个任务，实现表征共享与跨任务知识迁移（Zhang and Yang, 2022; Liu et al., 2019; Caruana, 1997）。大模型的训练特性与架构属性，使其天然契合多任务学习的核心原则：其核心优势在于通用表征学习，这源于其在覆盖不同功能、领域、任务类型的海量多元语料上完成的预训练。这种广泛的数据接触，让大模型形成了高迁移性的内部表征，大幅降低了任务专属建模与人工特征工程的需求（Liu et al., 2020）。此外，基于 Transformer 的大模型通常采用统一的序列到序列或编解码架构，仅需最小的结构修改，即可适配多种输入输出格式。这种架构统一性，使其能够通过共享头或基于提示词的条件调控，灵活集成多个任务，非常适用于可扩展的多任务适配（Chen et al., 2024b）。

多个领域的最新研究进展，均印证了大模型作为多任务学习基础架构的有效性。自然语言处理领域的代表性案例是文本到文本迁移 Transformer（T5）模型（Raffel et al., 2020），其将翻译、摘要、问答等所有任务，都重构为统一的文本到文本范式。这种与任务无关的表达形式，支撑了大规模多任务预训练，使模型能够学习跨任务的共享语义表征，并在众多基准测试中取得了当前最优的结果。该研究同时也凸显了任务兼容性的重要性，若未采用合理的平衡策略，混合差异极大的任务可能导致模型性能下降。

自然语言处理领域统一大模型的成功，也为其他模态的相关研究提供了启发。在计算机视觉领域，视觉 Transformer（ViT）是这一趋势的典型代表（Dosovitskiy et al., 2020），其将图像视为图像块序列，通过自注意力机制学习通用视觉特征。ViT 在分类、检测、分割任务中展现出强大的多任务能力，降低了对任务专属架构的依赖。Swin Transformer 在 ViT 的基础上，引入了带滑动窗口注意力的层级结构，优化了局部与全局视觉特征的建模效果（Liu et al., 2021）。这一设计使其在保持高计算效率的同时，实现了可扩展的多任务学习，非常适合作为密集视觉任务的通用主干网络。在时序分析领域，UniTS 框架对 Transformer 架构进行了适配，在单个网络中实现了预测、分类、异常检测、缺失值补全任务的联合建模（Gao et al., 2024）。通过捕捉时序动态的通用表征，UniTS 证明了即使在目标异构的序列数据领域，共享学习依然具备重要价值。

大模型支撑多任务学习的通用性，同样延伸至医疗应用领域。该领域通常存在多个相关的预测任务，例如多种相关病症的诊断，或同时预测疾病及其发展进程。Kim 等人（2023）构建了一个多任务学习框架，利用疾病状态间的相互依赖关系，同时预测多种慢性疾病，提升了预测精度。ElSappagh 等人（2020）融合多模态临床数据，联合解决阿尔茨海默病相关的分类与回归任务；Yang 等人（2020）则提出了一种面向肺癌检测与辅助呼吸系统疾病诊断的多任务模型，为解决任务不平衡与过拟合问题，其设计中引入了周期聚焦与内部迁移加权策略，通过调节跨任务的学习焦点，提升了模型的鲁棒性。在自动驾驶与机器人领域，多任务学习通过融合多个子任务，实现了全面的感知与决策。例如，M3Net 框架通过查询 - 令牌交互机制，将目标检测、语义分割、3D 占用预测集成至单个网络中（Chen et al., 2025）。这种统一方法不仅比独立的任务专属模型实现了更优的性能，还能通过跨任务特征增强，利用某一任务的信息特征提升其他任务的表现。

在海量异构数据集上完成预训练的大模型，在多任务学习场景中展现出了强大的跨域泛化能力。其对任务集成的天然支持、模块化架构，以及捕捉丰富上下文表征的能力，使其非常适合作为统一、可扩展的质量控制系统的核心。这类模型通过促进跨任务的共享认知，不仅提升了决策一致性与知识迁移效率，还大幅降低了部署复杂度。

2.3 增强智能在现代质量控制系统中，仅能做出精准决策已远远不够，对决策进行解释、与操作人员实现自然交互的能力，已成为同等重要的核心要求。近期一项工业异常检测领域的综述强调，大模型的核心目标之一，是生成可解释的检测结果，从颜色、形状、类别等维度对异常进行描述（Yang et al., 2025），从而弥合自动化决策与人类理解之间的鸿沟。

传统模型往往难以提供良好的可解释性，也无法实现无缝的人机交互。而 ChatGPT（Ouyang et al., 2022）、DeepSeek（Bi et al., 2024）等大语言模型，凭借在语言理解（Peng et al., 2024）、信息抽取（Xu et al., 2024）、逻辑推理（Wu et al., 2024）方面的卓越能力，提供了极具竞争力的替代方案。依托先进的自然语言处理能力，大语言模型能够生成具备上下文感知能力的解释，开展动态、交互式对话，彻底打通自动化决策与人类认知之间的壁垒。

大语言模型的生成能力，已在多个应用领域展现出显著效果。其中最具代表性的成功案例是软件开发领域，大语言模型在自动化与优化编程相关任务中展现出巨大潜力。OpenAI 的 Codex 模型在海量源代码语料上完成训练，能够将自然语言描述转换为多种编程语言的可执行代码，且具备极高的语法与语义准确率（Chen et al., 2021）。除代码生成外，大语言模型在程序调试、代码解释、替代实现方案探索等任务中同样极具价值（Sun et al., 2022）。这些能力充分凸显了大语言模型在逻辑推理、错误识别、迭代优化方面的优势，而这些能力不仅在软件工程领域至关重要，还可直接迁移至工业系统质量问题的诊断与解决中。

在医疗健康领域，大语言模型同样取得了突破性进展，能够胜任需要专家级知识与复杂推理能力的任务。其中极具代表性的是医学路径语言模型 Med-PaLM，它是首个在美国医师执照考试类题目中达到及格线以上的人工智能系统（Singhal et al., 2023）。这一里程碑式的成果，印证了大语言模型能够编码海量领域专属知识，并针对复杂的医疗内容开展有效推理。在此基础上，Med-PaLM 2 通过解决长格式医疗问答、融入真实临床工作流等方面的创新，实现了进一步的技术升级（Singhal et al., 2025）。其核心实现路径包括基础模型能力增强、医疗数据定向微调，以及集成优化、检索增强推理（RAG）等先进技术（Madaan et al., 2023; Lewis et al., 2020），这些策略显著提升了模型的事实准确性与推理精度。人工评估结果显示，在大多数临床问题上，医生更偏好 Med-PaLM 2 生成的回复，且认为其给出的诊疗建议具备与普通医生相当的安全性。这些成果充分证明，大语言模型能够运用专业知识，通过自然语言开展有理有据的推理。

与之类似，在企业知识管理领域，大语言模型正以前所未有的效率，彻底改变企业对海量非结构化数据的检索与利用方式。通过自然语言理解与生成能力，大语言模型能够实现文档、手册、对话日志中信息的检索与整合。Jiang 等人（2024）提出了一种面向企业知识库、基于大语言模型的检索生成框架 EKGR，解决了标注稀缺、数据隐私等行业痛点。该框架融合了指令调优的问题生成、相关性感知的师生检索器训练策略，以及面向答案生成的思维链微调技术，在极少监督的情况下，于真实数据集上实现了优异性能。事实上，业界已越来越广泛地认可，大语言模型有望成为企业知识管理的全新主干架构（O’Leary, 2023; Lang et al., 2024）。大语言模型在医疗与企业领域的成功应用表明，其能够承担知识整合者与对话智能体的角色，这与质量控制场景高度契合。在该场景中，工程师通常需要诊断复杂的生产问题、查阅海量历史故障报告、解读最佳实践准则，而这些任务都离不开专家级推理能力与自然语言交互的支撑。

大模型的跨域成功，充分凸显了其作为工业质量应用通用认知引擎的潜力。通过用自然语言输出洞见，大语言模型将原始预测结果转化为可执行、符合人类认知的解释。除可解释性外，大语言模型还通过将数据驱动的分析与人类沟通相结合，优化了人机交互体验。其对非结构化数据源的理解与总结能力，使其能够实现高价值领域知识的抽取与复用。在智能制造场景中，工程师可以用自然语言向大语言模型发起查询（例如 “本周产品缺陷率上升的原因是什么？”），并获得基于实时数据与历史趋势、具备完整推理过程与证据支撑的答案。这些能力让大语言模型不再是被动的报告工具，而是能够融合人类专业知识与机器推理能力的交互式、自适应系统。随着其能力的不断提升与工业应用的加速落地，大语言模型必将成为智能质量控制体系的核心组成部分。

大模型赋能质量控制的实现路径

基于大模型的基础能力，近期研究已开始探索其在工业质量控制中的具体应用，实现了从概念探索到工程落地的演进。本章将梳理大模型解决质量控制核心痛点的最新研究进展，包括：实现异构数据融合的多模态感知、支撑全流程统一认知的多任务推理、缓解数据稀缺问题的零 / 小样本学习，以及实现交互式、可解释质量管理的生成式 AI 技术。这些研究进展共同印证了大模型在推动智能、鲁棒的质量控制系统升级中，发挥着日益重要的作用。

3.1 多模态感知多模态感知是工业质量检测的核心环节，通过融合视觉图像、声学信号、振动数据、热成像测量等多元数据源，能够实现更精准、鲁棒的缺陷检测。表 1 梳理了工业质量检测中常用的传感模态、对应的数据类型与特征表征方式。借助不同模态的互补信息，大模型能够捕捉单模态方法往往会忽略的、更全面的过程特征。表2总结了当前用于实现这一融合过程的各类多模态融合方法。

表1.工业质量检测中的传感模态、数据类型与特征表征汇总

表2.面向质量控制的多模态融合技术

3.2 多任务推理在当前的质量控制系统中，基于 Transformer 与注意力机制的架构，通常作为大模型风格的主干网络，提供强大的共享表征学习能力。与通用多任务学习场景相比，工业质量控制中的多任务学习复杂度显著更高。质量预测、过程监控、故障诊断、健康管理等任务，通过制造过程固有的时序依赖与跨阶段因果关系紧密关联。同时，工业系统对可解释性提出了更高要求，以支撑决策制定与根因分析。

如表3所示，这些特性要求模型不仅能够学习丰富、统一的表征，还需通过专门的机制，以稳定、透明的方式调节任务间的交互。这类机制包括损失加权、梯度平衡、多阶段建模、混合专家（MoE）结构等，能够在训练与推理过程中，对任务间的相互影响进行有效管控。

表3.工业质量控制多任务学习的核心挑战与应对策略

3.3 零 / 小样本推理有监督质量控制方法高度依赖大量标注缺陷数据，而现实世界中缺陷具有稀缺性与多样性，采集这类数据的成本极高，且往往不具备可操作性（Zajec et al., 2024）。这一局限性凸显了零样本与小样本学习的重要性，这类方法使模型仅需极少甚至无需标注，即可泛化至未见过的缺陷类别。大模型具备强大的跨域泛化、多模态对齐与基于提示词的自适应能力，为标签高效、灵活的检测任务提供了可扩展的解决方案。表4与表5对这类大模型驱动的零 / 小样本学习策略进行了分类梳理。

表4.工业质量控制中小样本学习的分类策略

表5.工业质量控制中零样本学习的分类策略

3.4 生成式 AI 交互最新研究进展表明，大语言模型有望在工业环境中，承担可解释、智能化接口的核心角色。其处理非结构化数据的能力，使其能够高效从质量相关信息中提取洞见（Chkirbene et al., 2024），同时成为连接人类专业知识与自动化系统的桥梁。表6总结了大语言模型在该场景中的核心功能。

表6.大语言模型在工业质量控制中的核心作用

挑战与展望

在前面的章节中，本研究已经阐述了大模型赋能智能质量控制的底层逻辑与实现路径。本章将从更宏观、更全局的视角，探讨大模型在该领域应用面临的挑战与未来发展前景。

4.1 核心挑战尽管大模型在质量控制领域展现出巨大的应用潜力，但目前仍在多个维度面临着关键挑战（见图3）。

图3. 大模型赋能质量控制的核心挑战

4.2 未来展望要充分释放大模型在工业质量控制领域的潜力，未来的研究必须聚焦多个战略方向，着力提升数据就绪度、优化架构设计、增强模型自适应能力（见图4）。

图4. 大模型在质量控制领域的未来研究方向

结论

综上，大模型在质量控制领域展现出重要的变革潜力，有望推动制造系统向更高水平的智能化与自主化方向发展。其在多模态感知、结构化推理以及人机协同等方面的优势，能够显著提升以质量为核心的各类生产与管理过程。与此同时，制造领域中的现实挑战也为大模型发展提供了具体且面向应用的问题场景，这不仅对其能力边界提出了更高要求，也为其持续演进与优化提供了重要驱动力。充分释放大模型在质量控制中的应用潜能，仍有赖于数据采集、模型设计、部署实施及全生命周期管理等方面的协同推进。未来研究应进一步聚焦于提升模型的透明性、适应性与工业融合能力，以确保其在复杂制造场景中实现持续而稳定的应用价值。（来源：EngineeringJournals微信公众号）

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

编辑部推荐博文
精氨酸界面调控策略提升SiOx负极循环稳定性 Remote Sensing & Geographies期刊6月6日北京师范大学学术出版交流会 SUSOC期刊编委会议在第九届可持续运营与管理学术年会期间顺利召开老正和的遐想 Accounts of Materials Research \| 编辑精选文章悉尼皇家植物园主导的瓦勒迈松迁地保护评估更多>>