■本报记者 赵宇彤 通讯员 徐玮彤
编者按
党的二十届四中全会提出,加快高水平科技自立自强,引领发展新质生产力。中国科协科普部特邀院士专家,畅谈科技强国。本期“科普话强国”栏目,带领读者走近天云数据雷涛团队,探寻多模态大模型如何服务于城市精细化管理和高效能运营。
“砰……”繁忙的工厂车间里,一个工人突然倒地抽搐。不过一两秒钟,警报声响起,相关工作人员迅速赶赴现场。
这并非真实场景,而是一场针对工业高风险作业的安全预演。真正的“主角”—— 一个不起眼的摄像头,则藏在车间上方的隐秘角落。
“城市中大量摄像头拍摄的视频,长期被视作海量、无用的数据,我们利用多模态大模型将非结构化的视频流转化成可操作、可预测的结构化知识,让每个摄像头不仅‘看得见’‘看得懂’,还能预测将会发生什么。”天云数据CEO雷涛告诉记者,在“智慧之眼”背后,是更强大的“智慧大脑”,守护城市安全。
2010年,雷涛加入北京市政府支持的云计算孵化平台——云基地,开启创业之旅,但他很快发现一个问题:随着数据量越来越大,传统数据库无法满足复杂场景需求。探索新的数据处理和分析手段成了当务之急。他将目光投向分布式计算和机器学习,并在中国联通等通信运营商中进行了尝试。
“随着人工智能技术的应用,数据真正‘活’了起来。”雷涛表示,而近年来多模态大模型的发展,赋予了数据跨维度的“感知-理解-创造”能力,通过视觉-语言联合训练,将摄像头捕获的视频流内容量化为高维语义向量。
“这个过程不是简单的图像识别,而是深层理解。”雷涛进一步解释称,模型将视觉场景映射为包含行为意图、情境语义的向量表征,并匹配不同的语义空间,实现从“记录画面”到“理解语义”、从“数据堆积”到“向量化知识资产”的跨越。
目前,天云数据构建的全流程人工智能安全管控系统,通过集成计算机视觉、语音识别、视频技术等多模态能力,让人工智能具备“感知-思考-行动”能力,成为高效应对各种复杂场景的“安全专家”。
“这一系统已率先在工厂中实现应用,能覆盖十大类场景中的89种告警规则,准确定位违规作业。”雷涛告诉记者,传统工厂的安全生产手册不仅内容繁杂,而且以文字信息为主,高度依赖工人的经验判断,无法精准、实时对工厂作业情况进行监督管理。而利用大模型自主分析安全生产手册中的内容,构建生产安全知识库,再结合多模态模型提供各类安全监察场景的实时推理分析,就能针对不同作业场景,实现基于工作流的自动规则匹配。只要出现违规行为,摄像头就能自动识别、判断,并作出警告。
“除了现场实时监控,人工智能安全管控系统还具备事前预防、事后追溯的能力,通过多维度防护,实现隐患排查和离线分析的双重保障。”雷涛表示,目前该系统针对工业安全高风险作业的覆盖率已达89.6%,为工厂安全搭建了坚实屏障。
此外,他们正积极探索这套系统在医院、学校等场景的落地。“例如,在医院中,多模态大模型能够监控、识别并分析包括手术安全核查、个人防护装备穿戴等在内的医护作业规范,及时发现并通报人为失误和感染风险,保障患者安全。”雷涛介绍。
这一“智慧之眼”的广泛应用,正在为城市安全筑牢防线。“传统的城市管理是分割的,交通、安全、环卫、商业各管一块,缺乏横向协同,根本原因是信息孤岛导致的认知孤岛。”雷涛说,而知识化的系统整合能打通各部门边界,揭示跨域因果链。
例如,地铁故障这一交通问题会带来打车需求,刺激更多商业活动,进而加剧交通拥堵现象,导致应急车辆受阻和环境污染,影响公共安全和环境质量。“这种多米诺效应在传统体系中难以识别,而利用多模态大模型实现的知识化系统整合则使其显性化。”雷涛解释称。
这种系统整合也为网络强国建设奠定坚实基础。“网络强国建设不仅要覆盖互联网基础设施,还要涵盖电力网络、水利网络,甚至城市摄像头网络等传统基础设施,应对其进行数字化升级。”雷涛认为,这不仅是某一领域的责任,还是涉及多领域、多维度的系统性工程。
“我们必须转变思维,让多模态大模型真正服务于网络强国建设。”展望未来,雷涛认为,“目前已实现知识在不同网络间的流动,朝‘智慧大脑’甚至‘超级大脑’迈出了第一步。”
《中国科学报》 (2025-11-06 第3版 综合)