|
|
|
|
|
麻省理工学院——公共空间活力测量新方案:开源视觉传感器套件融合姿态估计 | MDPI Smart Cities |
|
|
论文标题:Striking a Pose: DIY Computer Vision Sensor Kit to Measure Public Life Using Pose Estimation Enhanced Action Recognition Model
论文链接:https://doi.org/10.3390/smartcities8060183
期刊名称:Smart Cities
期刊主页:https://www.mdpi.com/journal/smartcities
近日,来自美国麻省理工学院的Sarah Williams教授及其团队在Smart Cities期刊上发表了一篇文章。该团队成功开发并验证了一个开源的DIY系统——公共生活传感器套件(PLSK)。该系统集成了GoPro相机与NVIDIA Jetson边缘计算设备,并创造性地将基于YOLOv8的姿态估计模型与传统计算机视觉模型相结合,解决了传统观察方法和现有商业传感器在精准量化复杂公共生活行为时的局限性。研究团队在澳大利亚悉尼新南威尔士大学的真实公共空间中进行了实地部署与验证实验,该项研究对于推动数据驱动、以人为本的公共空间设计与评估具有重要意义。

PLSK的硬件组件
研究过程与结果
作者在本文中介绍了一个开源的DIY边缘计算框架——公共生活传感器套件(PLSK),利用计算机视觉(CV)技术实现公共空间的持续实时数据收集,实现行为自动化分析。系统由GoPro摄像头和NVIDIA Jetson Orin Nano边缘计算设备组成,分别负责视频输入和数据处理。该系统摒弃了依赖原始图像像素的传统方法,提出了一种创新的姿态估计增强动作识别算法。该算法首先使用Ultralytics YOLOv8-pose模型对视频流进行实时人体姿态估计,提取并绘制关键点骨骼图。随后,将此姿态增强图像输入到第二阶段的定制化YOLOv8动作识别模型中进行分类。研究训练了两个定制模型。一是“坐姿动作识别模型”,用于区分“坐”与“站”;二是“长椅检测模型”,用于追踪移动长椅的位置。为训练这两个定制模型,研究团队在研究地点进行了系统性的数据采集,每小时录制1分钟视频,持续一周,以覆盖晴、雨、阴等多种光照条件。所有视频帧均通过Roboflow平台进行专业标注,并采用了包括水平翻转、饱和度调整(±25%)和曝光调整(±5%)在内的数据增强技术,以提升模型的鲁棒性和泛化能力。所有计算均在Jetson设备本地完成,系统不存储任何原始视频,仅输出包含时间戳、行为类别、置信度及匿名化对象ID的GeoJSON格式数据,从根本上保障了公众隐私。

传感器套件(PLSK)的系统架构
为全面评估PLSK的性能与实用价值,研究在澳大利亚新南威尔士大学(UNSW)的一处校园绿地规划了为期三周的对照实验。实验设计包含一个清晰的干预对比:第一周为基线期,记录未作任何改变时的空间使用模式;随后两周,引入12张可移动长椅作为干预措施。
评估体系设立了多重基准:首先,由4名学生观察员采用Gehl研究所的公共生命多样性工具包在研究期间随机时间进行五分钟调查,记录行人数量、坐姿或站姿势以及可移动长椅的使用情况,作为地面真实数据;其次,并行部署一台广泛应用于智慧城市交通管理的Vivacity商业传感器,作为代表当前行业标准解决方案的对比基准。

可移动长椅
在数据分析阶段,研究定义了多层次的行为指标:“到访”(进入监测区域),“停留”(在区域内持续活动超过5分钟),以及“坐下”(由模型直接识别)和“社交”。对于复杂的“社交”行为,研究采用了ST-DBSCAN聚类算法进行量化,将空间距离维持在1米以内、同时共处时间超过2分钟的个体聚合识别为一个社交群体。
此外,为实现行为数据的空间化分析,PLSK系统集成了单应性变换技术。通过在研究现场布设物理校准点,建立图像像素坐标与真实世界GPS坐标之间的精确映射关系,从而将每一个检测到的行为点定位在地理空间中,为分析行为与空间结构的关联提供了可能。

样本测试点从图像空间检测到地理坐标的同源转变
实证数据从模型性能、系统对比和干预效应三个维度,有力地证实了PLSK系统的技术优越性及其在揭示公共空间动态方面的独特价值。在模型性能方面,姿态估计增强模型展现出了卓越的检测精度。经测试,坐姿动作识别模型的平均精度高达97.8%(其中“坐”类AP为97.6%,“站”类AP为97.9%),长椅检测模型的平均精度亦达到98.9%。

姿势增强模型的Precision-Recall曲线
为验证姿态信息的贡献,研究进行了严谨的消融实验:使用相同的数据集,分别训练基于原始图像的基线模型和基于姿态骨架图的增强模型,并在一个独立的、环境不同的测试集上进行评估。独立样本t检验结果表明,姿态增强模型在所有核心指标上均实现了统计意义上的极显著提升(p < 0.001),其中精度提升29.9%,召回率提升78.2%,mAP@50提升74.5%。这确凿地证明,融入人体姿态特征能极大提升模型对细微行为的分辨能力和跨场景的泛化性能。
在与Vivacity商业传感器的直接系统对比中,PLSK表现出更高的测量准确性和更丰富的分析维度。在为期三周的日间(7:00-18:00)监测中,PLSK记录的总行人数为864人次,平均每小时6人;而Vivacity传感器则记录了1953人次,平均每小时14人,差异显著。通过分析原始数据并核实现场,研究发现Vivacity传感器反复将场景中一棵静止的树木错误识别为行人,导致了系统性高估。例如,在7月12日正午的一小时内,该传感器的70次检测中有57次为此类误报。这一发现凸显了传统模型在特定复杂场景中应用的局限性,以及现场校准的必要性。相比之下,PLSK不仅提供了更准确的行人计数,更重要的是能输出多维行为标签和地理位置信息,实现了从单纯“计数”到深度“行为解读”的跨越。

PLSK与Vivacity记录新南威尔士大学白天07:00–18:00每小时行人的结果对比
基于PLSK采集的高分辨率时空数据,研究精确量化了“引入移动长椅”这一微观设计干预对公共生活产生的巨大影响。数据显示,干预实施后,空间的使用模式发生了根本性转变:日均“停留”人数从5人增加至23人,增长360%;日均“坐下”人数从1人激增至15人,增幅高达1400%;最为关键的是,干预前几乎不存在的“社交”活动,在干预后日均达到了9个群体。这些量化的行为变化强有力地证明,提供灵活、舒适的座椅设施,不仅能显著增加空间的吸引力与使用强度,更能有效催化社会互动的发生,将原本以通过性为主的消极空间,转化为充满活力与交往机会的积极场所。
研究总结
本文基于姿态估计增强的计算机视觉技术,开发了开源的公共生活传感器套件(PLSK),实现了对公共空间中坐、站、停留及社交等细粒度行为的自动化、隐私保护式监测。通过结合YOLOv8姿态估计模型与动作识别,并在真实场景中部署验证,系统在坐姿识别上达到97.8%的平均精度,显著优于传统模型。研究同时揭示了可移动座椅干预对促进公共空间社交与停留行为的显著影响。本文的系统为城市设计、社区活力评估提供了数据支持,推动了以人为本、证据驱动的智慧城市发展。
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。