|
|
|
|
|
LLM和ML算法在灾害相关社交媒体内容中的利用 | MDPI GeoHazards |
|
|
论文标题:Utilizing LLMs and ML Algorithms in Disaster-Related Social Media Content
论文链接:https://www.mdpi.com/2624-795X/6/3/33
期刊名:GeoHazards
期刊主页:https://www.mdpi.com/journal/geohazards
研究背景
随着气候变化导致自然灾害频发加剧,社交媒体已成为灾害管理中不可或缺的信息来源。数以百万计的用户在灾害事件中分享实时更新、图片和视频,为灾害管理提供了宝贵的数据资源。然而,社交媒体数据的海量性和非结构化特性给应急响应人员带来了巨大挑战,如何在时间敏感的情况下从中提取可操作的见解成为关键问题。传统的数据处理方法难以有效处理灾害期间产生的庞大数据流,这凸显了对创新分析工具的迫切需求。本文旨在解决如何利用大语言模型和机器学习算法来自动化处理灾害相关社交媒体内容的结构化和标注问题。

图1.分析所得推文中所识别的主要灾害类型分布情况。
研究内容
本研究探索了使用大语言模型和聚类技术来自动化构建和标注灾害相关社交媒体内容的方法。研究团队收集了包含数百万条与各种灾害相关推文的数据集,时间跨度从2012年1月到2022年12月。通过利用LLMs预处理和理解推文的语义内容,应用多种语义属性对数据进行标注,随后采用聚类技术识别可能被预定义类别忽略的新兴主题和模式。研究采用了GPT-4o-mini模型对推文进行自动标注,设计了专门的提示词来指导模型完成分类任务,包括主要灾害类型、严重程度、信息性、影响类型、地理位置和情感等六个维度的分类。 研究团队首先对9434条推文进行了人工标注,建立了基准数据集用于评估LLM自动标注的性能。评估结果显示,在不同分类维度上,LLM表现出 varying 的性能水平。情感和地理位置提及的分类准确率最高,分别达到0.8561和0.8360,表明LLM在识别主观语气和地理参考方面表现出色。信息性分类也表现出较强的性能,准确率为0.8085。而在主要灾害类型、严重程度和影响类别上的分类准确率相对较低,分别为0.7204、0.7087和0.7172,这反映了这些类别分类任务的复杂性和语言细微差别带来的挑战。

图4.以词云形式呈现与灾难相关的推文中最常出现的词汇。
对288,926条推文样本的分析揭示了灾害相关网络讨论的特征。疫情相关推文占主导地位(45.74%),反映了数据收集期间全球健康危机的广泛影响。工业事故(8.82%)和冲突(4.65%)也构成了数据集的重要部分。无监督文本分析通过词云和K-Means聚类技术揭示了数据中的潜在语义结构,识别出四个不同的聚类,分别侧重于公共卫生新闻、直接影响和损害、操作和环境响应以及更广泛的灾害救援工作。这些发现为理解灾害相关在线交流的多个方面提供了基础结构。
研究总结
本研究证实了大语言模型在分析灾害事件期间产生的大量社交媒体数据方面具有显著潜力。能够有效提取有关灾害类型、感知严重程度、影响性质和情感表达的结构化信息,为增强态势感知、指导资源分配和完善沟通策略提供了强大工具。尽管在某些复杂分类任务上存在挑战,但LLM在灾害管理中的应用前景广阔,特别是在处理大规模数据和提高分析效率方面具有明显优势。未来的研究方向包括在专门的灾害相关社交媒体内容数据集上微调现有LLM,探索更先进的提示策略,研究多模态数据处理方法,以及开发更精细的分层标注方案。这些发展将进一步提升AI在灾害管理中的实用价值,为应对日益复杂的灾害挑战提供更有力的技术支持。
GeoHazards 期刊介绍
主编:Prof. Dr. Zhong Lu, Roy M. Huffington Department of Earth Sciences, Southern Methodist University, Dallas, TX 75275, USA
Prof. Dr. Tiago Miguel Ferreira, Instituto Superior Técnico (IST), University of Lisbon, Av. Rovisco Pais, 1049-001 Lisbon, Portugal
期刊发表范围涵地球物理/地质灾害、气候及气候变化相关灾害、气象灾害、水文灾害、块体运动灾害以及人为和技术灾害等研究领域。自2020年创刊以来,被ESCI、Scopus、GeoRef等多个权威数据库收录。
|
2024 Impact Factor
|
1.6
|
|
2024 CiteScore
|
2.2
|
|
Time to First Decision
|
20.1 Days
|
|
Acceptance to Publication
|
4 Days
|
特别声明:本文转载仅仅是出于传播信息的需要,并不意味着代表本网站观点或证实其内容的真实性;如其他媒体、网站或个人从本网站转载使用,须保留本网站注明的“来源”,并自负版权等法律责任;作者如果不希望被转载或者联系转载稿费等事宜,请与我们接洽。