在Twitter上看一场花粉过敏大爆发：当深度学习服务公共健康

来源：BMC Medical Informatics and Decision Making 发布时间：2020/1/20 20:53:01

选择字号：小中大

在Twitter上看一场花粉过敏大爆发：当深度学习服务公共健康 | BMC Series Journal

论文标题：Deep learning for pollen allergy surveillance from twitter in Australia

期刊：BMC Medical Informatics and Decision Making

作者：Jia Rong, Sandra Michalska et al.

发表时间：2019/11/08

DOI：10.1186/s12911-019-0921-x

微信链接：点击此处阅读微信文章

社交媒体平台通常被用于人际交往，但它们同时也是接收包括群体健康信息在内的各类信息的重要来源。如果使用适当的技术来处理高通量、高速度、且相对准确的在线用户生成内容，可以大大提高医疗卫生专业人员及公共卫生决策者的信息利用效率。BMC Medical Informatics and Decision Making 近期发表的一篇研究文章探索了推特数据在监控花粉症（即枯草热）上的应用潜能及当前最先进的深度学习模型在相关内容筛选方面的有效性。

为什么要用社交媒体监控公共健康呢？

大量研究都表明Twitter用户们会在线上公开分享与健康相关的信息（比如自己的症状和治疗方式等）。但截至目前，通过社交媒体进行疾病监控的文献研究主要集中于流感等传染性疾病，对于过敏性疾病的关注仍相对欠缺。与此同时，在2014到2015年间，每五个澳大利亚人中就有一个受到花粉症的困扰，这一疾病已经成为最常见的慢性呼吸系统疾病之一。由于环境变化和污染增加，不仅在澳大利亚，全世界的花粉过敏发生率都在不断上升——这是一个危险的信号。

目前对花粉症发生率的估计通常依靠官方数据或市场调查。全科医生处方、住院记录、花粉传播率、抗组胺药物销量也成为了新兴的数据来源。但这些现有方法既耗时费用又高，并且只能反映关于疾病某个方面的信息（通常只能回答一些预设的问题）。考虑到现有方法的局限性，社交媒体就成为了颇有吸引力的替代选择，它可以无干扰地自动获取实时数据。

海量内容带来新的挑战

尽管社交媒体平台上有大量的信息可供获取，但由于这些内容都是用户提交的，并未经过统一处理，因而充斥着大量的广告、新闻、花粉预警等（尽管它们确实与花粉症相关），有效提取相关信息（即来自真实用户的花粉症病例）面临着巨大挑战。除此之外，用户发布的推文常常带有语法错误、意义模糊的词组、创造性的表达方式等等，这些也会进一步加大提取的难度，例如如何让系统自动识别出推文“我没有哭，是我的花粉症犯了”描述的是花粉症最常见的症状（泪眼模糊）？再比如，如果无法事先获得详细列表列出所有可能与花粉症相关的药物，应如何训练系统识别Telfast是一种应用广泛的花粉症药物的商品名？

深度学习或能解决内容筛选的挑战

近期机器学习领域，特别是深度学习领域的进展为有效解决用户发布内容筛选带来了新的希望。我们只需要给系统提供相对较少的训练样本（自然语言），其中包括两个不同组别，通过学习让系统识别出两个组别最明显的区分特点。这种方法已成功用于医疗卫生及其他多个领域。

除此之外，将顶尖的自然语言处理（Natural Language Processing，NLP）词汇嵌入到模型训练中，能进一步提升此方法的准确度和稳稳定性。也就是说，将词汇转化为向量的表示法（即词汇嵌入）可以将词汇间的句法和语义关联起来（即相似的词汇会在相似的语境下出现）。这是因为属于同一概念的相关词汇转化为向量后会投射在向量空间中的临近处（例如“蜜蜂”和“蜂蜜”会出现在“花粉”这个词的近处，而“孢子”和“化石”则会离得更远）。由此一来不需要详细的规则定义，系统就可以将“眼泪”和“泪眼模糊”相关联，将“抽鼻子”和“流鼻涕”相关联。

在澳大利亚利用Twitter进行花粉症监测的案例分析

这项在澳大利亚进行的研究旨在调查Twitter数据用于花粉病监测的潜力，并使用最先进的深度学习模型（这类模型在健康信息学领域的应用还在初级阶段）验证相关内容管理的有效性。研究初级数据的前后跨度为六个月，其中包含了花粉季节。与预期一样，Twitter上用户自主报告的花粉症病例数量在十到十一月间达到高峰。结果显示，将最贴合的深度学习模型（GRU模型）和预先训练的词汇嵌入（GLoVe）结合起来，相关推文（如报告症状和治疗方式的推文）检测的准确度可达88%。这项研究最主要的贡献在于它能够在没有预先详细定义的情况下自动监测隐晦的症状描述和新兴治疗方法。这项研究表明利用社交媒体平台进行实时健康监控颇具前景，社交媒体数据挖掘可以有效的补充手段弥补目前花粉过敏发病率和严重程度监测中的不足。

摘要：

Background

The paper introduces a deep learning-based approach for real-time detection and insights generation about one of the most prevalent chronic conditions in Australia - Pollen allergy. The popular social media platform is used for data collection as cost-effective and unobtrusive alternative for public health monitoring to complement the traditional survey-based approaches.

Methods

The data was extracted from Twitter based on pre-defined keywords (i.e. ’hayfever’ OR ’hay fever’) throughout the period of 6 months, covering the high pollen season in Australia. The following deep learning architectures were adopted in the experiments: CNN, RNN, LSTM and GRU. Both default (GloVe) and domain-specific (HF) word embeddings were used in training the classifiers. Standard evaluation metrics (i.e. Accuracy, Precision and Recall) were calculated for the results validation. Finally, visual correlation with weather variables was performed.

Results

The neural networks-based approach was able to correctly identify the implicit mentions of the symptoms and treatments, even unseen previously (accuracy up to 87.9% for GRU with GloVe embeddings of 300 dimensions).

Conclusions

The system addresses the shortcomings of the conventional machine learning techniques with manual feature-engineering that prove limiting when exposed to a wide range of non-standard expressions relating to medical concepts. The case-study presented demonstrates an application of ’black-box’ approach to the real-world problem, along with its internal workings demonstration towards more transparent, interpretable and reproducible decision-making in health informatics domain.

来源：科学网

特别声明：本文转载仅仅是出于传播信息的需要，并不意味着代表本网站观点或证实其内容的真实性；如其他媒体、网站或个人从本网站转载使用，须保留本网站注明的“来源”，并自负版权等法律责任；作者如果不希望被转载或者联系转载稿费等事宜，请与我们接洽。

编辑部推荐博文
封面文章丨禁渔四年，长江中游的鱼回来了吗？科学网2026年4月十佳博文榜单公布！北碚往事唐槐的春天绝壁寻踪：无人机找回夏威夷消失的濒危植物直播预告 \| 复杂环境下的集群协同与工程挑战更多>>