|
|
谁来拯救不靠谱的民意测验 |
科学家称用互联网数据预测选举结果尚需时日 |
如果你要预测人们所做的一个决定,除了直接问他们之外别无他法。
民意测验和选举前夜的分析均未能冲掉特朗普隐藏的投票者。图片来源:AFP
2016年11月8日,在美国纽约上西城的一间公寓里,Hernan Makse和几名朋友一边观看总统竞选徐徐展开,一边烹饪鲈鱼,呷着夏布利酒。他们在微软全美有线广播电台和福克斯新闻之间调换着频道,同时眼睛还盯着笔记本电脑上的《纽约时报》网站。该网站正在实时更新“总统选举预测”。当时时间尚早,来自几个关键州的结果尚未揭晓。在一个标注着“总统获胜机会”的反映民意测验数据的滚动表格中,希拉里·克林顿的支持率上蹿到80%以上,而唐纳德·特朗普则跌至20%以下。
Makse作为纽约市立大学的一名统计物理学者,曾对此次竞选结果下了一个科学赌注。在此前一天,他的实验室团队在在线预印本文库arXiv上发表了一篇研究论文,他们曾热切地对它进行了修改,并使其发表时间定在选举日的下午4点。就像《纽约时报》网站上的表格一样,他们预测了谁会成为总统。只不过该网站用的是各州的民意测验数据,而Makse的预测则全部基于选举前一个月推特网上的数据。
如果Makse的团队能够可靠地预测选举结果,那么他们就有资本吹牛了。民意测验是通过电话或挨家挨户访问的方式开展,劳动强度极大且成本昂贵:它助推着180亿美元的产业。而且该方法也有自身问题。不只是答复率降低到个位数,让民意调查人仅能依赖稀少且存有偏见的样本,而且去年对1000多位民意测验者的分析发现其中存在广泛的数据造假。与此相对,Makse的团队连续数月分秒不停地直接追踪数百万人的政治见解,而且他们是通过免费方式获取的这些信息。
推特网并非科学家收集从选举到上街游行等数据并汇集为预测模型的唯一在线数据流。最大的技术公司如脸谱网和谷歌都会生成让研究人员免费使用的数据,尽管这些数据的使用在某些程度上存在不便。因此,Makse和很多其他社会学家寻思:在线数据能否作为一种增强民意调查的预测性工具,甚至是取代它?
选举之夜的结果揭晓了答案:目前为时尚早。随着那一晚时间的推移,Makse基于推特网的预测继续与价格高昂的民意测验数据保持一致,预测克林顿将会以55.5%的得票率获胜。但两份预测都错了。在他们晚餐结束之前,看着《纽约时报》网站数据驱动博客“最终结果”的结论,Makse终于回到了现实。“看到他们在晚上8点钟把对特朗普的支持率从20%变成95%,这非常滑稽。”他说。
民意测验仍占主导
预测人们会做什么以及为什么这么做是社会科学的核心。考虑到即便是预言一个人的行为也存在困难,扩大到预测一个社群或社会的行为似乎毫无希望。“但在某种程度上这是个更容易的问题。”英国牛津大学互联网研究所计算社会学家Taha Yasseri说。他提供了一个物理学领域的类比:尽管单个粒子的运动看似随机,“由数百万个粒子构成的气体的行为是可以预测的。”
社会可作为物理问题来看待的观点有其深刻根源。在20世纪50年代,美国科幻小说作家艾萨克·阿西莫夫提出被称为心理历史学的科学分支。他设想,通过强大的计算机和有保障的数据集,研究人员不仅能够预测选举,还能预测帝国的兴衰。
经过时间的发展,阿西莫夫设想的计算机和数据集都成为现实。但现在,尽管民意测验成本高昂且效率低下,但该方法依然是预测诸如选举等群体行为的选择性工具。对全世界选举竞赛进行分析的一项研究表明,尽管去年11月发生的出人意料的结果,民意测验依然可靠。
得克萨斯州休斯敦大学社会学家Ryan Kennedy及其同事聚焦了历次总统选举的数据集。他们通过将研究限制在投票者直接选择国家领导人的选举上,而非通过像英国那样基于政党的议会系统,规避了对比不同政府系统的复杂性。这一过滤器留下了大量的数据:最终的数据集来自二战以来86个不同国家的500多次选举。
为了预测获胜者,Kennedy和波士顿西北大学社会学家David Lazer及其博士生Stefan Wojcik利用投票者的民意测验数据以及其他能够影响选举的数据(包括第三方评估的一个国家的经济发展程度、民主自由程度等),对各次选举系统地建模。
他们将模型数据更新到2007年,然后用最近8年的128次选举数据对其进行验证。整体而言,他们能够在80%~90%的时间内正确预测获胜者。在所有指标中,民意测验到目前为止被证明是最强有力的工具。“我们预测,关于定量预测选举即将(死亡)的报告被极大地夸大了。”作者讥讽说。其他人也同意到目前为止,民意测验仍占据主要地位。“如果你要预测人们所做的一个决定,除了直接问他们之外别无他法。”哥伦比亚统计专家Andrew Gelman说。
在线预测仍有缺陷
不过,Lazer确认为,人们对民意测验的依赖终将不会太久。“标准的民意测验方法正处于危机之中。”他说。一个原因是人们对民意测验正逐渐变得失去耐心,另一个因素是固网电信的衰落。如果你找不到人,就没办法对他们进行测验。那么,来自互联网的数据长龙能够弥补这一缺陷吗?它有“极大的可能性”,lazer说,“但在这些方法变得有效之前仍有很多事情要做。”
其中一个挑战是很难从人们的互联网习惯中(即他们的网络搜索和社交媒体发言中)解读他们的动机。如果数百万人在推特网上表达对某一竞选者的支持或是对一名对手的反对,它是否可以可靠地推断他们将会如何投票呢?“如果你不知道是什么在影响他们的动机”,Yasseri说,预测人们的行为会非常棘手。
测试动机的一个良好实验区是维基百科,许许多多的人都在将该网站作为一站式的基础信息浏览地址。为了了解维基百科的通信量可能揭示了什么样的选举结果,Yasseri及其位于牛津大学的同事Jonathan Bright一直在跟踪关注每5年欧盟议会选举政党竞争的访问维基百科网页的每日访问者数量。因为这些投票者讲不同语言,Yasseri和Bright分别收集了该网站14种不同语言的数据。
每个政党维基百科网页的访问者数量并不能可靠地预测谁最终在2009年和2014年的竞选中赢得席位。“这并没有那么容易。”Yasseri 说。他的理论是投票者是寻找最低限度信息从而作出决定的“信息缺乏者”。然而,实际上,他们发现最活跃的维基百科网页是那些新形成的政党的网页,在选举前的一周内访问量会达到顶峰。
为了验证人为预测行为,Yasseri现在参加了建设“社会数据库”的一个欧洲团队,该数据库就像一个遗传数据库,能够提供部分人群的人口统计资料、健康记录、在线浏览踪迹甚至是移动手机数据等深度信息。一开始,该项目将聚焦英国、芬兰、匈牙利、西班牙和斯洛文尼亚等国。“我们需要弄清楚如何让这些数据匿名化。”Yasseri说。其希望是跟踪相对比较少的人的在线行为能够让研究人员推断一些人访问一个网站、留言以及决定投票的动机是什么。一旦他们解决了匿名性的问题,他说,该团队希望开始在几年内预测选举等结果。
可靠预测尚需“查漏”
Makse正在设法改良他基于推特网的模型。在特朗普当选后的翌日,他在实验室中见到了自己的研究生和博士后。当时的氛围有点糟糕。“他们大多数是外国人。”他说,特朗普竞选中的反对移民措辞令人十分不快。
他们对自己的推特网研究进行了一次“尸检”,以寻找他们当初可能疏漏的蛛丝马迹。尽管推特网数据比收集民意测验结果容易得多,但它们更难解释,从而形成了民意测验专家从来不需要思考的一些挑战。
例如在竞选前关于“是克林顿还是特朗普”的为期4个月、数量达7300万的推特网留言中,有多少留言是由人写的?推特网平台允许模仿人的计算机编程参与在线讨论。然而,它们并未被标注出来,在很多观察者查看时,它们只是热情高涨的跟随者和投票者,回应了一些政治标语,扩大了一些观点。部署这些声音就像是在观众中植入一些人来嘲笑你的笑话。
推特网未知的用户群体中还有一定数量的拿支付酬劳的黑客。在Makse的分析中,其中一个最有影响力的支持特朗普的推特用户是@LindaSuhler。而根据注册账户资料,其身份是“博士生Linda Suhler”,然而互联网上并没有此人的任何记录,而《科学》杂志发给该用户的推特信息也从未得到回复。
如果这些问题可以被跟踪,来自社交媒体的信息可能会增加选举预测的准确性,Makse说。但我们需要多么精确的结果?Gelman警告称,心理历史学也有负面作用。他说,如果人们能够以完美的精确性预测选举结果,那么选举自身“就会变得没有意义”。(晋楠编译)
《中国科学报》 (2017-02-13 第3版 国际)