作者:唐一尘 来源:中国科学报 发布时间:2019/2/15 9:46:00
选择字号:
你的朋友“出卖”了你
科学家用联系人信息预测用户“推文”

朋友推文也可以揭示出你的惊人信息量。图片来源:ISTOCK.COM

 

即便你完全删除自己的社交账户,也不能保证隐私。如果你可以链接到其他用户,他们的活动也可以“曝光”你的信息。现在,计算机科学家已经证明,利用你的10个最亲密联系人的推特信息流,比用自己的信息流更能预测你未来的推文。

没有参与这项研究的奥地利维也纳医科大学计算社会科学家David Garcia表示,从这种“二手”监控中判断一个人的性格“比看上去要容易得多”。

这里,美国佛蒙特大学研究人员没有预测任何人的真实推文,而是利用一种名为信息熵的测量方法,估计了一个人未来将发布的推文的可预测性。更多的熵意味着更多的随机性和更少的重复。

他们研究了927名用户的推特信息流,每个人都有50到500名关注者。在每个人的信息流中,他们计算出单词序列包含了多少熵。然后,他们把这个数字输入信息理论工具——范诺不等式,计算一个人的信息流能否准确预测其下一条推文的第一个单词。平均而言,准确率的上限是53%。但是预测每一个连续的单词就不那么准确了。

接下来,研究人员计算了基于用户信息流,外加15个与其最接近的联系人的信息流的预测上限:准确率上升到60%。当他们从等式中删除用户信息流时,这个数字下降到57%。

研究人员近日在《自然—人类行为》上发表报告称,这意味着利用用户联系人的信息流预测效果几乎和包括用户在内的信息流一样准确,甚至比单独观察用户信息流更好。仅仅利用10个联系人的信息流就超过了利用用户个人信息流的预测准确度。相比之下,根据陌生人的推文随机分类预测某人会写什么,准确率最高可达51%。

“我们用信息论中一些非常有趣的数学知识展示了,如果有完美的机器学习方法,你能做得怎么样。”研究报告第一作者、佛蒙特大学数据科学家James Bagrow说。

英国巴斯大学心理学家Joanne Hinds对此表示赞同。她说,这是一种独特的方法,超越了该领域现有的许多工作。

Bagrow说,研究结果表明,原则上,人们可以粗略地预测那些甚至不在推特上的人会发什么样的推文。在现实中,这意味着找出一个人社交网络的朋友,然后找到这些朋友的动态。

目前,许多应用程序都能访问联系人列表,有些甚至共享联系人列表。以脸书为例,它利用用户的联系人列表创建甚至不在互联网的人的“影子档案”。

研究人员已经使用推文预测性格、抑郁和政治倾向。基于朋友推文可能也会得出同样的推论。

不过,Bagrow表示,这项工作的一个实际局限性是把所有词汇都视为信息量均等,但有些人可能会比其他人更了解你。如果你的朋友发了很多关于同性恋权利的推特,或者只关注共和党政客,这可能会特别暴露出你的性取向或政治倾向。

Garcia也发现交友网站上的联系人可以预测一个人的性取向和关系状态,而推特上的联系人可以预测一个人的位置。Hinds说:“我们仅仅触及了通过这种方式可以揭示的信息类型的表面。”

Bagrow说:“就隐私而言,我担心的是,这些大平台获取数据的方式太多了,我认为人们没有意识到这一点的危险。”而且,人们可能没有考虑到的另一件事是:“当他们放弃自己的数据时,他们也在放弃朋友的数据。”(唐一尘

相关论文信息:DOI: 10.1038/s41562-018-0510-5

 

《中国科学报》 (2019-02-15 第3版 国际)
 
 打印  发E-mail给: 
    
 
以下评论只代表网友个人观点,不代表科学网观点。 
相关新闻 相关论文

图片新闻
2019年世界气象日开放活动启动 南京古生物博物馆:许你一个花花世界
复杂社会与道德神灵 日本专家小组认为基因编辑食品安全
>>更多
 
一周新闻排行 一周新闻评论排行
 
编辑部推荐博文