作者:刘忆宁 来源: 中国科学报 发布时间:2021-7-22
选择字号:
从滴滴被审查谈轨迹隐私

 

刘忆宁

滴滴再次成为舆论漩涡的中心,是因为这次被网信部门进行的审查。在过去的几年里,我们一直关注数据发布中的隐私保护研究,想就此话题略微展开一下。

有人会觉得,一个人的出行轨迹算不上什么,2018年百度李彦宏说,“中国人愿意用隐私交换便利性”,在现实中也确实如此。而且如果能够通过贡献自己的数据获利,我想很多人会愿意交出自己对数据的所有权。

这就带来一个问题,如果用户授权滴滴或百度获取并使用自己的数据,滴滴或百度能不能无限制地使用这些数据?肯定是不行的。因为数据与其他东西不同,一条两条不算什么,但是大量的数据一旦汇聚在一起,经过综合分析可能会产生爆炸式的结果。因此,即使用户同意,数据也不能完全交给平台任意处理。

为什么中国人普遍对隐私不太关注?我觉得这可能与中国传统社会基本上是熟人社会有关。单位里、社区里总有马大姐式的人物,没有她不知道的事、没有她不打听的事,自然也就没有什么隐私可言。也正因为传统的单位和村落是一个个物理隔离的社区,信息的传播范围很有限。

现在越来越多的人生活在陌生的圈子里,不要说自家赚了多少钱、两口子为啥吵架之类的私事不想让别人知道,就是在自家门口安装可视门铃都可能因涉嫌侵犯隐私而被告上法庭。

为什么以前大家不在意的事,现在格外在意了呢?因为在传统的熟人圈子里,周围的人都是一个单位或一个村子的,相互之间知根知底,彼此间可看作经过合法认证的愿意分享信息的成员。而在陌生的圈子里,即使不把对方当作对手,也不会当作可信任的信息分享者,自然是想把自身信息泄露的可能性降到最小(而非降到零,除非人不在社会上活动)。

到底什么是安全、什么是隐私?我觉得可以这样理解:

安全性针对的数据是只在授权用户之间分享的机密数据,授权用户可得到全部的信息,而非授权者得不到任何信息。安全性依赖好的密码算法来实现机密性、认证性、完整性,可以看作是用好的盔甲把数据严严实实地包裹起来。当然,在保证防护效果的前提下希望盔甲越轻越好,这也和密码算法的轻量级的要求是一致的。花木兰的盔甲遮盖效果就极好,十多年间战友们竟然都没有发现她是女的。

隐私性针对的是数据,是需要面向公众或非授权方的。如果只是开放时需要做的前期处理,比如统计局发布某个地区或某个行业的发展状况,薪资是个很重要的指标,但是又不能泄露从业者的具体薪水。比较有效的方法是发布平均值,发布的数据既保留了原始数据的部分属性,又消除了原始数据的部分属性。可以说,隐私化处理类似女明星的深V装,该露的露,该遮的遮。

你让走红毯的女明星穿上花木兰的盔甲,她们肯定是不愿意的,因为这样就没法向公众展示自己的身材,因此,她们更愿意用隐私化处理的方法;你让花木兰穿上深V裙上阵杀敌,则是拿士兵的生命当儿戏,必须用盔甲把身体严密地保护起来。

轨迹数据与人们的生活息息相关,一条两条的轨迹数据仅涉及出行者的隐私,海量的轨迹数据则会涉及国家安全。能不能把这些数据全部封存起来不向外开放?这不就没有数据泄露的风险了吗?这是不行的。因为数据是重要的资源,只有发布共享才能创造更大的价值。因此,应该用深V裙来遮盖,而非用盔甲来包裹。

事实上,对轨迹隐私的保护,学术界很早就在关注,主要分为四种情形:K—匿名方案——将识别用户的属性泛化,使真实轨迹不能与其它轨迹相区分;假轨迹方案——为真实轨迹产生一定的假轨迹来降低真轨迹暴露的概率;轨迹抑制方案——不发送那些能暴露用户隐私的信息,以此来达到保护用户真实轨迹的目的;差分隐私方案——添加噪声扰动敏感数据,在使某些数据失真的同时,保持其统计性质。

上述的K—匿名、轨迹抑制、差分等方法,都是在数据已经被收集到平台后,由平台对其作相应的处理,然后向外发布。虽然发布出去的数据不泄露用户的隐私,但是平台是掌握所收集到的原始数据的,大多数的互联网服务平台包括滴滴都是这样的。这些数据中心一旦出问题,将会造成无法预料的后果。因此,假设数据中心不可信的前提下,对数据作隐私化处理是很有价值的研究。

去年有学生开题答辩,研究内容大概是在数据中心不可信的前提下,把数据隐私化处理的端口前移,在数据收集后即对其作处理,然后再上传平台。当时遭到了一个评委的批评,“你说平台不可信,那政府为什么会让滴滴、阿里运行,你这研究的出发点都是错的嘛”。现在看来,学生研究的出发点,并没有错。

我们关注较多的是假轨迹方案,比如骑行共享单车结束后,一段轨迹数据就生成了,在上传到平台之前,生成若干条与真实轨迹相似的假轨迹,一起上传到平台。真假轨迹具有统计特征上的一致性,又具有不可区分性。就像美国总统出行有两辆完全一样的车,一辆里面有总统,另一辆是冒充的,从而起到保护作用。据说秦始皇出行也同样会有两辆完全一样的马车,如果有刺客,很难同时对两辆车下手。

最初的假轨迹生成方法是较为简单粗暴的,在真实轨迹上取一系列的采样点,在每个采样点做一些旋转伸缩等随机化动作,生成一个假的位置点,然后把它们连接起来就生成了一条假轨迹。

由于这样的假轨迹是基于随机化偏移生成的,在一条较长的轨迹上,总能发现若干个不太符合常理、不太符合人类行为特征的段落。如果一条轨迹上不合理的段落太多,就有理由怀疑这条轨迹是人为生成的假轨迹。假轨迹被发现,真实轨迹暴露的概率自然就增加了。我们在2017~2018年时,曾经对几个假轨迹生成算法进行了检测,发现有超过80%的假轨迹是可以被检测出来的,误判率仅在10%左右。

2019年到现在,我们一直在尝试使用对抗网络生成更逼真并能抵抗机器学习攻击的假轨迹生成算法。

并且,我也曾给滴滴发过邮件,希望能合作。

相信此次对滴滴的审查,只是数据治理的一个开端,以后的路还很长,需要技术措施、法规保障等多管齐下,以保障数据安全与数据隐私。

http://blog.sciencenet.cn/u/lyn7311

《中国科学报》 (2021-07-22 第8版 博客)
 
 打印  发E-mail给: 
    
 
相关新闻 相关论文

图片新闻
新基础物理学再添“证据” 美将用伽马射线望远镜绘制银河系演化图
中国科学院发布嫦娥五号月球样品最新研究 围绕白矮星的新气态巨行星
>>更多
 
一周新闻排行
 
编辑部推荐博文