苹果大数据中的 Differential Privacy 是什么?

2016/06/19

如果党支部要统计中国人民大学学生的平均手机使用时间,又不想暴露每一位同学的具体情况,应该怎么做呢?“废话,当然是让做数据统计的同学保密了!”

但事情往往不会这么简单。每一位同学的数据要以寝室为单位上报班长支书,再以各班为单位层层上报,最后才将数据汇集到党支部那里。也许党支部会替你保密,但层层传递信息的人恐怕就不那么靠谱——无论是在聊天扯淡时主动泄露信息,还是梦里呓语,你的信息一旦暴露就会有泄密的风险。

那怎么才能从根源上保密数据,同时还让党支部统计到想要的数据呢?

一个简单的方法就是,让每一位同学上报自己的日均手机使用情况时给真实的小时数添加一个期望为 0、方差较大的正态分布噪音。

于是有的人报出了每天使用手机 10 小时、14 小时的数据,更有同学会报出 -2 小时或者 27 小时这些现实中根本达不到的时间。这些都不重要。

党支部拿到所有人的数据后,直接取平均就能得非常接近真实数据的平均值——在几万的样本中,噪音的效果将会被消除。如果样本足够多,党支部还可以细分数据,研究手机使用量和年级的关系、和学院的关系、和性别的关系,等等。

你看,这样的做法简单直接,既保证了每个同学的个人隐私,又能让做数据分析的人看到整体水平、洞察趋势等信息。

而这个人为添加噪音、从根源上避免信息传递时泄密的做法,正是苹果为 “大数据处理” 和 “机器学习” 所交的答卷。

Criag Federighi 介绍 Differential Privacy

Differential Privacy

发布会上苹果展示了众多需要数据分析的产品,包括照片中的人脸识别、景物识别,包括邮件中根据语境上下文提供的文字输入预测。接近结尾时,Craig Federighi 强调,这些功能依然将用户隐私摆在中心、放在首位。而做到这一点的核心技术,就是 “Differential Privacy”。

而这两个非常 fancy 的词语背后的核心思想,和故事中党支部统计数据的方法相同:为每一条单独的数据添加噪音,让这些数据独立存在时失去意义,却在和千万数据一同使用时能够体现出价值。

数据分析和用户隐私的矛盾

iMessage 发布五年不愠不火,这离不开苹果对于用户隐私的偏执。他们强制 iMessage 和 FaceTime 端到端加密,。你的短信内容虽然会存储在苹果的服务器,但是他们完全没有办法读取这个消息——只有接收者的 iOS 设备和 Mac 可以在本机解密收到的信息,读取到真正的内容。正因如此,iMessage 的新功能无法在服务器这一端部署,因为他们拿不到你的信息内容。

反过来看谷歌今年发布的聊天应用 Allo,里边有聊天机器人,有自动建议的回复功能,还能识别对方发来的照片,自动对带狗狗的照片说 “凹好可爱”……这些功能的存在依托服务器的支持,所以 Allo 从来也没有把端到端加密做出来。

来自2013年的一个法律学研究中,亚利桑那大学法学院教授 Jane Bambauer 指出,Differential Privacy 是一个 “fool's gold”,在实际应用中恐怕很难部署。

具体而言,当样本量不足时,选择合适的人工噪音音量就很重要:音量太小,则不足以扰动每一条数据、保护隐私;音量太大,则很容易掩盖数据的内在规律,没有研究和利用价值。

因此,Differential Privacy 并非一个完全双赢的解决方案,而只是允许我们在保护用户隐私和利用数据之间进行取舍的一个工具。

Criag Federighi

Good Enough 就够了

既然是取舍,那就有牺牲。在 Differential Privacy 数据收集框架下整理到的信息,理论上挖掘效果总也不会好过传统的数据收集方法。

可问题是,多好才叫好?好到什么程度才算足够了呢?选择人工噪音的音量是在两者之间进行妥协与取舍,但一个产品的设计本身就是妥协的过程。

因此 Differential Privacy 的应用,还暗示了另一件事情:苹果通过数据分析的所提供服务可以接受这样人为添加的噪音,这些噪音带来的精度下降不足以让数据分析无法进行、产品无法使用。在这些环境下,苹果能够提供足够好(Good Enough)的服务和谷歌、微软、亚马逊竞争,这就够了。

而为了 “足够好”,苹果等了一年又一年,等的就是让两者的服务质量差距缩小到可以接受的范围。

科技发展带来的是硬件计算效果的飞速提升。在几年前,同样成本、同样时间的硬件计算效果远不如当今,因此 Differential Privacy 添加的噪音障碍会打来很大的运算效果差距。而随着硬件能力的爆炸性增长,这样的差距也逐渐缩小。

随着计算资源增长,两种运算方式效果的差距缩小

照片库中一百个人的人脸,运算的极限是识别出全部一百个。谷歌识别 98 个、苹果识别 95 个,但对于普通用户而言,这样的差别根本感受不到。苹果能够提供足够好的服务,这恐怕也是他们等到今天才带来大数据运算的一个原因之一。

宝箱一开,不知道苹果在数据挖掘的路上又能给我们带来怎样的惊喜呢?

一个总结

Differential Privacy 是苹果在 WWDC 上宣布的一个重要名词。它是苹果在用户隐私和数据利用之间进行平衡的工具,是 iOS 10 照片识别、输入预测等功能的根基。

果粉请在转发文章时从 “苹果的大数据要崛起了”、“谷歌早晚要被隐私政策反咬一口” 的角度进行评论,但我会觉得你很没水平。果黑可以添加如 “就算苹果有了这个技术,他们也不是一个数据驱动的公司,做数据分析还差得远” 的评论,而且我会觉得你很犀利。

不过别忘了,技术上差的不多,就要靠人文关怀竞争了。

而在这方面,谷歌就像个弱智——请听下回分解。