克己复礼
能者多劳
* 请注意,本篇文章学术高能,不易理解
* 请注意,本篇文章因考虑易读性丧失部分严谨性
前两天,差评君看到个消息,苹果在一份报告中公布最受美国用户欢迎的十大表情
排在了第一位,而且远超其他的。
这个数据来源于苹果的一份关于 “ 差别隐私 ” (differential privacy) 的报告。
仔细想想自己和朋友聊天时经常用的表情,似乎
用得的确比别的多很多。。。
不过呢,差评君今天要讲的不是这个,而是这篇消息中提到的苹果的一份关于 “ 差别隐私 ” (differential privacy) 的报告,这份报告要有意思得多。
这年头,大公司收集用户数据的事实大家都知道,当你们疯狂地撕开新手机的包裹,开机以后看也不看一眼又臭又长的用户条款(差评君也不看),就点了同意的那一刻,大公司就开始收集你的数据了。
不过这也是没办法的事情,因为你不点同意就用不了他们的产品,最后这些数据就当是给厂商交了服务费了。
因此,咱们作为那些大公司的用户,在个人隐私安全这方面,只能赌他们的社会责任感和道德感。
某电商数据分析,他们可能比你更了解自己
说回到苹果的 “ Differential privacy ”(差别隐私,简称 DP ) 报告,里头说了啥?和上面提到的大数据又有什么关系呢?
在那份报告中,苹果公司承认他们收集大数据来研究大部分用户,但同时也认为苹果没有必要,也不应该研究个体用户的数据。
为了做到这一点,苹果公司用上了一门技术,叫差别隐私(DP),你可能不知道,事实上 DP 从 iOS 10 开始就已经在使用了。
但你会问,大数据不就是一份份个体数据组成的么?
那苹果怎么说绕过个体数据,还能研究大数据???
能的!来,一起喊:科学的力量~
首先,咱们先讲讲为啥一般情况下大数据可以暴露个人隐私。
假设一家商场在结账的时候会匿名统计用户买了什么,在下午 1 点,小黑胖进去买东西,这时他们整合了 500 份数据得到了一份大数据,咱们叫它 A 。
十分钟之后,小黑胖出来了,这时候他们有 501 份匿名数据整合成的大数据 B。
差评君只要比对一下 B 和 A 有什么区别,算一算(举个不恰当但好理解的例子:两次数据之间,如超市里剩余商品都少了哪些),就能知道有个用户买了什么,要是小二还正好撞见小黑胖的行踪,那么管他买鸡腿还是飞机杯,差评君都知道。
这就是传统匿名收集用户数据的局限性,虽然是匿名收集,但厂商还是能通过某些方式确认某个个体做了什么,上面说的情况现实中是可以实现的。
在 2006 年,美国的在线影片租赁公司 Netflix 办了个机器学习比赛,想提升自家的推荐功能。
Netflix 准备了一些用户浏览数据,擦掉了 ID 等个人隐私(在大数据中,这种剥离敏感信息的做法叫脱敏),公布了出来给参赛者用。
结果有两个人把这些浏览数据和 IMDB (电影评分网站) 上的用户观影记录比对,反推出了 Netflix 公布数据对应的本人。
上面是传统大数据过程中的脱敏及其弊端,那么 DP 是怎么做的呢?
就是在用户上传数据里加一些无伤大雅的 “ 扰动 ”,让最终数据无法通过对比分析来确定某个个体(比如上面小黑胖去超市的那个例子里的分析 AB 之间差距),具体怎么操作咱们来举个例子。
差评君叫来了公司里的小伙伴们,问他们一个问题 “ 你有没有 XXX ”,回答为 “ 是 ” 或者 “ 否 ”,写在纸条上传给差评君。
回答的人需要先抛一个硬币:
如果是正面,那么如实回答。
如果是反面,那么再抛一次硬币,然后不管事实是什么,正面就写 “ 是 ”,反面就写 “ 否 ”。
这么一来,如果那个问题是 “ 你有没有偷吃鸡腿 ”,并且差评君在收集到的纸条里有 “ 是 ",即使按照平时的经验来谈,小黑胖的回答应该是 “ 是 ”,但你不能因此确定这个回答来自于小黑胖,因为有可能他连抛两次反面。
哪怕小黑胖真写了 “ 是 ”,也不代表他偷吃了,也许只是他第一次抛反面第二次抛正面,被迫写了 “ 是 ”。
这样一来,由于在收集回答的时候,有了抛硬币产生的扰动,差评君完全不可能找到任何一个回答的主人,但是收集到的数据也会损失一半真实度,因为有一半人的回答不是真的。
在现实中,数据损失一半真实度那肯定没用了,不过现实中收集的数据不是一个 “ 是 ” 或者 “ 否 ” 的回答,添加的 “ 扰动 ” 也没有抛硬币这么随意,所以收集来的数据依然是有用的。
苹果公司就是靠着这个原理,在你的手机传匿名数据的时候,在你的手机本地给数据添加一些 “ 扰动 ”,并且删除个人信息,才能传到苹果的服务器。
这个扰动不能太大,否则大数据就没用了;也不能太小,小了你的隐私保不住。
那么应该多大呢,可以用数学公式算出来。
源自维基百科
通过数学方法,可以让大数据依然有很强的可靠度,而且完全找不到每条数据对应的来源。
苹果不光给你的数据添加扰动,还做了其他的努力。
苹果公司的数据只保存三个月,而且不含 IP 等信息
搜索功能上,每个用户每天限制搜集 2 条数据,表情每天 1 条,输入联想每天 2 两条。
苹果启用 DP 是在 2016 年 WWDC 上公布的,虽然大部分用户可能不太关心,但是苹果公司显然很关心。
这么处理数据,从技术上根绝了苹果有针对性的研究和掌握某个个体,自己把作案工具没收了,哪怕真起了贼心也耍不来流氓了。。。
苹果公司给人什么印象呢?
苹果有时候给人一种高傲的姿态,例如各种不兼容别家的产品生态圈,App 的收费机制,不友好的定价。。。
但是对于用户个人隐私,他们的姿态却很低,差评君从里面看到了克制二字。
在苹果看来,搜集用户数据是被赋予的一种特权,那么苹果公司应该尽量克制自己,减少数据采集量,添加扰动,不惜牺牲一点点数据可靠性也要保护用户的隐私。
这方面,苹果甩了某些国内厂商几条街~
某国产大厂的用户隐私条款
在上面这个条款中,某厂在某些特殊情况下保留了使用用户数据的权利。
对于苹果公司,条款里不存在这些特殊情况,因为这不是权利不权利的问题,而是他们也没有用户隐私数据,根本不存在这些 “ 权利 "。。。
为了做文章开头的表情统计,苹果付出了很多你没看见的努力
所以再来看看这个问题:苹果公司给人什么印象呢?
在差评君看来,苹果还是一家总能比别人多做一点点,而且还做得很好的公司。
One more thing ...
譬如他们对于环保的贡献一直走在世界前列,差评君对于这一点以前写过文章(传送门)
今年年初 " 绿色世界和平 " 发布的清洁能源报告中,苹果在各大公司中名列前茅
(榜上两家中国科技公司,百度和腾讯由于能源煤炭资源比例太高,评级被划为了 F)
虽然他们的明星产品线 iPhone 曾经推动了智能手机潮,如今却快要被其他厂商追上了,苹果公司最近在产品发布时很少再能自信地喊出 “ one more thing ”。
但差评君认为这个 “ one more thing ” 其实转移到了别的地方,这些努力是藏在产品背后的,某些更重要的东西:
社会责任,企业道德。
“ 能不能顺便关心一下用户健康,毕竟肾少了一个 "
举报/反馈

差评

381万获赞 82.7万粉丝
Debug the world 差评,为美好发声
鲲鹏计划获奖作者,优质科技领域创作者
关注
0
0
收藏
分享