频道栏目
首页 > 安全 > 网络安全 > 正文

大数据的当今怎样做好隐私的保护问题研究专题

2017-09-11 09:32:04      个评论      
收藏   我要投稿

本文概括了学术界和工业界对付用户隐衷掩护的尽力结果,此中紧张讲到了k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness 和 ε-differential privacy(差分隐衷),并对它们的优缺点结束了阐发。
数据 v.s. 隐衷
在大数据的期间,数据成为了科学研讨的基石。咱们在享用着保举算法、语音辨认、图象辨认、无人车驾驶等智能的技巧带来的方便的同时,数据在面前担负着驱动算法赓续优化迭代的脚色。在科学研讨、产物开发、数据地下的过程当中,算法必要网络、应用用户数据,在这过程当中数据就不可防止的裸露在外。历史上就有许多地下的数据裸露了用户隐衷的案例。
美国在线(AOL)是一家美国互联网办事公司,也是美国最大的互联网供给商之一。在 2006  年8月,为了学术研讨,AOL 地下了匿名的搜刮记载,此中包含  65 万个用户的数据,统共 20M 条查问记载。在这些数据中,用户的姓名被调换成为了一个个匿名的  ID,然则纽约时报经由过程这些搜刮记载,找到了 ID 匿名为 4417749的用户在实在天下中对应的人。ID 4417749 的搜刮记载里有对于“60岁的老年人”的成绩、“ Lilburn处所的景致”、另有“Arnold” 的搜刮字样。经由过程下面几条数据,纽约时报发明  Lilburn 只需14小我姓Arnold,末了颠末间接接洽这 14小我确认 ID 4417749 是一名62岁名字叫  Thelma Arnold的老奶奶。末了 AOL 紧迫撤下数据,发表声明道歉,然则曾经太晚了。因为隐衷泄漏变乱,AOL遭到了告状,终极补偿受影响用户总额高达五百万美元。
异样是 2006年,美国最大的影视公司之一 Netflix,举行了一个猜测算法的竞赛( Netflix Prize),竞赛哀求在地下数据上推想用户的片子评分 。Netflix  把数据中独一辨认用户的信息抹去,觉得如许便可以包管用户的隐衷。然则在 2007 年来自The University of Texas at Austin  的两位研讨人员表现经由过程接洽干系 Netflix 地下的数据和 IMDb(互联网片子数据库)网站上地下的记载便可以或许辨认出匿名后用户的身份。三年后,在2010年,Netflix 末了因为隐衷缘故原由发布结束这项竞赛,并是以遭到高额罚款,补偿金额共计九百万美元。
近几年各大公司均连续存眷用户的隐衷平安。比方苹果 在2016 年  6 月份的WWDC 大会上就提出了一项名为 Differential Privacy 的差分隐衷技巧。苹果宣称他能经由过程数据计算出用户群体的行动形式,然则却无奈获得每一个用户个别的数据。那末差分隐衷技巧又是怎样做的呢?
在大数据期间,若何能力包管咱们的隐衷呢?要答复这个成绩,咱们起首要晓得甚么是隐衷。
甚么是隐衷?
咱们常常评论辩论到隐衷泄漏、隐衷掩护,那末甚么是隐衷呢?举个例子,栖身在海淀区五道口的小明常常在网上购置电子产物,那小明的姓名、购置偏好和栖身地点 算不算是隐衷呢?如果某购物网站统计了用户的购物偏好并地下部门数据,地下的数据中表现北京海淀区五道口的用户更爱买电子产物,那末小明的隐衷能否被泄漏了呢?要弄清楚隐衷掩护,咱们先要评论辩论一下毕竟甚么是隐衷。
对付隐衷这个词,科学研讨上广泛接收的界说是“单个用户的某一些属性”,只需相符这一界说都可以或许被看作是隐衷。咱们在提“隐衷”的时刻,加倍夸大的是“单个用户”。那末,一群用户的某一些属性,可以或许觉得不是隐衷。咱们拿适才的例子来看,针对小明这个单个用户,“购置偏好”和“栖身地点”便是隐衷。如果地下的数听说住在五道口的小明爱买电子产物,那末这明显便是隐衷泄漏了。然则如果数据中只包含一个地区的人的购置偏好,就没有泄漏用户隐衷。如果进一步讲,人人都晓得小明住在海淀区五道口,那末是否是小明就爱买点此产物了呢?这种环境算不算事隐衷泄漏呢?谜底是不算,因为人人只是经由过程这个趋向推想,数据其实不表现小明必定爱买电子产物。
以是,从隐衷掩护的角度来讲,隐衷是针对单个用户的观点,地下群体用户的信息不算是隐衷泄漏,然则如果能从数据中能精确推想出个别的信息,那末就算是隐衷泄漏。
隐衷掩护的方法   
从信息期间开端,对于隐衷掩护的研讨就开端了。跟着数据赓续地增加,人们对隐衷愈来愈看重。咱们在评论辩论隐衷掩护的时刻包含两种环境。
第一种是公司为了学术研讨和数据交换凋谢用户数据,学术机构或许小我可以或许向数据库提议查问哀求,公司前往对应的数据时必要包管用户的隐衷。
第二种环境是公司作为办事供给商,为了进步办事质量,自动网络用户的数据,这些在客户端上网络的数据也必要包管隐衷性。学术界提出了多种掩护隐衷的方法和丈量隐衷能否泄漏的对象,比方k-anonymity(k-匿名化)、l-diversity(l-多样化)、t-closeness、 ε-differentialprivacy(差分隐衷)、同态加密(homomorphic encryption)、零常识证实(zero-knowledge proof)等等。本日紧张先容k-anonymity(k-匿名化),l-diversity(l-多样化),t-closeness 和 ε-differential privacy(差分隐衷)。 这些方法先从直观的角度去权衡一个地下数据的隐衷性,再到应用密码学、统计学等对象包管数据的隐衷性。
下面咱们逐一解读这四种隐衷掩护的方法:
k-anonymity(k-匿名化)
k-anonymity 是在 1998 年由 Latanya Sweeney 和 Pierangela Samarati 提出的一种数据匿名化方法。
咱们先看一下下面的这个表格:

 
咱们把要表格中的地下属性分为如下三类:
    -    Key attributes: 一样平常是个别的独一标示,好比说姓名、地点、德律风等等,这些内容必要在地下数据的时刻删掉。
    -    Quasi-identifier: 相似邮编、年纪、诞辰、性别等不是独一的,然则能赞助研讨人员接洽干系相干数据的标示。

    -    Sensitive attributes: 敏感数据,好比说购置偏好、薪水等等,这些数据是研讨人员最关怀的,以是一样平常都间接地下。
简略来讲,k-anonymity 的目标是包管地下的数据中包含的小我信息至多 k-1 条不克不及经由过程其余小我信息肯定进去。也便是地下数据中的随意率性 quasi-identifier信息,雷同的组合都必要呈现至多 k 次。
举个例子,假定一个地下的数据结束了 2-anonymity 掩护。如果进击者想确认一小我(小明)的敏感信息(购置偏好),经由过程查问他的年纪、邮编和性别,进击者会发明数据里至多有两小我是有雷同的年纪、邮编和性别。如许进击者就没方法辨别这两条数据究竟哪一个是小清楚明了,从而也就包管了小明的隐衷不会被泄漏。
下面这个表便是 2-anonymization 过的信息:

k-anonymity的方法紧张有两种,一种是删除对应的数据列,用星号(*)取代。别的一种方法是用归纳综合的方法使之无奈辨别,好比把年纪这个数字归纳综合成一个年纪段。对付邮编如许的数据,如果删除一切邮编,研讨人员会落空许多有意义的信息,以是可以或许抉择删除末了一名数字。
从这个表中,纵然咱们晓得小明是男性、24岁、邮编是100083,却仍旧无奈晓得小明的购置偏好。而研讨人员仍旧可以或许依据这些数据统计出一些有意义的结果,如许既统筹了小我的隐衷,又能为研讨供给有用的数据。
k-anonymity能包管如下三点:
1.    进击者无奈晓得某小我能否在地下的数据中
2.    给定一小我,进击者无奈确认他能否有某项敏感属性
3.    进击者无奈确认某条数据对应的是哪小我(这条假定进击者除 quasi-identifier 信息以外对其余数据一窍不通,举个例子,如果一切用户的偏好都是购置电子产物,那末 k-anonymity 也无奈包管隐衷没有泄漏)
进击方法
未排序婚配进击 (unsorted matching attack) :当地下的数据记载和原始记载的次序异样的时刻,进击者可以或许猜出匿名化的记载是属于谁。比方如果进击者晓得在数据中小明是排在小白后面,那末他便可以或许确认,小明的购置偏好是电子产物,小白是家用电器。办理方法也很简略,在地下数据以前先打乱原始数据的次序便可以或许防止这种的进击。
弥补数据进击 (complementary release attack) :如果地下的数占有多种范例,如果它们的 k-anonymity 方法分歧,那末进击者可以或许经由过程接洽干系多种数据推想用户信息。
除此以外,如果敏感属性在统一类 quasi-identifiers 中短缺多样性,或许进击者有其它的配景常识,k-anonymity 也无奈防止隐衷泄漏。

 
咱们晓得李雷的信息,表中有两条对应的数据,然则他们的购置偏好都是电子产物。因为这个敏感属性短缺多样性,以是只管是 2-anonimity 匿名化的数据,咱们仍旧可以或许获得李雷的敏感信息。
                        

如果咱们晓得小紫的信息,而且晓得她不爱好购置护肤品,那末从表中,咱们仍可以或许确认小紫的购置偏好是厨具。
l-diversity(l-多样化)
经由过程下面的例子,咱们引出了多样化的观点。简略来讲,在地下的数据中,对付那些quasi-identifier 雷同的数据中,敏感属性必需具备多样性,如许能力包管用户的隐衷不克不及经由过程配景常识等方法推想进去。
l-diversity 包管了雷同范例数据中至多有 l 种内容分歧的敏感属性。

比方在上图的例子中,有 10 条雷同的范例的数据,此中 8 条的购置偏好是电子产物,其余两条分离是图书和家用电器。那末在这个例子中,地下的数据就满意  3-diversity 的属性。
除以上先容的简略 l-diversity 的界说,另有其余版本的 l-diversity,引入了其余统计方法。好比说:
•         基于几率的l-diversity (probabilistic l-diversity): 在一个范例中呈现频率最高的值的几率不大于1/l。
•         基于墒的l-diversity (entropy l-diversity): 在一个范例中敏感数据散布的墒至多是 log(l)。
•         递归 (c,l)-diversity (recursive (c, l)-diversity): 简略来讲便是包管最常常呈现的值的呈现频率不要过高。
l-diversity 也有其局限性:
•         敏感属性的性子决议纵然包管了必定几率的 diversity 也很容易泄漏隐衷。比方,病院地下的艾滋病数据中,敏感属性是“艾滋病阳性”(呈现几率是 1%)和“艾滋病阴性”(呈现几率是 99%),这两种值的敏感性分歧,形成的结果也分歧。
•         有些环境下 l-diversity 是没有意义的:好比说艾滋病数据的例子中仅含有两种分歧的值,包管2-diversity 也是没有意义的。
•         l-diversity 很难杀青:比方,咱们想在 10000 条数据中包管 2-diversity,那末能够至多必要10000* 0.01 = 100 个雷同的范例。这时候能够经由过程以前先容的 k-anonymity的方法很难到达。

 

•         偏斜性进击 (Skewness Attack):如果咱们要包管在统一范例的数据中呈现“艾滋病阳性”和呈现“艾滋病阴性”的几率是雷同的,咱们固然包管了 diversity,然则咱们泄漏隐衷的能够性会变大。因为l-diversity 并无斟酌敏感属性的全体的散布。
•         l-diversity 没有斟酌敏感属性的语义,好比说下面的例子,咱们经由过程李雷的信息从地下数据中接洽干系到了两条信息,经由过程这两条信息咱们能得出两个论断。第一,李雷的人为绝对较低;第二,李雷爱好买电子电器相干的产物。

t-closeness
下面末了一个成绩就引出了 t-closeness 的观点,t-closeness 是为了包管在雷同的quasi-identifier范例组中,敏感信息的散布环境与全部数据的敏感信息散布环境靠近(close),不超过阈值 t。
如果适才的谁人数据包管了 t-closeness 属性,那末经由过程李雷的信息查问进去的结果中,人为的散布就和全体的散布相似,进而很难推断出李雷人为的高下。
末了,如果包管了 k-anonymity,l-diversity 和 t-closeness,隐衷就不会泄漏了么?谜底并非如许,咱们看下面的例子:

 
在这个例子中,咱们包管了 2- anonymity , 2-diversity , t-closeness(散布类似),人为和购置偏好是敏感属性。进击者经由过程李雷的小我信息找到了四条数据,同时晓得李雷有许多书,如许便可以很容易在四条数据中找到李雷的那一条,从而形成隐衷泄漏。能够有些读者会有疑问,经由过程配景常识进击 k-anonymity 的条件是否是假定懂得 quasi-identifier ?并非如许,针对敏感属性的配景进击对 k-anonymity 也实用,以是不管颠末哪些属性包管,隐衷泄漏照样很难防止。
差分隐衷(differential privacy)
除以前咱们先容的针对 k-anonymity, l-diversity,t-closeness 三种隐衷掩护方法的进击以外,另有一种叫做差分进击 ( differential attack )。举个例子,购物公司发布了购物偏好的数据,说咱们有 100 小我的购物偏好数据,此中有 10 小我偏心购置汽车用品,其余 90 个偏心购置电子产物。如果进击者晓得此中 99 小我是偏心汽车用品照样电子产物,便可以或许晓得第 100 小我的购物偏好。如许经由过程比拟地下数据和既有的常识推想出小我隐衷,就叫做差分进击。
在 2009 年,微软研讨院的Cynthia Dwork 提出差分隐衷的观点,差分隐衷便是为了防止差分进击,也便是说只管进击者晓得发布的 100 小我的小我以信息和此中 99 小我的信息,他也没方法经由过程比对这两个信息获得第 100 小我的信息 。
简略来讲,差分隐衷便是用一种方法使得查问 100 个信息和查问此中 99 个的信息获得的结果是绝对同等的,那末进击者就无奈经由过程比拟(差分)数据的分歧找出第100 小我的信息。这种方法便是参加随机性,如果查问 100 个记载和 99 个记载,输出异样的值的几率是异样的,进击者就无奈结束差分进击。进一步说,对付差异只需一条记载的两个数据集 D 和 D’ (neighboring datasets),查问他们获得结果雷同的几率异常靠近。留意,这里其实不克不及包管几率雷同,如果异样的话,数据就必要完整的随机化,那样地下数据也就没有意义。以是,咱们必要尽能够靠近,包管在隐衷和可用性之间找到一个均衡。
ε-差分隐衷 (ε-differential privacy, ε-DP) 可以或许用下面的界说来表现:

此中 M 是在 D 上做随意率性查问操纵,对查问后的结果参加必定的随机性,也便是给数据加乐音,两个  datasets加之统一随机乐音以后查问结果为 C 的几率比小于一个特定的数 。如许便可以包管用户隐衷泄漏的几率有一个数学的上界,比拟传统的  k-anonymity,差分隐衷使隐衷掩护的模子加倍清楚。
咱们用一个例子说明差分隐衷的界说:

上图中 D1 和D2  是两个neighboring datasets,他们只需一条记载不同等,在进击者查问“20-30 岁之间有若干人偏好购置电子产物”的时刻,对付这两个数据库获得的查问结果是 100 的几率分离是 99%  和 98%,他们的比值小于某个数。如果对付随意率性的查问,都能满意如许的条件,咱们便可以或许说这种随机方法是满意ε- 差分隐衷的。因为 D1 和 D2  是可以或许交换的,以是加倍严厉的讲,他们的比值也要大于


不管查问是甚么,两个相邻的数据库前往的结果老是类似的。
要到达数据的差分隐衷有四种方法:
1.    输出结果变更
2.    输出查问变更
3.    中央值变更
4.    抽样和聚合数据
本文接下来紧张先容输出结果变更的方法,这种方法紧张针对查问结果是数值或许数值向量的环境,经由过程参加噪声使输出结果到达 ε-DP。
输出结果变更:参加噪声
在差分隐衷中,防止隐衷泄漏的紧张身分是在查问结果中加乐音,对付数值的查问结果,一种罕见的方法便是对结果结束数值变更。要说明若何参加乐音,咱们先看一下下面的这个例子:

 


 
如果某公司地下了数据,而且对外供给了查问数据的接口 f(x),针对分歧的查问 x,办事器都邑输出一个查问结果  f(x) + 噪声,参加噪声便是为了包管 ε-差分隐衷。
那末若何抉择噪声呢?
差分隐衷方法中,作者奇妙的应用了拉普拉斯散布的特性,找到了适合的噪声方法。针对数值或向量的查问输出,M(x) = f(x) + 噪声。咱们能得出如下论断:

此中 Lap 是拉普拉斯散布,GS 表现 global sensitivity:

详细的证实可以或许参考差分隐衷的相干文章。
咱们有了这个论断,想要对某个查问接口 f(x) 包管 ε-DP 的话,只必要在查问结果上参加 Lap(GS/e) 的噪声便可以或许了。
拉普拉斯散布和其几率密度函数如下:
                         

(ε,δ)-differential privacy, (ε, δ)-DP
 ε-DP 是一种“严厉”的隐衷掩护包管,当在数据库中增加和删除一条数据时刻,包管一切查问的输出都相似。然则(ε, δ)-DP 在 ε-DP 的包管中容许了必定几率的差错产生,好比说,用户在 (ε, δ)-DP 的掩护下会有 δ 几率的隐衷泄漏。

基于这些的观点,差分隐衷在机械进修算法中也能够或许应用,罕见的算法,好比说 PCA、logistic regression、SVM都有对应的差分隐衷化算法。
差分隐衷在数据的实用性和隐衷性之间到达了均衡,应用者可以或许经由过程设定自己的“隐衷预算”(privacy budget)来调剂数据的实用性和隐衷性。然则差分隐衷也不是全能的,此中参加噪声的许多算法必要在大批的数据集上才实用。除此以外,甚么才是“隐衷预算”的正当设定也是一个成绩。这些都是差分隐衷面对的成绩和挑衅。而且因为差分隐衷对付“配景常识”的哀求过于强,以是必要在结果中参加大批随机化,招致数据的可用性(utility)急剧下降。然则差分隐衷作为一个异常优雅的数学对象,是隐衷掩护的研讨在将来的一个发展方向。差分隐衷用严厉的数学证实奉告人们一个匿名化的地下数据毕竟能掩护用户若干的隐衷。
k-匿名化与 ε-差分隐衷的干系
咱们后面分离零丁先容了 k-匿名化和 ε-差分隐衷,k-匿名化绝对比拟容易理解和理论,差分隐衷更像是从理论上证实了隐衷掩护的界限。
固然方法的阐发角度完整分歧,然则它们之间却有着慎密的接洽。普渡大学的Ninghui Li传授在 Provably PrivateData Anonymization: Or, k-Anonymity Meets Differential Privacy 文章中详细阐发了 k-匿名化和 ε-差分隐衷之间的干系。文章证实了在应用 k-匿名化“适合”的环境下,可以或许满意必定条件的 (ε, δ)-differentialprivacy。同时也提出了一种 k-anonymity 的变形:β-Sampling+ Data-independent _Generalization + k-Suppression (k, β)-SDGS  ,经由过程变形后的 k-anonymity 便可以或许使之满意差分隐衷。经由过程应用差分隐衷这种对象,咱们便可以精确的权衡古人提出的 k-anonymity,在理论研讨上具备紧张意义。
现实案例
在现实应用中应用差分隐衷时必要斟酌的成绩另有许多,咱们在先容差分隐衷的时刻假定一切的查问操纵都由可托的数据库处置,数据库里存储着用户的原始数据。那末如果数据库被进击了,包含用户隐衷的原始数据就泄漏了。
如果不网络用户的原始数据,在客户端上先做差分隐衷,再上传给办事器,这个成绩就办理了。近来Google率先应用RAPPOR体系在 Chrome 浏览器上经由过程这种方法网络用户的应用环境数据。RAPPOR 基于“随机应对”(randomized response)的方法掩护用户的原始数据不被泄漏,随机应对的流程如下:
1.     当用户必要上报小我数据的时刻,起首“抛硬币”决议能否上报实在数据。如果是侧面,则上报实在数据。如果不是,就上报一个随机的数据,再“抛一次硬币”决议随机数据的内容。
2.     办事器收到一切的数据后,因为晓得“抛硬币”是侧面的几率,办事器便可以或许断定前往的数据是精确的几率。
这种“随机应对”的方法在理论上也被证实是屈服ε-差分隐衷的。对付用户来讲,隐衷数据在上报给办事器以前就曾经加了噪声,从而具备必定包管。对付公司来讲,也能网络到有用的数据。
RAPPOR 应用“随机应对”的方法克服了以前只能答复简略查问语句的限定,如今可以或许上报包含字符串这种加倍繁杂的答复。RAPPOR 在上报字符串信息的时刻起首应用“布隆过滤器”(bloom filter)算法把字符串哈希到一个数组中,而后再参加噪声传给办事器。布隆过滤器不必要存储元素自己,并可以或许用于检索一个元素能否在一个聚集中。经由过程应用这种方法,便可以或许对字符串数据增加乐音,掩护用户的隐衷。

 

苹果在 2016 年的天下开发者大会(WWDC)上也发布应用差分隐衷的方法网络用户数据。固然苹果没有泄漏详细的细节,咱们从民间的描写中也能够或许推想出苹果也应用了在客户端上做匿名化再传输到办事器的方法。
Differentialprivacy is a research topic in the areas of statistics and data analytics thatuses hashing, subsampling and noiseinjection to enable…crowdsourced learning while keeping the data ofindividual users completely private. Apple has been doing some super-importantwork in this area to enable differential privacy to be deployed at scale.
咱们适才先容的 Google 和 Apple 的模子都是先在当地做差分隐衷,而后再上报给办事器,咱们把这种方法叫做当地形式(local mode)。这种差分隐衷的做法在上报数据可以或许互相接洽干系的环境下照样存在隐衷泄漏。Google的RAPPOR固然办理了对统一个数据的屡次上报的隐衷泄漏成绩,但并无办理多个相干数据上报后产生的隐衷泄漏成绩。对付这一成绩,Apple也没有给出详细的说明。
除Google 和苹果在内部产物中应用差分隐衷方法,哈佛大学地下了一个名为PSI (Ψ) 的名目,供给了一个便捷的差分隐衷对象。应用者经由过程上传数据,调剂差分隐衷的参数,便可以或许获得满意差分隐衷的数据集。
总结
本文先容了学术界和工业界对付用户隐衷掩护的尽力结果。咱们起首先容了 k-anonymity,即经由过程变更隐衷数据,包管雷同特性的用户在数据库呈现的次数至多是 k 次。而后,为了防止进击者经由过程隐衷数据的配景常识推想用户身份,提出应用 l-diversity,包管雷同特性的用户中,隐衷数据雷同的个数大于 l。除此以外,咱们也评论辩论了 t-closeness。末了咱们详细先容了差分隐衷的观点,和现实应用中应若何应用差分隐衷。
从最开端的 k-anonymity, l-diversity , t-closeness 到如今的 ε-差分隐衷,都是为了既包管用户的小我隐衷,也能对现实应用和研讨供给有价值的数据。在大数据的期间中,盼望各公司在应用数据供给更好的办事的同时,能掩护好用户的小我隐衷。这是法律的哀求,也是平安行业的寻求。咱们相信隐衷掩护技巧会愈来愈遭到看重,并从学术理论敏捷投入工业界实战应用。
上一篇:现在禁用还来得及!!黑客可以利用超声波劫持所有主流平台“语音助手”
下一篇:U盘复制更改MBR勒索木马病毒研究
相关文章
图文推荐

关于我们 | 联系我们 | 广告服务 | 投资合作 | 版权申明 | 在线帮助 | 网站地图 | 作品发布 | Vip技术培训 | 举报中心

版权所有: 红黑联盟--致力于做实用的IT技术学习网站