Presentation is loading. Please wait.

Presentation is loading. Please wait.

Privacy-preserving of Trajectory Data : A Survey

Similar presentations


Presentation on theme: "Privacy-preserving of Trajectory Data : A Survey"— Presentation transcript:

1 Privacy-preserving of Trajectory Data : A Survey
Huo Zheng

2 OUTLINE Motivating Applications
Privacy-preserving in Different Scenarios Conclusions & Future work 本次内容分为这三个部分: 现在没有一个隐私保护的方法适用于所有的场景,那么针对不同的应用场景有不同的解决方法。 先讲一下轨迹隐私保护的应用场景, 再讲一下在各个应用场景中的保护策略,最后总结一下讲述的内容,展望未来的工作

3 Motivating Applications
1. Trajectory data publication & analysis 2. LBS 4. Trajectory data outsourcing 3. ITS 经过我的调查,轨迹数据隐私保护有以下四个应用场景: 简单介绍1,2,3,4 1、在数据发布中的轨迹隐私保护。这张图是微软的Geolife的界面,Geolife有一个功能就是通过移动用户每天的运行轨迹挖掘出移动用户的兴趣爱好、行为模式等。对于数据挖掘来说,这是很好的结果,但是对于个人用户来说,是对他们个人隐私的极大威胁,因此,在数据发布和分析中,对轨迹数据进行隐私保护非常必要。 2、在轨迹数据外包中的隐私保护。设想一个场景,一旦某些机构,比如LBS服务器,交通监管部门收集了大量的轨迹数据,其数据量太大,需要外包给第三方进行管理,比如云数据库系统。由于数据拥有者不想让云数据库系统得知其数据的信息,那么,在数据外包中,需要对数据进行隐私保护。轨迹数据有其自身的特点,比如,是时序的,查询多于距离和位置相关等。因此,需要特别的方法对轨迹数据隐私保护进行管理。 3、在智能交通中。最常见的交通监管设备就是电子眼,可以监视道路的交通状况。此外还有一种车载设备的监控方式,是由车内的GPS定位器每隔几分钟向控制中心发送自己的位置、速度等信息。这种情况下,车辆的轨迹隐私就被暴露了。 4、在基于位置的服务中。保护了用户的位置隐私不一定就能保护移动用户的轨迹隐私,因此,在LBS中有必要保护用户的轨迹隐私; 此外,LBS中的某些应用也需要保护移动用户的轨迹隐私,比如 路径查询这种应用。

4 OUTLINE Motivating Applications
Privacy-preserving in Different Scenarios Conclusions & Future work 那么下面我们就来了解一下各个应用场景中,目前有哪些解决方案。

5 Solutions-overview Suppression Anonimization Perturbation Encryption
Data Publication Data Outsourcing ITS LBS Suppression [Terrovitis MDM’08] [Abul ICDMW’07] [Gruteser ISE’04] Anonimization [Ghinita TDP’09] [Nergiz TDP’09] [Abul ICDE’08] [Divanis SIAM’09] [Hoh MobiSys’08] [Xu INFOCOM’08] [Gidofalvi MDM’07] Perturbation [Hoh SecureCom’05] [ You PALSM’07] [Lee CIKM’09] Encryption [Xu Proposal’10] 经过我的调研,对轨迹数据隐私保护方法中比较有代表性的方法进行了分类。 行title是应用场景,列title是使用的方法。 可以看出,在轨迹数据发布中的隐私保护中,研究工作比较多,涉及到各种方法的研究都有。在LBS场景下的轨迹数据隐私保护也有一些研究工作,但是并不多见。在ITS中看到的研究工作很少,看到一个还是一个offline的方法,和数据发布中的很像。 在数据外包的轨迹数据隐私保护上,还没有工作。 接下来,我就介绍一下有代表性的一些工作。

6 Scenario #1 Trajectory data publication & analysis LBS ITS
Trajectory data outsourcing LBS ITS 先看下场景1的几个解决方法。

7 Solutions #1 Overview Protecting trajectory data privacy against attackers in the following aspects: Protecting trajectory data to be identified by the adversary Protecting sensitive location samples in trajectory data. Attackers may have background knowledge to induce users’ information,For example, home and work place can help adversary to infer the trajectory’s owner Protect data privacy while preserving the utility of data 先来看一下在这个场景下进行隐私保护有哪些注意事项: 3、最后一点,保护轨迹数据的隐私,同时要保证数据的可用性,因为数据发布最终是给其它机构进行分析使用的,如果可用性极差,那么也是一种不成功的隐私保护策略。 Data Privacy Data Utility

8 Dummies Basic Idea Method
Increasing the number of possible trajectories from the adversaries’ perspective Decreasing disclosure of the user trajectory Method Generate dummy trajectories as human behavior Generate dummy trajectories with distances larger than a predefined distance deviation 为了达到上面说的轨迹隐私保护的目的,有以下几种方法: 先看假轨迹方法的主要思想: 产生一些假轨迹,从攻击者眼中看到的轨迹数据越多,那么能识别出来哪个是真实轨迹的概率就越低。 采用的方法: 首先,产生的轨迹要像用户移动的真实轨迹 ,如果不像真实用户的(点图)。图a中的d1和d2两个轨迹在正常的道路中是不会出现的,因此,容易被攻击者识别。 其次,产生的轨迹要之间要有一定的距离,如图4所示,如果轨迹之间距离太近的话,轨迹也容易暴露。 [You PALMS’07]

9 Dummies (cont’) Procedure Set a disclosure rate Generate dummies
Random Trajectories with intersections Rotate Compute distance deviation Source destination 根据前面提到的主要思想,产生了两种产生假轨迹的方法。 首先,设定一个披露风险,也就是能承受的轨迹暴露的最大概率; 然后用两种方法产生假轨迹。 第一种是随机法:(点图)假如这一条是移动对象的真实轨迹,然后选择一个source和一个destination,从source到destination模拟一个和真实对象速度相同的匀速运动的对象,缠身一条假轨迹。如果产生一条轨迹不满足披露风险的限制,那么,可以按照相同的方法再产生第2条假轨迹.产生的假轨迹尽量相交,这样,不容易被攻击者识破。 第二种是旋转法:旋转法满足了假轨迹像真实运动轨迹的条件。首先,计算距离值,使得产生的假轨迹距离不至于非常近。 计算距离之后,根据角度和位置进行旋转。如果不满足披露风险的话,可以再辞进行旋转。 [You PALMS’07]

10 Pros and cons Pros Attackers can’t distinguish which trajectory is real user trajectory under a threshold which is given by users Simple, easy to understand Cons High cost in storage, for example, to protect a single trajectory, you need to store several dummy trajectories, causing lower data utility. High disclosure rate for adversaries with strong background knowledge 假轨迹的方法介绍完了。 小结一下这个方法的优缺点: 可以看出,这个方法非常简单,容易实现,计算量不大,且能在一定程度上保护轨迹数据的隐私。 但是缺点也很明显:首先就是存储量大,导致数据可用性不高 其次,由于假轨迹和真实轨迹的出发点和目的地不同,如果攻击者有较强的背景知识,比如,知道移动对象的出发点,那么也很容易识别出用户的真实轨迹 [You PALMS’07]

11 Suppress locations in trajectory data publication
Basic Idea Suppress location samples in a trajectory database Procedure Decide which location to suppress If the location sample is sensitive, suppress it. If the location sample may reveal other information, suppress it. Suppress the location when publishing data Id Loc1 Loc2 Loc3 Loc4 Loc5 01 (1, 3) (1, 5) (2, 6) (2,9) (3,10) 02 (2, 5) (4, 8) (5, 10) (5,15) (5,20) 03 (0,2) (4, 2) (5, 4) (5,10) (6,11) 04 (2, 3) (2, 8) (3,9) (3,15) Loc Name (2,6) Clinic (5,20) Hotel (3,15) Bar 接下来看一下用抑制的方法进行轨迹数据隐私保护的技术。 先看一个图。假如轨迹数据在数据库中是这样存储的,抑制方法,就是在轨迹数据库中,将一些必要的数据抑制掉,不发布。关键技术是确定哪些点需要被抑制。 有两点需要考虑:如果轨迹数据中有一些敏感信息,那么这个点需要被抑制;如果一个位置信息会暴露其它的信息,那么这个点也需要被抑制。 第二个图式一些位置信息对应的地点。比如。。。 那么,在第一个图中,就要将这些涉及到敏感信息的位置抑制掉。 [Terrovitis MDM’08]

12 Privacy preservation in the publication of trajectories
Motivation Octopus RFID card is commonly used by HK residents to pay for their transportations, transactions at point-of-sale services; If the Octopus company publish the data directly, it may cause privacy linkage, since other agencies may have partial knowledge of a same person. a1 a3 下面看一个具体方法的例子: 在香港,Octopus卡是居民出行、购物都可以使用的方便卡,居民可以用这个卡乘公交、地铁、交停车费、去便利店购物等。 Octopus卡公司收集了大量的用户数据。比如Mr.Q在某一天用他的卡先乘坐了地铁,然后去7-11购物,再乘坐地铁,再到一家7-11购物,最后回家 交易数据串联起来 ,就构成了Mr.Q在某一天的出行轨迹。如果Ocptopus卡公司将这些数据直接发布,由于连锁店保存了交易记录,也能在一定概率上得知轨迹书属于哪个用户的。看图上,7-11就保存了Mr.Q从a1->a3的运行轨迹,那么这种数据就叫做“部分知识” ID Trajectory t1 a1->a3 [Terrovitis MDM’08]

13 An Example [Terrovitis MDM’08] Suppress Compute distortion
下面通过一个例子看一下如何在攻击者有部分知识的情况下,保护轨迹数据的隐私。 首先,是一张地图,上面记录了一些点,假定所有标示a的点属于一个连锁店,标示b的点属于另一个连锁店。章鱼卡公司存储的数据是这样的,7-11根据自己的交易记录,存储了这样一个部分知识。 我们看到,在右侧的图上,t5是由a1到a3的一条路径,在左边的图中,只有t5在经过了t1之后到达了t3,可以以100%的概率推断出,t5a就是t5。那么这条轨迹就被暴露了。所以,a1需要被抑制掉。 同样,如果B公司也存储了一些部分知识,也需要对其进行一些抑制处理,同刚才的思路一样,会抑制掉两个b3。那么最终发布的数据是这样的: 发布的这个数据库,对包含部分知识的A和B来说,都有最高为50% 的披露风险。 最后计算一下抑制后的数据可用性。A2->a1->a3->b1这条路径是抑制前的轨迹,a1-b1是抑制后的轨迹。对一条轨迹的抑制,他的信息扭曲度是这样计算的:到端点,也就是a2-a1的距离,再加上a3到a1-b1的垂线距离,如果后面还有一个点的话,再把另一个端点距离加上。这个距离就是抑制后两条轨迹的距离,从数据可用性上考虑,这个距离当然是越小越好。 Compute distortion [Terrovitis MDM’08]

14 Pros and Cons Pros Protecting moving objects’ privacy even the adversaries have partial knowledge Easy to understand, low computation cost. Cons May cause serious information loss if suppressed too much location samples. 小结一下这个方法: 这个方法能够在攻击者拥有一定的部分知识时进行轨迹数据的保护,非常的简单。 缺点是,单纯就抑制的方法可能会造成较高的信息丢失,尤其是在轨迹高频率采样的情况下。

15 Never Walk Alone Motivation Key Idea
Due to the imprecision of GPS devices, where its radius δ represents the possible location imprecision Key Idea Anonymize trajectories in a same time span under uncertainty δ 常用的GPS定位设备一般都有正负3-15米的误差,所以说,收集到的运行轨迹已经不再是一条线,而是一个圆柱,圆柱的半径是GPS设备的误差。如果在这个圆柱内,还有另外一条或多条轨迹的话,就无法识别出来某个用户的轨迹了。 这就是这个方法的motivation,针对这个motivation,主要的idea就是对在同一个时间段内对圆柱体轨迹进行(k delta)匿名 利用不确定性delta的最直观感觉就是,匿名后的信息扭曲度会减小。 [Abul ICDE’08]

16 Never Walk Alone(cont’)
Key Methods Preprocessing Uniform trajectories in a same time span Clustering Greedy Clustering based on the Euclid distance (K, δ)-anonymity Space translation tn …… t1 …… Time x y 这个方法分三步进行 第一步对轨迹数据进行预处理。 把在同一个时间段内的轨迹数据进行去头去尾,也就是去掉不够一个完整的采样周期的头和尾的数据 然后进行按轨迹之间的欧式距离作为衡量标准进行贪心聚类,直到每一个类中都含有K条轨迹的时候结束。 最后,把不在匿名区域的点在最小的信息扭曲的前提下,移动到匿名区域之内(匿名半径是可以指定的,在试验中,看到最小的半径大概是200m),k delta匿名完成了。 [Abul ICDE’08]

17 Pros and cons Pros It exploits the inherent uncertainty of location in order to reduce the amount of distortion needed to anonymize data; It is a simple, efficient and effective method. Cons It assumes a uniform uncertainty level, in some applications it is not suitable; Due to the limitation of the uncertainty level, distortion grows rapidly when K is larger. 小结一下。 这个方法的最大创新之处在于,它提出了利用GPS设备的不精确性进行匿名,减少扭曲度。 简单且有效 当然,也有一些不足之处。它假定了所有轨迹的不精确性是相同的,这在某些情况下并不合适。 看了它的实验,效果并不是非常的好,当k稍微大一点的时候,比如k=4时,信息扭曲度迅速上升。

18 Towards trajectory anonymity
Motivation To improve the utility of the published data Most data mining and statistical applications work on atomic trajectory Procedure Trajectory grouping Logic cost metric K-Anonymity Reconstruction 这个方法和上面的方法一样,也是一个在数据发布中,对整条轨迹进行匿名的方法。 很多数据分析都是针对一条条原子轨迹进行的,因此,对于数据挖掘和数据分析来说,发布一个匿名区域远远不如发布一条条原子轨迹更实用。 这种方法就迎合了这种需求,前面的过程和其它匿名方法类似,都是进行一些分组,匿名。但是这个方法再最后有一个亮点,就是选择一些点就行随机的重构。 [Nergiz TDP’09]

19 An Example Anonymization tr* and tr3 Anonymization tr* of tr1 and tr2
看一个简单的例子。 有3条轨迹,按照距离小的先进行匿名的原则,先把其中的两条进行匿名,也就是在每个采样点找出它们的MBR即可。匿名完成后,匿名区域形成一条新的轨迹和第三条轨迹进行匿名。三条轨迹全部匿名完成之后,每个采样点形成一个匿名区域。之后,在每个采样点匿名区域上随机选择一些点,重构三条轨迹。最后发布的是重构的三条轨迹。 可以看出,由于是在匿名区域内随机选择点进行重构,即使发布的轨迹都不是真实轨迹,那么数据的可用性并不会降低多少。 Randomly select points Reconstruction Complete [Nergiz TDP’09]

20 Conclusions Trajectory data privacy preserving in data publication has been widely studied. Several methods are proposed in trajectory data privacy preserving, most of them come from privacy preserving in data publication. Challenges lies in privacy preserving in high frequency sampling while providing high quality of data utility. 对在轨迹数据发布中隐私保护的解决方法做一个小结 首先,在这类方法上已经有不少的研究工作了,涉及到隐私保护的各种方法都有研究。 大部分方法都是根据轨迹数据的特点,改动了一些数据发布中隐私保护的方法 最后,对于这类研究问题的挑战,我认为,在于在高频率采样的轨迹上进行隐私保护,同时保证较好的数据可用性是最大的问题。

21 Scenario #2 LBS ITS Trajectory data mining Trajectory data outsourcing

22 Solutions #2 overview Protecting trajectory data privacy against attackers in the following aspects Protecting trajectory privacy against non- trustworthy LBS server Protecting users’ privacy when acquiring LBS services, such as sending queries. Protecting data privacy while providing high quality of services. 先看一下这个场景下面临的问题和研究的目的。 在这个应用场景中,假定LBS服务器是不可信的,它有可能暴露用户的位置信息,因此,需要对轨迹上各个采样位置的信息进行保护 其次,LBS服务器也有可能暴露用户的查询隐私。 最后,在进行隐私保护的同时,还要取得好的服务质量,否则单纯进行隐私保护没有什么意义。 MOB’ privacy QoS

23 Navigational path privacy protection
User queries Mr.Q is going to a psychiatrist , he may have some psychopathic ward Motivation Navigational path query is one of the most popular LBS, which determines a route from a source to a destination Issuing path queries to some non-trustworthy service providers may pose privacy threats Service providers Queries How to get to the psychiatrist from home? Results 先看第一种方法,这种方法能保证用户的针对轨迹查询的隐私。 在LBS中有一个典型的应用,就是查找路径. 比如Mr.Q想要通过LBS服务查询从他家到精神病诊所怎么走。于是,他就像LBS发出了一个查询。 攻击者有可能从不可信的LBS服务器获取Mr.Q的查询,从而推断他可能患有某种精神疾病,于是Mr.Q的隐私泄露了。 [Lee CIKM’09]

24 Navigational path privacy protection(cont’)
Solutions Landmark: replace both source and destination of a path query Q(s, t) to with other locations, thus resulting in another path query Q(s’, t’) Cloaking: it may cloak both the source and destination into locations at the same street level, the result may be irrelevant. 有一些解决方法,但是都不可行,就不具体说了 一些不可行的方案,比如对出发点和目的地发送假位置,但最后返回的结果和发送的查询无关,因此不可行。。 不具体说了。 [Lee CIKM’09]

25 Navigational path privacy protection(cont’)
Solutions Obfuscate a path query by injecting some fake sources and destinations Three methods Independent obfuscate path query Shared obfuscate path query Anti-collusion path query S s Mr.Q ’s home 可行的方案。在进行路径查询时,把出发点和目的地分别作为一个集合再发送查询。这个集合是由什么构成的呢? 这是这个方法的研究关键所在。 根据不同的集合产生方式,产生了三种方法,分别是 独立法、共享法、以及反勾结法 T Clinic t [Lee CIKM’09]

26 System overview [Lee CIKM’09]
Independent obfuscate query : Obfuscate one independent path queries by randomly inject fake locations S={sA, s1}, T={tA, t1, t2} Pb=1/2*3=1/6 Shared obfuscate query: Obfuscate two or more path together with injecting fake locations. S={sA, s1, sB}, T={tA, t1, t2, tB} Pb=1/3*4=1/12 这个图是该方法依赖的架构。 LBS用户发送的查询,首先经过一个扰乱器将查询从点对点查询变成集合到集合的查询。 然后再发送给LBS服务器进行查询,将所有的查询结果返回给一个过滤器,过滤器将过滤后的用户需要的查询结果返回给用户,处理结束。 前面提到的三种扰乱方法就是用在扰乱器当中的。 首先,第一种方法,就是随机的产生一些假位置放在出发点和目的地的集合中,这样,查询1条轨迹,就变成了查询6条轨迹,相应的,披露风险降低到了1/6 这种方法效率很低,6个查询中只有一个查询是真实的。因此出现了共享法。 A和B在相近的时间段内发出了查询,那么就让A和B在同一个查询集合中,这样,在披露风险为1/12的情况下就可以满足两个用户的查询了。 同样,问题又产生了,如果S1也是一个真实用户的查询,那么A和B与LBS如果相互勾结,互相知道对方的查询,那s1的查询也就暴露了。因此提出了第三种反勾结的方法。反勾结的方法其实是对效率和披露风险的一个折中方法。其又添加了一些假查询,使得在最坏的情况下,也就是k-1个真实用户相互勾结,那么第k个客户还是可以保证披露风险满足要求。可以看出,在最坏的情况下,如果A和B勾结,S1的披露风险还是可以达到1/6 Anti-collusion obfuscate query: Injecting more fake locations in order to get a low breach probability. S={sA, s1, s2, sB}, T={tA, t1, t2 t2, tB} Pbmin=1/4*5=1/20; Pbmax=1/2*3=1/6 [Lee CIKM’09]

27 Pros and Cons Pros Developed a framework to obfuscate path queries in order to protect mobile users’ trajectory privacy Mixing some fake sources and destinations greatly reduced the breach probability Cons Provide weak privacy protection when the adversary have strong background knowledge 小结一下这个方法。 首先,他可以在LBS中保护路径查询的隐私,这也是该方面的第一个工作。通过简单的方法就可以使披露风险降低,这是它的另外一个优点。 缺点还是一样的,由于出发点和目的地有可能是假位置,攻击者一旦知道你的出发地或者目的地的话,披露风险就增大了。

28 Cut-Enclose Motivation
Problems with existing methods Motivation Overlapping of trajectory anonymity rectangles may cause location privacy linkage Simply cut and enclose methods may cause privacy leakage in the joint of grids [ti-1,ti] [ti,ti+1] [ti+1,ti+2] Problems with simple cut-enclose 下面这两种方法没有针对LBS服务,但是也是online隐私保护很容易和LBS结合,所以我也把他们归结到这一类中了。 前面讲的是对于整条轨迹的匿名,那么,整条轨迹的匿名有什么缺点呢? 假如a-b是Mr.Q每天上下班的运行轨迹。 第一天,他的轨迹和其它轨迹形成的匿名框是Ra,第二天形成的是Rb,第三天是Rc.那么把这三个匿名框相交,重叠的部分就是Mr.Q每天要走的一段路,轨迹就暴露了。 这样的话,可以把轨迹分成一个个的段落进行匿名,每一段都有一个匿名框,那么就不会因为相交而暴露整条轨迹了。 但是,简单的将轨迹分片匿名的话,会在发布匿名框的时刻暴露当前的位置。如果一个移动对象刚运动出上一个匿名框,就发布下一个匿名框,那么根据上一个匿名框的位置和大小就可以知道这个时刻移动对象的大概位置了。 因此,发布下一个时刻的匿名框需要一个时间延迟,等移动对象走过了足够多的面积再发布这个时刻的匿名框。这个时间延迟参数是这样确定的:在R*中的概率小于被识别的最大概率即可。 Time delay factor [Gidofalvi MDM’07]

29 Cut-Enclose(cont’) Procedure
Users set privacy levels (individual privacy level/region sensitive level); Separate 2D space into grids; According to user specified individual privacy level (CRP /IRP)or region sensitive level(IIR), combine girds into partitions; Anonymize trajectory pieces in each partition with time delay factor. Common Regular Partitioning Individual Regular Partitioning Individual Irregular Partitioning 有了时间延迟参数的保证,就可以对轨迹进行分片匿名了。 首先将移动对象运行的2维空间划分成一些grid,再由几个Grid组成一个partition,那么这个partition就是匿名轨迹片段匿名框了。 划分好了之后,将在这个  区域运行的移动对象的轨迹分在每一个匿名框中。 从一个匿名框跨到另一个匿名框时,需要加入时间延迟参数来保证不暴露边界处的位置隐私。最后,完成匿名。 不同的用户可以根据自己对隐私保护度的不通要求,对区域有不同的划分,比如,也可以4个格子组成一个匿名框 不同的区域隐私度也不通,所以,不同的地域也可以有不通的划分。 Anonymized trajectory [Gidofalvi MDM’07]

30 Anonymity with historical data
Motivation Existing cloaking methods highly depend on the network density ; Existing methods are not suitable for time-series sequence The cloaking box form a trajectory that may disclose a user’s trajectory. ? 下面讲另外一个方法。 之前的方法都是和当前时间段内的用户进行匿名,匿名是否成功很大程度上依赖于道路的稠密度,如果达不到用户设定的隐私级别,那么会匿名失败,或者使匿名框非常大,影响服务质量。 另外,即使在每一个时刻都发布一个成功的匿名框,那么这些匿名框连接起来,还是会暴露移动对象的大致轨迹。 基于上述两个问题,这个方法就提出了用历史数据和用户将要行进的轨迹进行匿名来保护用户的轨迹隐私。 这个图上,黑色的轨迹是移动对象将要运行的轨迹 灰色和白色的轨迹是在这个区域内,之前有一些移动对象留下的轨迹。 历史轨迹是收集到的存储在轨迹数据库当中的。 下面讲述一下如何与历史数据匿名。 [Toby INFOCOM’08]

31 Anonymity with historical data(cont’)
Procedure Clocking one additive trajectory 1. Select a pivot for each footprint; 2. Choose the one with the smallest MBC and index No. as the next pivot; 3. Until all trajectory points of the base trajectory is all anonymized. Cloaking K-1 additive trajectory Liner: the cloaking result is considered as a new base trajectory T0 2. Quadratic: the selection of the new trajectory is based on its distance to T, not T0 首先,先看移动用户的轨迹和一条轨迹的匿名。 T0是真实用户的运行轨迹,Ta是以前用户留下的轨迹。 首先,为点c1在另一条轨迹上找到一个MBC,最小边界原型,形成一个匿名,然后依次为每一个真实轨迹上的点寻找一个MBC,完成匿名。如果两个MBC大小相同 ,选择号码较小的一个形成MBC。最后完成和一条轨迹的匿名。 然后,产生的这个2-匿名的轨迹作为T0,再和距离第二近的一条轨迹来进行匿名。 C2 C4 C1 C3 c1 c2 c3 c4 T0 a1 a2 a3 a4 a5 a6 a7 a8 Ta b1 b2 b3 b4 b5 b6 b7 Tb [Toby INFOCOM’08]

32 Senario #3 Trajectory data mining LBS Trajectory data outsourcing ITS

33 Privacy preserving traffic monitoring
Motivation GPS-equipped vehicles send their location info to traffic monitoring center in a regular frequency The location traces might reveal sensitive places that drivers have visited 在智能交通的网络中,有前端数据采集设备、网络传输、监控中心等三大部分组成。 [Hoh MobiSys’08]

34 Privacy preserving traffic monitoring(cont’)
Key Idea Minimizing tracking time reduces the risk that an adversary can correlate an identity with sensitive locations Method A time-to-confusion level An uncertainty level 在ITS中,假定监控中心不可信,攻击者可以得到监控中心的轨迹信息。那么,当一个攻击者跟踪一条轨迹的时间越长,他能发现这条轨迹上的敏感信息,或者其他信息的概率就越大。 那么,根据这种观察结果,设定一个confution time,也就是说,到达这个时间限制之后,就需要进行抑制下一个点了。 还有一种情况是当一条轨迹的周围有很多其它轨迹的时候,确定某个敏感位置属于某一条轨迹就有一定的不确定性了 因此又设定了一个不确定性限制,如果识别一个位置是否在一个轨迹之上的概率小于这个不确定性的限制,那么,即使这个点时应该被抑制的点,也可以不抑制了 [Hoh MobiSys’08]

35 Conclusions Trajectory data privacy preserving in online applications are necessary, no dominant methods exists to solve this problem. Challenges lies in the current trajectory privacy preserving without location privacy leakage while providing high quality of online services. 小结一下在LBS中轨迹隐私保护的方法。 首先,在LBS中进行隐私保护非常必要,然而,研究工作并不多。 在不泄露位置隐私的情况下,对在线应用实时保护轨迹隐私确实是一个很有挑战的工作。保证实时性同时保证较高的服务质量是一个很大的挑战。

36 Scenario #4 Trajectory data mining LBS Trajectory data outsourcing ITS

37 Solutions #2 overview Motivation Cloud emerges as a new way of DaaS;
More and more agencies are moving their data to the cloud, they worried the privacy and security in the cloud; Privacy protection in the cloud is necessary. 云计算已逐渐成为数据外包的一种流行方式,越来越多的数据拥有者愿意把数据交迁移到云上,但是担心的是云是不是足够的安全和足够私密。 于是,云计算上的隐私保护研究出现了。 Dark Cloud Green Cloud [Xu Proposal’10]

38 Privacy Threats in the Cloud
Users’ Query Privacy Eg. Mr.Q want to protect his query against the Cloud, since his query is about mental disease Data Privacy of the Data Owner Mutual Privacy Semi-honest model Cloud Data Owner Data Query Results 那么,在云计算上有哪些隐私泄露的风险呢? 交互隐私是指在半安全模型中出现的一种隐私泄露。三个参与方都按自己的协议运行,但是任何一方都可以保留中间结果,推导出第三方的信息。 [Xu Proposal’10]

39 Main Framework The Cloud decrypted Ec(E(i)) to get Ec(i), return it to the client. [Xu Proposal’10] Data Owner encrypts the database R and sends it to the Cloud 在这个架构中,有三个参与方,数据提供者、查询用户以及云数据库系统。 初始化阶段,数据提供方在自己的数据上构建一个索引,同时将自己的数据用R加密之后发送给云数据库系统保护。 然后,数据提供者将加密的索引发送给查询用户,同时,将解密函数S-1发给查询用户。 查询用户在影子索引上进行检索,找到想要的节点,再次加密后给云计算系统。 云计算系统解密一次,将结果查询出来返回给用户,用户在本地用自己的密钥解密,得到数据。 Data Owner sends a shadow index E(I) and S-1() to the client, and sends E-1() to the Cloud for the following processing E(i) is retrieved locally and encrypts as Ec(E(i)), then sent back to the Cloud for decryption If it is a leaf node, decrypt it with S-1(), get the result. If it is not a leaf node, get the next i

40 Research issue Efficient Privacy-Preserving Query Processing Techniques Challenges lie in those complex queries, especially queries that are based on distances. Typical examples like k-nearest neighbor (kNN) Privacy-Aware Query Result Authentication Techniques If the cloud is malicious or does not follow the protocol faithfully, there is a need for the client to authenticate the correctness of query results Cloud “Nearest Clinic” Results 上面的架构比较复杂,简单来说,就像这张图,云数据上加了两层锁,其中一层锁云自己有钥匙,另外一个锁的钥匙在用户端。 用户用同样加了密的查询在云平台上进行查询,那么这种加密的模式是否支持基于距离的查询就是要研究的一个关键问题。 如果外包的是轨迹数据,那么基于距离的查询时常用查询,因袭,需要设计一种加密模式,支持基于距离的查询。 这是研究第一点 第二点就是查询结果认证技术的研究。这个是实验室之前做的很好的工作,我就不具体说了。 [Xu Proposal’10]

41 OUTLINE Motivating Applications
Privacy-preserving in different scenarios Conclusions & Future work

42 CONCLUSIONS This survey discussed trajectory data privacy preservation techniques For online trajectory data privacy preservation, service is centric, trade-off is between QoS and privacy preservation For offline trajectory data privacy preservation, data is centric, trade-off is between data quality and privacy preservation Most of the techniques deals with this problem in free space, and most of them are offline algorithms 我的调研报告分四个应用场景,针对不同应用场景的特点,简单介绍了不同应用场景的解决方法。 大部分的方法都是在自由空间中进行的,没有基于路网的限制。这也是今后可以研究的工作。

43 FUTURE WORK ○ Trajectory data protection in online applications
○ Complete the survey in following aspects: Privacy preserving in time-series data. Privacy preserving in outsourcing data. …… ○ Trajectory data protection in online applications ● Trajectory data protection in data publication / data outsourcing ITS/LBS Trajectory data outsourcing 这是我未来的工作展望: 首先对survey的完善工作。这个survey做的不是很强全面,还有一些内容没有加进来。比如针对时序数据的隐私保护,轨迹数据本质上就是时序数据。找到一篇论文还没来的及看,以后会完善一下 另外,在轨迹外包数据隐私保护中,没有研究工作,但是在外包数据库隐私保护中有一些研究工作,这部分要引入进来。 对于未来的研究工作主要按照survey的思路展开,重点集中在研究工作较少的ITS和轨迹数据外包当中。

44 References G.Gidofalvi, X. Huang, and T. B. Pedersen. Privacy-Preserving Data Mining on Moving Object Trajectories, In proceedings of MDM’07, 2007 J. Krumm. Inference attacks on location tracks. In Proceedings of the 5th International Conference on Pervasive Computing (Pervasive 2007), May 2007. M. Terrovitis, and N. Mamoulis. Privacy Preserving in the Publication of Trajectories. In proceedings of MDM’08, 2008 A.Gkoulalas-Divanis, V.S.Verykios. A Privacy-Aware Trajectory Tracking Query Engine. In proceedings of SIGKDD 2008. Mehmet Eran Nergiz, Maurizio Atzori, Yucel Saygin, Baris Guc. Towards Trajectory Anonymization: a Generalization-Based Approach. IEEE Transactions on Data Privacy 2(2009) Tun-Hao You, Wen-Chih Peng, Wang-Chien Lee. Protecting Moving Trajectories with Dummies. In proceedings of PALMS 2007. Kido H., Yanagisawa Y., Satoh T..An anonymous communication technique using dummies for location based services. In proceedings of ICPS 2005 O. Abul, F. Bonchi, and M. Nanni. Never Walk Alone: Uncertainty for Anonymity in Moving Objects Databases. In proceeding of ICDE 2008. G.Ghinita. Private Queries and Trajectory Anonymization: a Dual Perspective on Location Privacy. Transactions on Data Privacy 2009(3-19). V. Rastogi, S. Nath. Differentially Private Aggregation of Distributed Time-Series with Transformation and Encryption. In proceedings of SIGMOD ’10, 2010. T. Xu, Y. Cai. Exploring Historical Location Data for Anonymity Preservation in Location-based Services. In Proceedings of INFOCOM’08, 2008. K. C. K. Lee, W. Lee, H.Va Leong, B.Zheng. Navigational Path Privacy Protection. In Proceedings of CIKM’

45 References(cont’) A. Gkoulalas-Divanis, V.S. Verykios, M. F. Mokbel. Identifying Unsafe Routes for Network-Based Trajectory Privacy. In Proceedings of SPC’ O. Abul, M. Atzori, F. Bonchi, F. Giannotti. Hiding Sensitive Trajectory Patterns. In Proceedings of ICDMW’07, 2007. M. Gruteser, X. Liu. Protecting Privacy in Continuous Location-Tracking Applications. In IEEE Security and Privacy, 2004. X. Pan, X. Meng, J.Xu. Distortion-based Anonymity for Continuous Queries in Location-Based Mobile Services. In Proceedings of SIGGIS’09, 2009. S.Mukherjee , Z. Chen, A. Gangopadhyay. A privacy-preserving technique for Euclidean distance- based mining algorithms using Fourier-related transforms. InVLDB Journal (2006) 15:293–315 B. Hoh, M. Gruteser, H.Xiong, A. Alrabady. Preserving Privacy in GPS Traces via Uncertainty- Aware Path Cloaking. In proceedings of CCS’07, 2007

46 Thanks for your time! I got your interests~ Q&A


Download ppt "Privacy-preserving of Trajectory Data : A Survey"

Similar presentations


Ads by Google