On method-specific record linkage for risk assessment Jordi Nin Javier Herranz Vicenç Torra.

Slides:

Advertisements

Similar presentations

Is Random Model Better? -On its accuracy and efficiency-

Advertisements

Estimating Identification Risks for Microdata Jerome P. Reiter Institute of Statistics and Decision Sciences Duke University, Durham NC, USA.

The methodology used for the 2001 SARs Special Uniques Analysis Mark Elliot Anna Manning Confidentiality And Privacy Group ( University.

Pseudo-Relevance Feedback For Multimedia Retrieval By Rong Yan, Alexander G. and Rong Jin Mwangi S. Kariuki

Introduction Simple Random Sampling Stratified Random Sampling

Clustering k-mean clustering Genome 559: Introduction to Statistical and Computational Genomics Elhanan Borenstein.

Sequential Three-way Decision with Probabilistic Rough Sets Supervisor: Dr. Yiyu Yao Speaker: Xiaofei Deng 18th Aug, 2011.

1 Measures of Disclosure Risk and Harm Measures of Disclosure Risk and Harm Diane Lambert, Journal of Official Statistics, 9 (1993), pp Jim Lynch.

Confidentiality risks of releasing measures of data quality Jerry Reiter Department of Statistical Science Duke University

Ch2 Data Preprocessing part3 Dr. Bernard Chen Ph.D. University of Central Arkansas Fall 2009.

Decision Trees and MPI Collective Algorithm Selection Problem Jelena Pje¡sivac-Grbovi´c,Graham E. Fagg, Thara Angskun, George Bosilca, and Jack J. Dongarra,

Combining Classification and Model Trees for Handling Ordinal Problems D. Anyfantis, M. Karagiannopoulos S. B. Kotsiantis, P. E. Pintelas Educational Software.

Decision Tree Approach in Data Mining

Clustering: Introduction Adriano Joaquim de O Cruz ©2002 NCE/UFRJ

SDC for continuous variables under edit restrictions Natalie Shlomo & Ton de Waal UN/ECE Work Session on Statistical Data Editing, Bonn, September 2006.

1 A Common Measure of Identity and Value Disclosure Risk Krish Muralidhar University of Kentucky Rathin Sarathy Oklahoma State University.

T OWARDS P RIVACY -S ENSITIVE P ARTICIPATORY S ENSING K.L. Huang, S. S. Kanhere and W. Hu Presented by Richard Lin Zhou.

Record Linkage Simulation Biolink Meeting June Adelaide Ariel.

Assessing Disclosure Risk in Sample Microdata Under Misclassification

Metrics, Algorithms & Follow-ups Profile Similarity Measures Cluster combination procedures Hierarchical vs. Non-hierarchical Clustering Statistical follow-up.

Autocorrelation and Linkage Cause Bias in Evaluation of Relational Learners David Jensen and Jennifer Neville.

Anonymization Algorithms - Microaggregation and Clustering Li Xiong CS573 Data Privacy and Anonymity.

An Approach to Evaluate Data Trustworthiness Based on Data Provenance Department of Computer Science Purdue University.

Minimum Spanning Tree Partitioning Algorithm for Microaggregation

Mutual Information Mathematical Biology Seminar

© University of Minnesota Data Mining for the Discovery of Ocean Climate Indices 1 CSci 8980: Data Mining (Fall 2002) Vipin Kumar Army High Performance.

Speaker Clustering using MDL Principles Kofi Boakye Stat212A Project December 3, 2003.

Localization from Mere Connectivity Yi Shang (University of Missouri - Columbia); Wheeler Ruml (Palo Alto Research Center ); Ying Zhang; Markus Fromherz.

1 Privacy Protection with Genetic Algorithms 報告者：林惠珍運用基因演算法來作隱私保護.

A Measure of Disclosure Risk for Fully Synthetic Data Mark Elliot Manchester University Acknowledgements: Chris Dibben, Beata Nowak and Gillian Raab.

MOLLA HUNEGNAW STATISTICIAN AFRICAN CENTRE FOR STATISTICS ECASTATS.UNECA.ORG Confidentiality and Anonymization of Microdata 1 United Nations Regional Seminar.

1 Numerical Data Masking Techniques for Maintaining Sub-Domain Characteristics Krish Muralidhar University of Kentucky Rathindra Sarathy Oklahoma State.

Microdata Simulation for Confidentiality of Tax Returns Using Quantile Regression and Hot Deck Jennifer Huckett Iowa State University June 20, 2007.

The Application of the Concept of Uniqueness for Creating Public Use Microdata Files Jay J. Kim, U.S. National Center for Health Statistics Dong M. Jeong,

by B. Zadrozny and C. Elkan

Intruder Testing: Demonstrating practical evidence of disclosure protection in 2011 UK Census Keith Spicer, Caroline Tudor and George Cornish 1 Joint UNECE/Eurostat.

Disclosure Avoidance: An Overview Irene Wong ACCOLEDS/DLI Training December 8, 2003.

Neural Networks for Data Privacy ONN the use of Neural Networks for Data Privacy Jordi Pont-Tuset Pau Medrano Gracia Jordi Nin Josep Lluís Larriba Pey.

Data Reduction. 1.Overview 2.The Curse of Dimensionality 3.Data Sampling 4.Binning and Reduction of Cardinality.

Assessing Disclosure for a Longitudinal Linked File Sam Hawala – US Census Bureau November 9 th, 2005.

The use of protected microdata in tabulation: case of SDC-methods microaggregation and PRAM Researcher Janika Konnu Manchester, United Kingdom December.

Exploiting Context Analysis for Combining Multiple Entity Resolution Systems -Ramu Bandaru Zhaoqi Chen Dmitri V.kalashnikov Sharad Mehrotra.

WP 19 Assessment of Statistical Disclosure Control Methods for the 2001 UK Census Natalie Shlomo University of Southampton Office for National Statistics.

MS Clustering Chapters15_to_17_Part5. What is it  Clustering is the classification of objects into different groups, or more precisely, the partitioning.

New Measures of Data Utility Mi-Ja Woo National Institute of Statistical Sciences.

Using Targeted Perturbation of Microdata to Protect Against Intelligent Linkage Mark Elliot, University of Manchester Cathie.

Optical Network Security Daniel Stewart. Preliminary work Dijkstra's Algorithm Dijkstra's algorithm, is a graph search algorithm that solves the single-

European Conference on Quality in Official Statistics, Rome, July 2008 Community Innovation Survey: a Flexible Approach to the Dissemination of Microdata.

Creating Open Data whilst maintaining confidentiality Philip Lowthian, Caroline Tudor Office for National Statistics 1.

Disclosure Analysis: What do RDC Analysts do? Research Data Centre Program, Statistics Canada James Chowhan Ontario DLI Training, Queen's University

Privacy-preserving data publishing

Microdata masking as permutation Krish Muralidhar Price College of Business University of Oklahoma Josep Domingo-Ferrer UNESCO Chair in Data Privacy Dept.

© Tan,Steinbach, Kumar Introduction to Data Mining 4/18/ Data Mining: Cluster Analysis This lecture node is modified based on Lecture Notes for Chapter.

1 Random Walks on the Click Graph Nick Craswell and Martin Szummer Microsoft Research Cambridge SIGIR 2007.

Learning Kernel Classifiers 1. Introduction Summarized by In-Hee Lee.

Management Science 461 Lecture 7 – Routing (TSP) October 28, 2008.

Chapter Seventeen Copyright © 2004 John Wiley & Sons, Inc. Multivariate Data Analysis.

Color Image Segmentation Mentor : Dr. Rajeev Srivastava Students: Achit Kumar Ojha Aseem Kumar Akshay Tyagi.

Combinations of SDC methods for continuous microdata Anna Oganian National Institute of Statistical Sciences.

Transforming Data to Satisfy Privacy Constraints 컴퓨터교육 전공 032CSE15 최미희.

Reconciling Confidentiality Risk Measures from Statistics and Computer Science Jerry Reiter Department of Statistical Science Duke University.

Methods of multivariate analysis Ing. Jozef Palkovič, PhD.

Privacy Issues in Graph Data Publishing Summer intern: Qing Zhang (from NC State University) Mentors: Graham Cormode and Divesh Srivastava.

Data Transformation: Normalization

Predict Failures with Developer Networks and Social Network Analysis

Design of Hierarchical Classifiers for Efficient and Accurate Pattern Classification M N S S K Pavan Kumar Advisor : Dr. C. V. Jawahar.

Algorithms for Budget-Constrained Survivable Topology Design

Clustering The process of grouping samples so that the samples are similar within each group.

CS573 Data Privacy and Security Anonymization methods

Presentation transcript:

On method-specific record linkage for risk assessment Jordi Nin Javier Herranz Vicenç Torra

2  Disclosure Risk Scenario: How an intruder re-identifies an individual  Preliminaries: Protection methods and Record Linkage  Location record linkage: A new way to compute the disclosure risk  Conclusions and future work: On method-specific record linkage for risk assessment Contents

3 Disclosure Risk Scenario Preliminaries Location Record Linkage Conclusions and future work

4 On method-specific record linkage for risk assessment Disclosure Risk Scenario X n a Attribute classification Identifiers: Passport number Quasi-Identifiers: Age, postal code Confidential: Income idSex Marital status Income Male... Single … …

5 On method-specific record linkage for risk assessment Disclosure Risk Scenario Re-identification scenario X = id || X nc || X c X’ = X’ nc || X c Privacy is ensured, quasi-identifiers are anonymized Data quality is preserved, confidential attributes are preserved

6 On method-specific record linkage for risk assessment Disclosure Risk Scenario Data set 1Data set 2 X 1 X 2 X 3 X 4 X’ 1 X’ 2 X’ 3 X’ 4 Problem: Find a correct mapping between data file 1 and data file 2 Record Linkage

7 On method-specific record linkage for risk assessment Disclosure Risk Scenario Distance based Record linkage Probabilistic Record linkage The nearest pairs of record are considered as linked pairs It is very easy to tune Results very dependent of the parameters Moderated time cost Linked pairs are computed using conditional probabilities Tuning is difficult Few parameters High time cost

8 Disclosure Risk Scenario Preliminaries Location Record Linkage Conclusions and future work

9 On method-specific record linkage for risk assessment Preliminaries Rank swapping - p Algorithm For all attr j where 1  j  n Attr j is sorted all values x ij are swapped with x il where i < l  l+p Sorting Attr j is reversed End for End algorithm Simple Preserve µ and  All combinations disappear

10 On method-specific record linkage for risk assessment Preliminaries Rank swapping - p example p = 20%

11 On method-specific record linkage for risk assessment Preliminaries Microaggregation - k a k a a a k k k a = 1  Optimal a > 1, NP-Hard  Heuristic k=3

12 On method-specific record linkage for risk assessment Preliminaries Optimal univariate Microaggregation Result 1. When the elements are sorted according to an attribute, for any optimal partition, the elements in each cluster are contiguous (non overlapping clusters exist) Result 2. All clusters of any optimal partition have between k and 2k-1 elements. x1x1 x2x2 x3x3 x4x4 k = 2 Clusters are built using the nodes of the shortest path algorithm

13 On method-specific record linkage for risk assessment Preliminaries MDAV Microaggregation k=2 XX’ MDAV is multivariate heuristic microaggegation

14 On method-specific record linkage for risk assessment Preliminaries Score: Protection method evaluation Score = 0.5 IL DR IL = 100(0.2 IL IL IL IL IL 5 ) IL 1 = mean of absolute error IL 2 = mean variation of average IL 3 = mean variation of variance IL 4 = mean variation of covariancie IL 5 = mean variation of correlation DR = 0.25 DLD+0.25 PLD+0.5 ID DLD = number of links using DBRL PLD = number of links using PRL ID = protected values near orginal

15 Disclosure Risk Scenario Preliminaries Location Record Linkage Conclusions and future work

16 On method-specific record linkage for risk assessment Location Problem Desciption L-RL: Location Record Linkage Standard record linkage compares all records Rank swapping, univariate microaggregation and other methods only use some original records to create the protected data set It is unnecessary to compare all the records

17 On method-specific record linkage for risk assessment Location record linkage Method Description X ext X’

18 On method-specific record linkage for risk assessment Location record linkage Example: Rank swapping P=20% Distance

19 On method-specific record linkage for risk assessment Location record linkage Rank Swapping Experiments Data sets: Census (1080 records & 13 attributes) EIA (4092 records & 10 attributes) Rank swapping configurations: p = 2 … 20 Score modifications: DR = LLD DLD PLD+ 0.5 ID

20 On method-specific record linkage for risk assessment Location record linkage L-RL: Rank Swapping Linkage Results

21 On method-specific record linkage for risk assessment Location record linkage L-RL: Rank Swapping Score Results

22 On method-specific record linkage for risk assessment Location record linkage Univariate Microaggregation Experiments Data sets: Census (1080 records & 13 attributes) EIA (4092 records & 10 attributes) Univariate microaggregation configurations: k = 10 … 50 Score modifications: DR = LLD DLD PLD+ 0.5 ID

23 On method-specific record linkage for risk assessment Location record linkage L-RL: Univariate Microaggregation Linkage Results

24 On method-specific record linkage for risk assessment Location record linkage L-RL: Univariate Microaggregation Score Results

25 On method-specific record linkage for risk assessment Location record linkage MDAV Experiments Data sets: Census (1080 records & 13 attributes) EIA (4092 records & 10 attributes) Univariate microaggregation configurations: k = 10 … 50 Score modifications: DR = LLD DLD PLD+ 0.5 ID

26 On method-specific record linkage for risk assessment Location record linkage L-RL: MDAV Linkage Results

27 On method-specific record linkage for risk assessment Location record linkage L-RL: MDAV Score Results

28 Disclosure Risk Scenario Preliminaries Location Problem Description Location Record Linkage Conclusions and future work

29 On method-specific record linkage for risk assessment Conclusions and future work We have presented a new type of record linkage designed to exploit the limitations of some protection methods L-RL method obtains a more accurate DR evaluation for rank swapping and univariate microaggregation MDAV is immune to the location problem Conclusions We plan to study the DR of MDAV and other protection methods using other ad-hoc methods Future work

On method-specific record linkage for risk assessment Jordi Nin Javier Herranz Vicenç Torra