Las empresas que procesan datos personales a menudo tienen que ‘anonimizarlos’ para poder sacar conclusiones o comercializarlos
Un estudio publicado en la revista Nature anuncia que los algoritmos empiezan a hacer deducciones complejas que permiten identificar a personas a través del rastro que dejan
El rastro que dejamos al comprar, al ir al médico o al usar cualquier aplicación del móvil va trazando nuestra personalidad online. Las empresas que controlan esos datos tienen limitaciones por ley, y en muchos casos para procesar y comercializarlos tienen que anonimizarlos. ‘Anonimizar’ significa desvincular el rastro de la identidad para poder sacar conclusiones o comercializar los datos agregados sin poner en riesgo la privacidad. En pocas palabras: anonimizar supondría quitar en muchos casos las columnas de la hoja de cálculo en las que aparece nuestro DNI, nuestro nombre, los años que tenemos o el lugar en el que vivimos. Por ejemplo, una aseguradora puede eliminar el nombre, los apellidos, los emails y los números de teléfono de alguien cuando vende a un fabricante de coches los datos sobre qué accidentes son más habituales.
Sin embargo, unos investigadores han demostrado que esos datos ocultos podrían ser recuperados de forma sencilla usando técnicas de aprendizaje automático. Los autores del estudio pertenecen a la Universidad de Lovaina (Bélgica) y, junto con otros compañeros del Imperial College London han demostrado, utilizando ingeniería inversa, que es fácil revertir el proceso e identificar personas en función del rastro que han dejado. Han publicado el estudio en la revista Nature. Las máquinas ya saben jugar al Quién es quién.
A partir de un algoritmo de su creación, los dos equipos consiguieron estimar la probabilidad que tiene alguien que aparece en una base de datos anonimizada para ser identificado de nuevo. Han creado la herramienta a partir de 210 bases de datos procedentes de cinco fuentes diferentes, entre las que se encuentra el censo de los EEUU y un repositorio destinado a los investigadores que trabajan con técnicas de machine learning (aprendizaje automático), el UCI.
El algoritmo aprendió qué combinaciones son más frecuentes y cuales menos, y luego asignó una probabilidad para la correcta identificación de un individuo. Aunque han habilitado una web para probar la herramienta, es necesario introducir el país de residencia. Al utilizar la base de datos del censo estadounidense y el UCI, que contiene registros de residentes en Reino Unido, nadie que no viva en alguno de estos dos países puede jugar a ser Dios con los datos.
Revertir el anonimato de 7 millones de personas
La herramienta de los investigadores solo pide que el usuario introduzca su fecha de nacimiento, su código postal y si es hombre o mujer. De forma general, con estas tres características, alguien que viva en EEUU o Reino Unido puede ser correctamente identificado en una base de datos anonimizada el 81% de las veces. La precisión depende de lo grande o pequeña que sea la población, de tal forma que con bases de datos grandes el número disminuye mientras que con bases de datos pequeñas la fiabilidad aumenta. «A medida que la información se acumula, las opciones de que no seas tú decrecen rápidamente», explica Yves-Alexandre de Montjoye, uno de los investigadores del Imperial College London.
El algoritmo es preciso y le da igual que haya miles que millones de entradas. «No llevaría demasiado tiempo identificar a todos los que viven en Harwich Port, Massachusetts, una ciudad de menos de 2.000 habitantes», dicen en el informe. El modelo funciona incluso con una base de datos cercana a los 7 millones, algo más de la población total que vive en el estado norteamericano. Usando 15 variables demográficas, el algoritmo consiguió identificar a los habitantes de Massachusetts al 99,98%.
Los autores del estudio se quejan de cómo de fácil es volver a recuperar los datos previamente anonimizados y sostienen que ni siquiera el RGPD (Reglamento General de Protección de Datos), que entró en vigor en mayo del año pasado, es suficiente para salvaguardar nuestra información. «Es poco probable que incluso los conjuntos de datos altamente anonimizados cumplan con los estándares modernos establecidos por el RGPD», asegura de Montjoye, autor principal del trabajo.
No es el primer estudio de este tipo que se publica. En 2007, un informe ya reveló que los votos a películas y series de un usuario cualquiera de Netflix, si se cruzaban con las calificaciones de IMDb (Internet Movie Database), podían servir para desanonimizar a esa persona. Otro trabajo de 2017 publicado en arXiv demostró que solo unos pocos datos bastaban para identificar a todos aquellos que decidieron inscribirse en el programa del gobierno australiano para ofrecer datos de facturación médica de forma anónima.