Miros

¿Quiénes conocen tu ubicación?

En un mundo donde los datos no son anónimos, se venden al mejor postor. Por ejemplo, tu ubicación puede ser una guía útil para tus hábitos de compra. Ya sea que desees o no comprar algo, o que alguien quiera averiguarlo…

El problema de la unicidad y confiabilidad de los registros en bases de datos a gran escala se ha estudiado en diferentes contextos y con un enfoque en la preservación de la privacidad o registros coincidentes de diferentes fuentes de datos. Con un número creciente de proveedores de servicios que recopilan de forma rutinaria los rastros de ubicación de sus usuarios en escalas sin precedentes, existe un gran interés en la posibilidad de hacer coincidir registros y conjuntos de datos basados ​​en trayectorias espaciales.

Extendiendo el trabajo previo sobre la identificación de datos espaciales y la comparación de trayectorias, un grupo de investigadores del MIT presentó el primer análisis de la compatibilidad de los usuarios en conjuntos de datos de movilidad real, en escala real. Es decir, entre dos conjuntos de datos que constan de varios millones de usuarios de movilidad, provenientes de un operador de red móvil y el uso de tarjetas inteligentes de transporte.

Los investigadores usaron un modelo estadístico que rastrea los sellos de ubicación de los usuarios en ambos conjuntos de datos y proporcionaron una probabilidad de que los puntos de datos en ambos conjuntos provinieran de la misma persona.

Extrajeron las propiedades estadísticas relevantes que influyen en el proceso de comparación y analizaron su impacto en la compatibilidad de los usuarios. Demostraron que para las personas con actividad típica en el sistema de transporte (aquellas que realizan un promedio de 3 a 4 viajes por día), se espera que un algoritmo de coincidencia basado en la co-ocurrencia de sus actividades logre un 16.8% de éxito solo después de una semana de observación de sus trazas de movilidad, y más del 55% después de cuatro semanas.

El principal determinante de la compatibilidad es el número esperado de registros concurrentes en los dos conjuntos de datos.

El trabajo demuestra una manera eficiente y escalable de igualar las trayectorias de movilidad en conjuntos de datos, lo que puede ser una gran ayuda para la investigación. Pero, advierten los investigadores, tales procesos pueden aumentar la posibilidad de desasignar datos reales de usuarios. A medida que la recopilación de datos de mayor frecuencia se vuelve más común, se podrá esperar tasas de éxito mucho más altas en intervalos aún más cortos.

“Al publicar los resultados, en particular, las consecuencias de la falta de personalización de los datos, nos sentimos un poco como ‘hackers’ éticos. Sentimos que era importante advertir a las personas sobre estas nuevas posibilidades de la fusión de datos y considerar cómo regularlo“.

Si bien el grupo MIT no estaba tratando de desenmascarar a usuarios específicos en este conjunto de datos, probaron que alguien que actuara de mala fe podría combinar dichos conjuntos de datos anonimizados con los personales utilizando el mismo proceso, fácilmente identificando las marcas de tiempo para averiguar quién es quién.

¿Qué podemos hacer para proteger nuestra privacidad?

Desactivar la personalización de anuncios, la desactivación de anuncios basados ​​en la ubicación y el uso de configuraciones que deshabilitan, por ejemplo, los sensores de movimiento que rastrean los movimientos del cuerpo. Algunos pueden encontrar que la mejor solución es una red privada virtual (VPN).



Publicado

en

por

Comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *