Étude : identifier des individus à partir de métadonnées anonymes est un jeu d’enfants

mars 12, 2015

Computer_keyboardL’un des plus importants arguments de l’industrie de la publicité lorsque l’on évoque le traitement des données des clients et des prospects et ce que cela implique en matière de respect de la vie privée est le fait que ces données sont anonymes. Les données personnelles explorées sont « anonymisées », nous dit-on, elles sont intégrées dans des segments de profils sans identification du nom ou de l’individu. Ce sont en gros des rangées plus ou moins fines où l’on place des « profils » (correspondant à un utilisateur ou un cookie) avec des caractéristiques données (sociodémographiques, aptitudes, achats, centres d’intérêt).

Soit. Il n’empêche qu’il est tout aussi légitime qu’en matière de big data et de traitement des données ou de bribes de données en ligne, beaucoup d’individus, d’organismes, de représentants de la société civile voire de chercheurs se posent des questions sur la (in)sécurité en ligne. La dernière étude en date publiée dans la revue Science tend bien à prouver qu’avec très peu on peut faire beaucoup de dégâts !

L’auteur principal est un étudiant du MIT, Yves-Alexandre de Montjoye, qui cherche à prouver le caractère ultrasensible des metadonnées. Pour cela, avec un groupe de quatre autres postdocs de différentes universités, il a étudié durant trois mois les données enregistrées sur les cartes bancaires de 1,1 millions de personnes.

MIT-No-Privacy-01_2Des résultats étonnants: on vous identifie très facilement !

Ils ont découvert qu’avec uniquement des données indiquant la localisation et le temps de quatre achats différents on peut ré-identifier 90% des individus. Et que le fait de connaître le prix de trois achats réalisés augmente encore plus les probabilités de ré-identification. « Cela signifie que quelqu’un détenant les copies de seulement trois de vos reçus d’achats – ou bien un reçu, une photo de vous à Instagram prenant un café avec vos amis et un tweet au sujet du téléphone que vous venez d’acheter – aurait 94% de probabilité de réussir à identifier vos registres de carte bancaire au milieu d’un million d’autres personnes », explique l’article présentant l’étude à MIT News.

Et il poursuit : les chercheurs confirment que cela vaut même dans les cas où aucune identification de nom, d’adresse ou de numéro de carte de crédit n’est fournie. On est donc bien dans le cadre de données personnelles non identifiées… ou anonymes si vous préférez !

L’étude prouverait également que le fait de connaître le prix de la transaction augmente le risque de ré-identification de 22% en moyenne ! « Nous démontrons que même des rangées grossières de données dans n’importe quelle dimension fournit un très bas niveau d’anonymat », peut-on y lire. De même, les femmes seraient plus facilement ré-identifiables que les hommes.

Mdata_acxiom_iconeéthode

Pour arriver à ces résultats les chercheurs ont analysé des données incluant le nom et la localisation des magasins où les achats ont été réalisés, le jours où ils ont eu lieu et les valeurs des transactions. Les achats faits avec la même carte de crédit ont été tagués avec le même identifiant. (Pour plus de détails sur la méthode utilisée, lisez ici.)

Il n’est plus une surprise pour quasiment personne aujourd’hui que tout ce que l’on fait sur la toile laisse une trace et que cette trace peut être suivie, même si officiellement et légalement une couche de protection du respect de la vie privée existe. Il revient à chaque acteur de l’industrie de savoir se fixer les limites du bon sens. De toute façon tout bon marketeur ou éditeur sait qu’une pression publicitaire non mesurée et une campagne avec trop de fréquence ou trop d’intrusion ne plaît à personne et qu’en ce faisant on perd plutôt que l’on ne gagne de nouveaux clients.

LUL