comScore (MdotLabs) mise sur le machine learning pour combattre la fraude

avril 28, 2015

FraudLa fraude est un fléau qui dérange le marché de la publicité programmatique. Le trafic non-humain et de fermes qui génèrent des clics par millions représentent un manque à gagner de 14 Mds $ à l’industrie de la publicité en ligne. MdotLabs faisait partie des toutes récentes solutions indépendantes spécialisées du marché de la lutte contre la fraude de l’industrie de la publicité. L’ad tech s’est faite acheter par comScore l’été dernier. Nos questions à Timur Yarnall, SVP, Corporate Development à comScore, basé à San Franscisco, co-fondateur et CEO de MdotLabs.

 Timur YarnallQue change avec cet achat ? Et pourquoi l’avoir fait ?

L’équipe d’ingénieurs et de data scientists de MdotLabs était en première ligne dans le développement de techniques hautement sophistiquées dans l’identification du trafic non-humain (TNH) et la lutte contre les pertes inhérentes, celles-ci pouvant parfois représenter plus de 50% d’une campagne. La technologie de MdotLabs, combinée à nos méthodes de détection de trafic non-humain déjà existantes, va permettre une progression significative dans la mise à disposition d’outils résolvant cette importante problématique du marché, en apportant de la transparence et des indicateurs plus précis sur la performance des campagnes. L’intégration de la technologie de MdotLabs a permis à comScore de renforcer la capacité de détecter le trafic non-humain de vCE [Validated Campaign Essentials, leur outil de validation de la diffusion de campagnes et d’optimisation] en allant au-delà de ce qui est déjà fait et en déployant des filtres plus performants de NHT capables d’identifier les impressions visibles selon les normes du MRC (Media Rating Council).

Cette solution était destinée à tout l’écosystème de la publicité programmatique pour détecter et lutter contre la fraude. Qu’est-ce que la fraude publicitaire et comment se manifeste-elle sur les ad exchanges et ailleurs ?

Une définition simple de fraude publicitaire est : toute tentative d’engagement avec une publicité, un site Internet ou une campagne publicitaire dont l’origine ne provient pas d’une véritable intention humaine. Il existe un nombre incalculable d’activités non-humaines, invalides ou frauduleuses au sein de l’écosystème du digital, et celles-ci changent régulièrement d’endroit ainsi que de façon de se manifester. Ci-dessous quelques exemples de types de fraudes que nous rencontrons dans nos mesures :

– Robots traditionnels: Systèmes conçus pour imiter les utilisateurs humains et augmenter le nombre d’impressions publicitaires ;

– Adware & Browser Hijacks: Logiciel envoyant des requêtes html ou publicitaires à l’insu de l’utilisateur ;

– Ad Injectors: Programmes insérant malicieusement des publicités sur des sites Internet auxquels elles n’appartiennent pas ;

– Blanchiment de domaines : Sites Internet de mauvaise qualité se faisant passer pour un éditeur premium dans le but de lui soustraire des ventes publicitaires ;

– Trafic de Data Center : Trafic provenant d’appareils de data centers et non de véritables utilisateurs.

Quel que soit le type de NHT, les conséquences sont souvent les mêmes – une perte de revenus pour les éditeurs, un gaspillage des budgets publicitaires pour les annonceurs et une surévaluation des résultats d’une campagne, ce qui peut être un véritable désastre sur la planification des campagnes et la mesure d’efficacité.

fraudes-internetLa fraude des fausses impressions est-elle l’apanage des places de marchés programmatiques ? Ou peut-on la trouver ailleurs ?

Non, nous voyons le trafic non-humain se manifester globalement au sein de tout l’écosystème – et pas uniquement en programmatique. Malheureusement, il existe un grand nombre d’éditeurs premium qui – sans le savoir – sont victimes de fraude quand ils achètent du trafic qu’ils pensent de qualité, alors qu’au final il s’agit de trafic frauduleux ou non-humain. Et dans le cas de blanchiment de trafic – quand une partie tierce se fait passer pour un éditeur premium pour récupérer les revenus publicitaires de celui-ci – l’éditeur perd injustement ses propres opportunités de revenu et risque également des dommages sur la réputation de sa marque.

En quoi le « machine learning » vient-il renforcer la lutte contre la fraude ?

Le « machine learning » consiste à utiliser les données que nous collectons en grande quantité depuis de nombreuses sources afin d’identifier les tendances et les signes de fraude au fil du temps. De la même manière que les plateformes qui utilisent le « machine learning » pour apprendre comment optimiser au maximum les placements publicitaires, notre technologie et notre capital data nous permettent d’apprendre à identifier les activités invalides.

Les robots deviennent de plus en plus ingénieux, avec des simulations d’activité humaine assez sophistiquées pour duper les outils de vérification. Comment travaillent-ils et comment les identifier ?

Comme vous avez pu le voir ci-dessus avec les exemples de trafic non-humain, il existe d’innombrables façons pour ces créateurs de programmes de bots de se manifester au sein de l’écosystème. De plus, ils font régulièrement évoluer leurs techniques – certaines restent simples tandis que d’autres se complexifient davantage. Lorsque leurs actions frauduleuses sont enfin neutralisées, ces créateurs modifient bien souvent leurs pratiques afin de continuer de tirer profits de ces activités. C’est pour cette raison que chez comScore nous faisons également en sorte de faire évoluer nos propres techniques, algorithmes et notre machine learning afin de nous adapter au visage changeant des problématiques du marché. Nous mesurons et évaluons le trafic non-humain depuis près de 15 ans, ce qui nous donne la capacité unique de comprendre comment ces mauvaises pratiques évoluent en digital et comment suivre le rythme de tous ces changements.

fraud-rotatorMise à part l’action des robots, quels sont les autres types les plus courants de fraude qui nuisent au secteur de l’industrie publicitaire en ligne ? Laquelle est la plus représentative des dégâts ?

Malgré le fait qu’il soit difficile d’évaluer quel type de trafic non-humain est prédominant – du fait que cela diffère d’un marché à un autre et évolue à travers le temps, nous avons pu néanmoins constater un grand nombre de cas de blanchiment de domaines. Le Wall Street Journal a récemment publié un article à ce sujet (voir ici), ce qui a permis de relancer le sujet.

Pourquoi ne pas commencer à intégrer dans les ad exchanges les noms des vendeurs d’inventaire, en plus de leurs noms de domaine ?

C’est un sujet que nous suivons de près chez comScore et notre récent lancement d’Industry Trust permet de résoudre certaines de ces problématiques. L’initiative Industry Trust de comScore donne la possibilité aux acheteurs d’utiliser les données comScore au sein des environnements programmatiques, comme par exemple une DSP, afin d’acheter des inventaires qui auront un faible taux de trafic non-humain. En d’autres termes, un acheteur utilisant une DSP pour effectuer des transactions en programmatique a maintenant la possibilité de ne sélectionner que l’inventaire qu’il souhaite acheter et qui possède donc un faible taux de NHT (moins de 5%). En effectuant ses transactions de cette manière, l’acheteur se sent plus confiant dans ses achats d’inventaire et élimine les budgets perdus en impressions publicitaires invalides. Nous allons prochainement informer nos clients en France de l’initiative Industry Trust et sur la façon dont ils pourront avoir accès à ces données.

Si vous aviez le pouvoir de dicter de nouvelles règles du jeux aux ad exchanges que feriez-vous pour réduire la fraude ?

L’une des meilleures façons d’éradiquer le TNH – et tout particulièrement les situations où un fraudeur se fait passer pour un autre éditeur – est de vérifier l’identité du vendeur sur une place de marché – de manière manuelle et automatisée. Grâce à cette identification, quelle que soit la manière dont le vendeur commercialise son inventaire – avec URL masquée ou non – un acheteur peut ainsi être plus confiant sur la source et donc de la qualité de l’inventaire qu’il est en train d’acheter.

Que signifie pour vous le brand safety ?

La brand safety est le fait de s’assurer qu’une publicité est placée au sein d’un environnement contextuel sûr, ne créant aucune association négative avec la marque. Pour la plupart des marques, cela signifie un environnement non pornographique, sans discours de haine, ni contenu sur les drogues illégales… Avoir un message publicitaire associé à ce genre de contenu engendrerait un très mauvais impact sur l’image de la marque. Chaque marque possède sa propre définition de ce qui est sûr ou non. Pour certaines, un contenu un peu houleux pourrait permettre d’améliorer l’image d’une marque et la rendre plus jeune et plus fun, tandis que pour d’autres le même contenu serait considéré comme rebutant. comScore permet aux marques de sélectionner précisément le contenu qu’elles considèrent comme sûr grâce à la catégorisation du contenu, le blacklistage/whitelistage de sites Internet, la personnalisation de mots clés, etc.

 

LUL