Pescatore : un système de classification d’URL en temps réel pour les centres opérationnels de sécurité

Publié le 6 déc. 2018

Récapitulatif•Lecture : 8 min

Face à l'augmentation du nombre de tentatives de phishing copiant Docusign, nous avons développé un système de classification URL temps réel.

Pescatore en bref
Méthodes de classification
Pescatore en chiffres
Reconnaissance du secteur

Pescatore en chiffres
Reconnaissance du secteur

Article rédigé par: Roberto Sponchioni

Le phishing, ou hameçonnage en Français, est une forme de vol d’identité dans le cadre de laquelle les cybercriminels créent des répliques des sites Web pris pour cible dans le but de dérober des informations confidentielles telles que noms d’utilisateur/mots de passe et informations de carte bancaire.

Selon un récent rapport de Proofpoint intitulé « Le facteur humain 2017 », les attaques de phishing (piratage psychologique par e-mail) demeurent le vecteur d’attaque le plus répandu, et l’une des plus grandes difficultés auxquelles individus et entreprises sont confrontés pour préserver la sécurité des informations. Toujours d’après le rapport Proofpoint, en moyenne, 90 % des messages contenant des URL malveillantes mènent sur des pages ayant pour but de dérober des identifiants de connexion plutôt qu’à des kits d’exploitation des vulnérabilités informatiques. En d’autres termes, pour infecter les systèmes et s’emparer de données confidentielles, les cybercriminels délaissent désormais l’exploitation automatisée des failles pour tirer parti des interactions humaines.

Docusign est devenu au fil du temps un leurre de plus en plus utilisé à des fins de phishing. Déterminés depuis toujours à protéger nos clients et nos collaborateurs, nous devions impérativement trouver un moyen fiable, rapide et proactif de lutter contre les cybercriminels. Pour cette raison, nous avons mis au point en interne un outil de classification d’URL automatisé en temps réel capable, en seulement quelques minutes, d’identifier de nouvelles URL de phishing dans l’objectif de protéger nos actifs de manière proactive.

Pescatore en bref

Notre système primé, développé en interne, a pour nom Pescatore, qui signifie « pêcheur » en italien. Il a pour mission de classer automatiquement les URL en quelques minutes.

Pescatore se compose de différents modules, chacun d’eux fonctionnant de manière indépendante et exécutant des tâches distinctes. Toutes les données extraites finissent par être utilisées pour classer les URL. En outre, il s’agit d’un système évolutif qui peut être déployé partout dans le monde pour raccourcir le temps d’analyse et classer les URL susceptibles de ne conduire à aucun contenu si elles ne sont pas consultées à partir de pays précis.

Pescatore inclut les modules suivants :

Navigateur Web : capable de prendre une capture d’écran de la page, d’extraire le code source de la page et les fonctionnalités utilisées pour les analyser dans le module d’apprentissage automatique
Classificateur statique : classe les nouvelles URL en utilisant différentes méthodologies :
• Classification algorithmique : un algorithme est utilisé pour classer les pages inhabituelles qui ne peuvent pas être restituées correctement par les navigateurs sans interface graphique
• Classification Yara : système basé sur des règles qui peut classer les nouvelles URL analysées et/ou informer les analystes sur le kit de phishing (par exemple, les marques ciblées sur la page de phishing)
• Classification DB : système de classification basé sur une base de données qui, en fonction des caractéristiques extraites, peut être utilisé pour classer les URL connues en tant que sites de phishing (par exemple, les URL longues qui contiennent plusieurs sous-domaines et des mots clés précis dans la page analysée)
Classificateur par apprentissage automatique : classe automatiquement les URL en utilisant différents algorithmes, notamment les forêts d’arbres décisionnels, la classification naïve bayésienne, la distance euclidienne et la méthode des k plus proches voisins
Soumission au bac à sable : soumet automatiquement toute URL conduisant à des fichiers exécutables à notre système de bac à sable interne et, selon le résultat, classe l’URL dans la catégorie appropriée (par exemple : Malveillante ou Bénigne)
Corrélateur de capture d’écran : analyse la capture d’écran de chaque URL soumise, vérifie si elle est similaire à des captures d’écran de phishing connues et déclenche éventuellement une classification en fonction de seuils spécifiques
API : permet à nos systèmes internes de soumettre automatiquement de nouvelles URL et de recueillir des informations sur chaque URL analysée
Interface utilisateur : permet aux analystes d’examiner des kits de phishing spécifiques, de manière à accélérer l’analyse

Méthodes de classification

La classification d’URL automatisée a pour but d’identifier les nouveaux domaines de phishing créés. Cette identification peut être effectuée de différentes manières, par exemple en utilisant des signatures statiques sur le contenu de la page, sur l’URL elle-même et sur les informations WHOIS. Malheureusement, il s’agit d’une approche très fragile, car elle ne prend pas en compte les cas où, par exemple :

Un site a été piraté et les informations WHOIS ne sont pas pertinentes, le domaine ayant pu être créé il y a plusieurs années ;
Les pages de phishing changent rapidement et les méthodes de classification statiques sont impuissantes pour garder une longueur d’avance sur les cybercriminels.

Pescatore utilise différentes méthodologies, dont la combinaison permet d’obtenir des résultats plus fiables et très efficaces.

Classification statique et DB : classification basée sur différentes caractéristiques normalement observées sur les pages de phishing. Par exemple, si la page analysée est fournie par le biais du protocole HTTP et qu’elle contient un formulaire avec des champs d’entrée pour un nom d’utilisateur, un mot de passe et un CVV de carte bancaire et si le domaine a récemment été créé, il est plus que probable que l’URL soit malveillante ; elle sera par conséquent classée dans la catégorie Phishing.
Classification algorithmique : le système utilisant un navigateur sans interface graphique, certaines pages peuvent ne pas être chargées/restituées entièrement, avec pour résultat un contenu tronqué, mais certaines caractéristiques de la page peuvent néanmoins être visibles, si bien qu’avec un parseur ad hoc et un système de classification algorithmique, Pescatore peut classer les URL en fonction de leur contenu partiel.
Classification selon la réputation : en utilisant différents systèmes de réputation comme Alexa et Google SafeBrowsing, en conjonction avec d’autres méthodes de classification, Pescatore peut classer les URL dans la catégorie Inoffensive ou Phishing en fonction de leur réputation.
Classification par apprentissage automatique : en utilisant différents algorithmes, comme les forêts d’arbres décisionnels, la méthode des k plus proches voisins, la distance euclidienne, la classification naïve bayésienne et la corrélation de captures d’écran, le système peut prédire automatiquement avec un très haut niveau de confiance, conformément au tableau ci-dessous, la typologie d’une URL (Inoffensive, Phishing, etc.). Par ailleurs, pour gagner en fiabilité et réduire les taux de faux positifs, une URL est classée en combinant toutes les prédictions générées par apprentissage automatique et seulement si un seuil est atteint.

Pescatore en chiffres

Le tableau suivant montre le nombre total d’URL analysées par chaque algorithme d’apprentissage automatique pendant trois mois de tests. Chaque algorithme d’apprentissage automatique présente un taux de vrais positifs très élevé (environ 90 %) et un taux de faux positifs très faible (environ 2 à 5 %, selon l’algorithme). Les algorithmes fonctionnent relativement bien par eux-mêmes, mais pour limiter le risque de faux positifs et gagner en fiabilité, Pescatore utilise une méthode d’apprentissage « ensembliste », qui combine plusieurs algorithmes d’apprentissage pour obtenir de meilleures performances prédictives. Ainsi, la classification est déclenchée uniquement si plusieurs algorithmes prédisent une catégorie précise et si un certain seuil est atteint.

Compte tenu de la prévalence et de l’évolution rapide des menaces de type phishing, la détection automatisée n’a rien d’une opération simple. Mais en mettant en œuvre plusieurs technologies et algorithmes, tels que ceux évoqués ici, il est possible d’améliorer la fiabilité de la classification et, par conséquent, la détection automatique des URL malveillantes.

Reconnaissance du secteur

Pescatore, le système développé en interne par Docusign, a reçu le prix 2019 CSO50 Award décerné par le site CSO d’IDG. Cette récompense prestigieuse est accordée à un petit nombre d’organisations triées sur le volet qui ont apporté la preuve que leurs projets ou initiatives de sécurité ont procuré à leurs entreprises une valeur opérationnelle exceptionnelle et un leadership éclairé. Docusign sera officiellement récompensé pour Pescatore lors de l’événement CSO50 Conference + Awards qui se tiendra en avril 2019 au Talking Stick Resort de Scottsdale, en Arizona.

Les prix CSO50 Awards ont été décernés par un jury composé de leaders de la sécurité et d’experts du secteur selon un ensemble de critères uniformes. Pour en savoir plus sur cette distinction et sur le prix CSO50 Award, rendez-vous ici.

Découvrez les nouveautés de Docusign IAM ou commencez gratuitement avec eSignature

Découvrir Docusign IAM Essayer eSignature gratuitement