Reconnaître les pirates par l'analyse de leur expression écrite

le 14/01/2013, par Jacques Cheminat, Sécurité, 511 mots

Des chercheuses ont trouvé une technique basée sur la linguistique pour identifier les auteurs de messages sur des forums underground. Elles revendiquent une reconnaissance de 80% et souhaitent améliorer leur procédé.

Reconnaître les pirates par l'analyse de leur expression écrite

Des Anonymous et d'autres hackers pourraient être trahis par leur façon de s'exprimer sur les forums. C'est en substance la démonstration faite par deux chercheuses des universités de Drexel (Philadelphie) et Georges Manson (Fairfax) lors d'une conférence menée au congrès 29C3 Chaos Communication en Allemagne et relaté par notre confrère australien SC Magazine. Pour cela, ils ont utilisé des techniques de linguistique en comparant  des messages de certains utilisateurs à travers les forums. Avec ce procédé, les chercheuses arrivent à avoir des résultats plus qu'honorables. « Si notre base de données contient 100 utilisateurs, alors nous pouvons en identifier 80 », souligne Sadia Afroz. Elle ajoute que « les mots sont très spécifiques au rédacteur. Même si vous écrivez une thèse, vous allez probablement utiliser les mêmes mots dans les messages instantanés, idem pour le style». A travers cette analyse, il est possible de connaître les propriétaires d'un botnet, des auteurs de malware, etc.

Pour parvenir à ce résultat, les deux chercheuses se sont appuyées sur des techniques existantes comme l'analyse stylométrique (qui permet de déterminer la personne qui a écrit un texte) et l'allocation latente de Dirichlet (trouver des conversations à partir de mots). Ce procédé a été appliqué à des millions de messages postés par des dizaines de milliers d'utilisateurs sur des différents sites underground comme thebadhackerz.com, blackhatpalace.com, www.carders.cc, libre-hack.com, hackel1te.info, hack-secteur. forumh.net, rootwarez.org, L33tcrew.org et antichat.ru. 300 thèmes ont été recensés sur les forums avec des sujets très populaires, comme le cassage de mots de passe, les services de chiffrement, les outils d'optimisation des moteurs de recherche.

Des défis de taille et des améliorations prévues

Photo : Aylin Caliskan Islam et Sadia Afroz lors de leur intervention

Des défis de taille et des améliorations prévues

La deuxième chercheuse du groupe, Aylin Caliskan Islam, explique qu'il y avait plusieurs défis à relever. Le premier est de travailler avec un référentiel d'au moins 5 000 mots pour les attribuer ensuite aux différentes cibles et de gérer les textes courts. Le second est d'arriver à séparer les informations produites (cartes de crédit, exploits, médicaments) et les conversations pour faciliter l'automatisation de l'analyse. Elle ajoute que les posts doivent être traduits en anglais, car cela améliore l'identification des auteurs, même si cela est imparfait avec des outils comme Google ou Bing. Elle prévient que sur certains forums, un alphabet alternatif, Leetspeak (utilisant le code ASCII), a fait son apparition et ne peut donc pas être traduit.

Pour les deux chercheuses, leur travail peut être encore amélioré dans l'automatisation du processus, l'intégration de plus d'informations temporelles et l'établissement de liens avec IRC. Elle rappelle aussi « ne pas chercher à identifier les utilisateurs, mais leur montrer que cela est possible ». Pour contrer ces techniques d'authenfication, d'autres scientifiques ont publié des outils en décembre dernier pour aider les utilisateurs à anonymiser leur écriture.

Photo : Aylin Caliskan Islam et Sadia Afroz lors de leur intervention

Cisco alerte sur des failles dans IOS XE

Cisco a émis une alerte concernant une vulnérabilité critique au niveau de l'interface utilisateur web de son système d'exploitation d'interconnexion réseau IOS XE. Aucun patch n'est pour l'instant disponible...

le 17/10/2023, par Dominique Filippone, 506 mots

Emergency Responder et d'autres produits de Cisco vulnérables

Les dernières vulnérabilités corrigées par Cisco pourraient donner aux attaquants un accès root, permettre un déni de service ou une escalade des privilèges. En fin de semaine dernière, Cisco a corrigé des...

le 10/10/2023, par Lucian Constantin, IDG NS (adaptation Jean Elyan), 593 mots

IBM lance un service de connectivité multicloud basé sur le DNS

Le service NS1 Connect proposé par IBM peut prendre des décisions dynamiques sur l'endroit où envoyer des requêtes Internet pour assurer les meilleures connexions dans des environnements réseau complexes et...

le 27/09/2023, par Michael Cooney, IDG NS (adapté par Jean Elyan), 989 mots

Dernier dossier

Les white-box sont-elles l'avenir de la commutation réseau ?

Et si vous pouviez gérer vos commutateurs de centres de données et vos routeurs de la même façon que vos serveurs et ainsi réduire les coûts des dépenses en capital ? C'est la promesse des white-box qui amènent des systèmes d'exploitation réseau open source fonctionnant sur du matériel courant.Pour en avoir le coeur net, nous avons testé Cumulus...

Dernier entretien

Céline Polo

DRH du groupe iliad

"Nous recrutons dans des métiers en tension, en particulier sur l'infrastructure réseau, pour lesquels il y a...