Hadoop : accélérateur des traitements Big Data chez Crédit Mutuel Arkea
Mathias Herberts, ingénieur disruptif chez Crédit Mutuel Arkea, présente la plate-forme Hadoop qui exploite la masse de données de la banque. Les applications de gestion des ratios de solvabilité et de détection de blanchiment d'argent améliorent largement l'existant. D'autres applications suivent.
Le Crédit Mutuel Arkea est un groupe bancaire qui compte 9 000 collaborateurs, et gère 3,2 millions de sociétaires et de clients dans la bancassurance.
La banque a mis en place une plate-forme Hadoop afin de traiter la masse de données dont elle dispose et gagner en agilité vis-à-vis du Mainframe.
Le projet a été lancé en 2009, avec 1,5 personne avant de former un centre d'expertise. L'architecture est transverse à tous les services et il leur a été proposé de dire tout haut ce dont ils rêvaient.
La plate-forme Hadoop se connecte à toutes les bases de données de la banque, dont le Mainframe, et stocke toutes les données des clients depuis 2001. Le Big Data permet de réaliser des recherches full text depuis mai 2001. On peut par exemple savoir combien on a dépensé à la Fnac depuis mai 2001 en tapant FNAC et on l'intégralité des dépenses.
Applications métier et techniques
Trois applications spécifiques sont en production et améliorent largement ce qui existait. L'application de lutte anti-blanchiment (Tracfin) traite 6 mois d'historique en moins de 20 secondes. Autre application, le calcul des ratios de solvabilité. Le traitement précédant utilisait un progiciel de simulation et il mettait 48 Heures sur un échantillon de clients. La version Hadoop produit un résultat sur la base client toute entière, en moins de 15 minutes.
Il y a également un système de monitoring des infrastructures informatiques qui remonte des métriques très techniques mais aussi des métriques métiers. Ce système remonte 2 millions de métriques par minute et représente environ 500 Go à 1 To de données par jour.
Plusieurs autres applications seront prochainement déployées dont l'analyse des zones de saisie libre dans les formulaires. La donnée n'est plus jetée car elle a de la valeur.
Mathias Herberts a été interviewé à l'occasion de la conférence Décisionnel de CIO.
Mathias Herberts constate l'explosion des volumes de données. La banque a trente ans d'historique sur certains contrats et dix ans d'historique sur les mouvements de compte, et tout un tas de données qui viennent du web. Il relève qu'auparavant ces données étaient collectées, analysées puis les jetées. « Aujourd'hui, le BIG Data pour nous, le changement radical c'est qu'au lieu de les jeter, on les conserve » dit-il. La cellule Hadoop représente aujourd'hui 1 péta-octet de capacité.
Il y a des données issues du mainframe comme des enregistrements conformes à des copies Cobol, des données non structurées, qui proviennent de logs, du mail, des réseaux sociaux et des données intermédiaires produites par des traitements qui sont faits sur ces données de base. Il faut alors accompagner les différents métiers afin qu'ils voient comment tirer de la valeur de ces données stockées.
Les périmètres sur lesquels des applications sont déployées en particulier sont ceux de la lutte anti-blanchiment. Sur la valeur créée dans les mois à venir, le gain viendra dans la capacité à avoir un regard sur des logs web par exemple, qui seront mis en parallèle avec la détention de produits bancaires afin d'assurer la promotion des produits vers les bons prospects.
Mathias Herberts revient également sur la genèse de Hadoop, « un socle technologique, qui, il faut bien l'admettre, a une courbe d'apprentissage assez raide pour qui s'y immisce ».
Au final, (...)
Au final, Hadoop a été mis en place de façon très transverse, afin qu'elle ne soit pas pour un silo marketing ou un silo assurance mais transverse dans l'entreprise.
La lutte anti-blanchiment et la conformité à Tracfin sont des applications lancées il y a six mois et qui sont aujourd'hui en passage en production. La principale raison de partir sur Hadoop était liée aux volumétries de données qui étaient à analyser et à l'inadéquation des solutions autres en place.
Hadoop a représenté en investissement une personne et demi pendant 24 mois pour mettre en place la solution, architecturer les connecteurs etc... Aujourd'hui un centre d'expertise est en construction afin d'accompagner les projets internes. En termes d'investissement matériel, c'est un cluster qui fait à peu près 800 To, ce qui représente 100 et quelques machines x86 et un investissement matériel inférieur à un million d'euros.
Mathias Herberts est intervenu lors de la table ronde « Un décisionnel haute performance » de CIO.
Chez Arkea, la démarche Big Data a été positionnée dès le départ de façon très transverse. Il n'y a pas eu construction d'une démarche Big Data pour la banque de détail, une autre pour la banque en ligne et une autre pour les filiales. Cela réduit les coûts et on se rend compte à l'usage qu'il existe une diversité de projets qui s'appuient sur cette plateforme qui est assez importante.
Mathias Herberts décrit quelques périmètres. Par exemple, sur la banque de détail, usuellement l'historique des comptes en ligne est de trois mois avec un peu de chance, à cinq semaines. Chez Crédit Mutuel, on retrouve tous ses historiques depuis mai 2001 en faisant des recherches dessus full text. « Si vous voulez savoir combien vous avez dépensé à la Fnac depuis mai 2001 vous tapez FNAC et vous avez l'intégralité de vos dépenses à la Fnac depuis mai 2001 accumulées, vous disant 'à la Fnac, vous avez dépensé tant'. »
Des chiffres vertigineux
Pour Mathias Herberts, c'est typiquement une application du Big Data car l'historique pour l'ensemble des clients depuis mai 2001 représente plusieurs milliards d'enregistrements et il s'agit de faire de la recherche sur ces milliards de données en temps réel.
Mathias Herberts illustre avec d'autres applications telles que les calculs de ratios de solvabilité. De même, il a été mis en place un système générique de collecte de métriques, et ces métriques peuvent être techniques ou métiers. « On a la capacité de les collecter et les analyser de la même façon ».
Selon cet ingénieur, le ROI est quasi immédiat quand quelqu'un dit qu'il veut croiser la donnée A avec la donnée B, une fois que l'on constate que les données A et B sont à disposition dans Hadoop, la mise en oeuvre du traitement peut se faire dans l'après midi du jour où les habilitations ont été données. La rentabilité n'est plus une question étant donné que l'infrastructure est commune à l'ensemble de l'entreprise et que les données mises à disposition ne nécessitent pas d'intervention supplémentaire.