ParStream passe le Big Data à la moulinette
Les opérateurs télécoms devraient être bien placés pour tirer parti du big data, à condition de savoir monétiser l'augmentation des volumes qu'ils transportent sur leurs réseau. Ils en sont encore loin faute d'être suffisamment centré sur leurs données et de disposer de modèles décisionnels légers et agiles.
Qui dit Big Data suppose des montagnes de données de toutes origines, structurées ou non : textes, messages électroniques... Des algorithmes permettent de retrouver rapidement une information dans cette caverne d'Ali Baba. Le problème est que cette base est alimentée en permanence par des flots de données nouvelles. Il est parfois indispensable de comparer ou de corréler instantanément celles-ci aux anciennes bases et de détecter si un seuil d'alerte n'a pas été franchi. On retrouve ce genre de problématique, notamment de la supervision de réseau, dans la détection de tentatives de fraude, ou dans l'optimisation de processus.
L'éditeur allemand ParStream s'est fait une spécialité de cette recherche instantanée et de cette association entre des données arrivant à l'instant T et d'autres déjà stockées. Basée à Cologne, elle compte une cinquantaine de personnes dont plus des deux tiers se consacrent à la recherche et au développement. Elle vient d'ouvrir un bureau à Paris et compte recruter trois ingénieurs destinés aux solutions clients. Parmi ces derniers : Coface Services (expert dans les risques commerciaux) et l'INRA MGP (biotechnologies). Plus généralement, sa solution intéresse les secteurs du marketing digital, de l'ecommerce, de la distribution B2C, des télécommmunications et de la recherche.
Une grappe de serveurs en peer-to-peer
L'architecture de la solution ParStream est fondée sur une grappe de serveurs, éventuellement distribués, qui fonctionnent en peer-to-peer. Elle est indépendante du type de machine physique, à condition qu'elle tourne sur Linux et soit dotée de processeurs multicoeurs. Sur chacun des serveurs est installé un logiciel ParStream, mais l'un d'eux orchestre le tout : il contient la liste des autres machines, leur rôle et le catalogue de services. S'il tombe en panne, un autre serveur prend immédiatement le relais. Lorsqu'une requête arrive, le logiciel l'analyse et la dirige vers un ou plusieurs serveurs selon sa nature. Ce traitement se fait en parallèle, c'est-à-dire que les coeurs des processeurs travaillent en parallèle et chacun envoie au(x) serveur(s) destinataire(s) les demandes qui le concernent.
L'une des caractéristiques de ParStream réside dans son algorithme de compression et d'indexation. Il est en effet possible de rechercher des informations sans avoir à décompresser les données, ce qui raccourcit considérablement le temps de traitement. « Imaginez que vous imprimiez des données jusqu'à ce que les feuilles mises bout à bout fassent le tour de la terre, nous déclare Michael Hummel (en photo), le P-DG. La recherche d'une information prendrait moins de 1/10e de seconde. »
Créé en 2008 sur les fonds propres des trois fondateurs, dont Michel Hummel, la société a levé 5,6 millions de dollars en août 2012 auprès d'un groupe d'investisseurs mené par Khosla Ventures, à la fois pour financer sa recherche et développement, ainsi que pour renforcer sa présence aux États-Unis. En octobre dernier, un second tour de table a permis à ParStream d'ajouter 8 millions de dollars, toujours sous la houlette de Khosla Ventures. Pour le moment, ParStream n'envisage pas de passer en bourse. « Nous voulons garder encore quelques années notre indépendance pour mieux maîtriser nos choix technologiques », conclut Michael Hummel.