Les institutions européennes ont dématérialisé 12 millions de pages
Les institutions européennes ont déployé une chaîne de numérisation qui a permis de traiter en 10 mois quelque 110 000 publications représentant 12 millions de pages. L'OPOCE (Office des Publications Officielles des Communautés Européennes) vient de mettre en ligne une bibliothèque numérique qui contient toutes les productions des différentes institutions, agences et autres organismes communautaires depuis 1952. Ce projet a nécessité la numérisation de 110 000 publications, soit 12 millions de pages, des plus petits formats jusqu'aux formats A0. Une chaîne de numérisation tournant 24 heures sur 24 L'OPOCE a confié cette tâche à un prestataire (Diadeis) qui a mis en place une chaîne de numérisation spécifique. Les 12 millions de pages ont été traitées en 10 mois, soit 75 000 pages par jour en travaillant en 24/24, 6 jours sur 7. Gérée par un workflow spécifique, cette chaîne permet la collecte et le stockage des publications, ainsi que la numérisation des documents et ouvrages, grâce au déploiement de différents matériels et outils de traitement : - quatre scanners automatiques « tourne-page » pour les ouvrages de plus de 100 pages en bon état. - trois scanners semi-automatiques pour les livres en mauvais état ou constitués de moins de 100 pages. - un scanner de grande largeur pour les documents de grande taille (plans ou posters). - un scanner à plat pour des photos ou brochures jusqu'au format A2. - un outil dédié à l'amélioration de la qualité de chaque image. - une fonction de traitement semi-automatique de l'extraction textuelle (OCR) sur les langues officielles de l'UE. - une fonction de catalogage des publications selon 10 critères. - un traitement d'amélioration de l'OCR sur les tables des matières, qui garantit un taux de réussite de 99.975 %. - un traitement automatique de masse d'encapsulage des données (images et texte OCR) vers le format de diffusion PDF. - un outil web qui permet de visualiser en temps réel l'avancement de la production.