Google

Yahoo

CARI-info

MESRS

Université Badji Mokhtar-Annaba

SAPCCA

 Projets :
 · Le LRI-Annaba
 · SAPCCA: Problématique
 · SAPCCA: Analyse et reco.
 · SAPCCA: Applications
 · SAPCCA:  resultats-attendus
 · SAPCCA:  Contribution-LRI
 
   Contactez-nous


Email

web@lri-annaba.net

Tel: +213 38 87 29 91
Fax: +213 38 87 29 04
 

 

 


Présence graphiques

 

 
Grande variabilité
des caractéres

 



Présence d'altérations, plis et déchirures

 



Ces problématiques sont au centre des préoccupations des chercheurs

Sauvegarde  du Patrimoine Culturel de Civilisation Ancienne (SAPCCA)

2) Analyse des structures et reconnaissance du contenu:
Les documents anciens possèdent de nombreuses particularités qui ne permettent pas d’appliquer les techniques classiques d’analyse de documents composites et d’OCR (Optical Character Recognition) sur ces ouvrages. Ils sont dégradés, reposent sur les anciennes techniques d’imprimerie  et respectent donc des règles particulières connues a priori et qui se doivent d’être exploitées durant l’indexation assistée si on veut obtenir de bons résultats. Cette remarque constitue le fer de lance de notre demande car nous pensons que ces connaissances n’ont pas encore été suffisamment exploitées dans les projets précédents de numérisation de fonds anciens.

Les différents problèmes posés par l’analyse des documents anciens en vue de leur indexation sont assez proches de ceux que l’on trouve en analyse et interprétation d’images. La chaîne de traitement comporte généralement un ensemble d’étapes visant à construire des informations structurées à partir des informations numériques élémentaires (pixels de l'image) et d’informations contextuelles liées à la nature du document analysé. Les objectifs sont  donc :
1)     
De séparer les différents composants situés sur les pages des ouvrages (texte, illustration, lettrine,etc)
2)     
L'objectif très ambitieux de recomposer le document, de comprendre son organisation et même d'interpréter son contenu a fait l'objet ces vingt dernières années de nombreux travaux prometteurs fondés sur l'analyse des images des documents, domaine de recherche actuellement en plein de développement. Dans cette vaste thématique de recherche, nous pouvons distinguer deux grands niveaux d'analyse. Le premier consiste à recomposer l'unité physique du document par la mise en place des méthodes d'extraction de zones d'intérêt qui constituent les objets physiques (zones de titre, de texte, de graphique, d'images,..). Le second niveau consiste à une description plus informative et plus logique, il correspond à l'analyse et la reconnaissance de l'organisation hiérarchique des constituants.   La segmentation constitue un des premiers traitements à effectuer dans un système d’analyse de documents. Dans la littérature, les solutions proposées pour la segmentation des documents images concernent les documents au niveau de gris et binaire. Le problème aujourd'hui s'oppose pour les documents en couleur composite (texte, image) et à structure complexe, et plus complexe si le document à traiter est ancien.

L'objet de cette étude concerne principalement de réaliser une étape primordiale dans l'analyse de la structure physique des documents images à savoir  la segmentation des documents arabes anciens et en couleur a fin d'extraire les zones informatives (texte, image, fond). Il s'agit donc  d'étudier les algorithmes à base d'ondlettes utilisés dans le domaine de traitement d'images a fin de les appliquer sur les document image anciens.  Le but est la reconstruction de la structure logique du document à partir de sa structure physique.

3)           D’identifier les différents styles d’écriture (gras, italique, taille, manuscrit/imprimé…) pour simplifier la tâche des systèmes d’OCR en créant des bases de modèles pour chacune des familles détectées. On peut alors parler de reconnaissance adaptative des textes arabes en fonction des caractéristiques de chaque paragraphe. Leurs contenus seront alors convertis en textes électroniques à l’aide d’un langage de balisage exploitable par le WEB (SGML, HTML, XML)Les techniques d’analyse et de reconnaissance doivent être adaptatives pour :
§        
Corriger les imperfections du document : document altéré, présence de tâches
§        
Supporter le masquage ou la perte d'informations structurelles : retombes multiples, pages pliées ou déchirées.

L’adaptation sera effectuée :
§        
A l’aide de connaissances  à priori.
§        
En utilisant la structure détectée
§        
En appliquant des analyses linguistiques (lexicale, morphologique, syntaxique et voire sémantique) pour la validation des textes reconnus

Durant ces travaux, nous proposons de nous attarder sur les problématiques de recherche suivantes :
·        
L’amélioration des performances des opérateurs de traitement bas niveau
·        
L’amélioration de l'adéquation algorithme/donnée pour la prise en compte du contexte (caractérisation comportementale des opérateurs en fonction de leur contexte d’utilisation)
·        
La modélisation et l’extermination des connaissances implicites sur les documents à interpréter (généricité du système).

3) Indexation de documents patrimoniaux: A terme, les outils de consultation doivent permettre l'usage de questions complexes faisant appel aux résultats de questions précédentes et facilitant la définition d'une certaine stratégie d'interrogation. L'utilisateur doit également pouvoir intervenir sur les documents en associant à ceux-ci des annotations ou d'autres documents obtenus par ailleurs, pour se constituer une sorte de fonds personnel. Pour cela, il est bien sûr nécessaire de mener une réflexion sur les spécifications fonctionnelles de l’outil client, mais aussi sur la manière dont devront être structurées les informations extraites automatiquement et les liens à mettre en place entre les différents blocs reconnus dans les pages. Leur mode de stockage doit également être mûrement réfléchi car l’indexation est une opération coûteuse, qui nécessite des investissements importants. Si les technologies et les normes choisies se révélaient inadaptées les ressources deviendraient rapidement obsolètes et inutilisables ou exigeraient rapidement de nouveaux investissements.    

Schéma d'indexation XML de documents du système SIM
(www.archimed.fr)

Pour mettre en place une technique d’indexation optimale, il paraît indispensable d’effectuer une analyse des ouvrages pour extraire les caractéristiques spécifiques de ces documents anciens : structures, invariants, présence de bandeaux, de lettrines, d'illustrations,  monographie, etc...Cette étude sera également utile pour la définition des méta données à utiliser lors de la description des ouvrages en vue de leur indexation. Toutes ces informations seront stockées au format XML devenu aujourd’hui un standard incontournable.

Dans un deuxième temps, l'indexation est une méthode qui permet de retrouver automatiquement un terme (ou une combinaison de termes) à partir de clefs prédéfinies. Elle  permet à l'utilisateur de retrouver instantanément n'importe quelle information dans un immense corpus d'archives.

 
 

© 2005- Laboratoire de Recherche en Informatique
Tous droits réservés - All rights reserved