Google

Yahoo

CARI-info

MESRS

Université Badji Mokhtar-Annaba

SAPCCA

 Projets :
 · Le LRI-Annaba
 · SAPCCA: Problématique
 · SAPCCA: Analyse et reco.
 · SAPCCA: Applications
 · SAPCCA:  resultats-attendus
 · SAPCCA:  Contribution-LRI
 
   Contactez-nous


Email

web@lri-annaba.net

Tel: +213 38 87 29 91
Fax: +213 38 87 29 04
 

 


 


Présence graphiques
 

 

 

 


Grande variabilité
des caractéres
 

 

 

 


Présence d'altérations, plis et déchirures

 

 

 

 


Ces problématiques sont au centre des préoccupations des chercheurs

Sauvegarde  du Patrimoine Culturel de Civilisation Ancienne

Workshop SAPCCA
Sauvegarde du Patrimoine Culturel des Civilisations Arabes

Annaba, 12-13 Avril 2008

 

1) Problématique:
Le patrimoine culturel et scientifique est un bien publique unique qui représente la mémoire collective et vivante de notre société. Le patrimoine culturel arabe est porteur d'une richesse exceptionnelle qui a développé l'héritage du monde antique, hellénistique et oriental, et a contribué de façon décisive à l'émergence de la modernité en Occident.

Les documents manuscrits arabes anciens forment une bonne partie de ce patrimoine qui  encourent  une dégradation progressive et  par suite,  sont menacés d'un réel danger de disparition. Il existe environ 3 millions de manuscrits d'origine arabe et islamique, éparpillés à travers le monde. Ils ne sont pas conservés dans de bonnes conditions et les chercheurs ont du mal à pouvoir les consulter.

Ce projet s’inscrit dans une démarche de sauvegarde et de valorisation de données patrimoniales dont la communauté internationale a pris conscience de l’intérêt. Ce projet vise à faciliter l'accès à des documents anciens grâce à la mise en place de techniques de numérisation, de rétro conversion et d’indexation de documents. Pour des raisons de conservation, les documents anciens ne peuvent actuellement être consultés que  par une faible minorité d'experts ou de chercheurs. Coûteux en moyens de conservation et peu utilisés, les fonds anciens peuvent alors apparaître comme sous exploités dans une bibliothèque. Leur numérisation ouvrirait ces collections à un plus large public et permettrait une valorisation sans dégradation. De plus il paraît possible par une indexation réfléchie et par le développement d’outils de consultation conviviaux de fournir aux experts des moyens de travail plus performants en terme de recherche d’information et d’analyse des contenus.

La numérisation des fonds documentaires de la bibliothèque nationale de Tunis (BNT) et les Archives Nationales de Tunis (ANT) sont actuellement publiés sur le site web http://www.bibliotheque.nat.tn  et   http://www.archives.nat.tn , ils comportent des documents de type  (manuscrits, monographie, périodiques,…) ce qui permet aux chercheurs d'accéder  à ces richesses.

D'autres projets de numérisation de manuscrits islamiques dans le cadre du programme « mémoire du monde » de l ’UNESCO sont en cours de réalisation tel que : 
-    Slovaquie
- La collection Bašagic de manuscrits islamiques : Bibliothèque de l'Université à Bratislava
-    Sauvetage des collections de manuscrits privés de la ville de Zabid (Yemen) (la section arabe de l'Institut de Recherche et d'Histoire des Textes (I.R.H.T.), Paris)
-    Sauvegarde des manuscrits de Tombouctou (Mali) Centre pour le développement et l’Environnement, Université d ’Oslo, Norvège en collaboration avec ENSSIB, Lyon

Devant la masse de documents manuscrits existante, le traitement automatique de ces documents est un avantage certain. Si il existe aujourd'hui des solutions industrielles permettant la lecture automatique de formulaires, de chèques manuscrits ou encore des enveloppes postales, la lecture complète d'un document manuscrit est une tâche délicate notamment à cause de la grande variabilité entre les styles d'écriture mais aussi à cause du lexique beaucoup plus grand que dans le domaine du chèque par exemple. En effet,  Les documents manuscrits anciens possèdent de nombreuses particularités qui ne permettent pas d’appliquer les techniques classiques d’analyse d’images de documents composites et d’OCR (Reconnaissance Optique de Caractères). Ils se heurtent à de multiples problèmes parmi lesquels on peut citer :
-       
Les déformations dues à la courbure naturelle des pages
-       
L'ombre générée par l'intérieur de la reliure
-       
Le texte apparaît sous forme de "vagues", le texte du verso transparaît (encre trop acide)
-       
La présence de tâches d’humidité absorbée  par le papier et qui rende illisible l’original
-       
La présence de plis et de déchirures.
-       
La variabilité de la mise en page et des styles d’écritures

Tous ces défauts engendrent une perte d'informations structurelles des documents, et augmentent ainsi les difficultés pour reconnaître la structure et par suite l'information. D'où la nécessité de mettre en œuvre une chaîne de numérisation, de traitement et d'interprétation des images de documents manuscrits, et  d'indexation qui présente un travail fastidieux dans le cas manuelle et difficile dans le cas automatique vue la variabilité des contenus des documents (imprimés et/ou manuscrits, multi fontes, présence de graphiques, etc...).

Ce qui fait, nous travaillons à développer des outils d'analyse automatique de documents permettant d'automatiser ces tâches. Si dans le cas de documents imprimés des outils de plus en plus performants existent, dans le cas du manuscrit, le problème est loin d'être résolu, du fait de la grande variabilité et de la faible structuration de tels documents.
II- Objectifs du projet
Les récentes évolutions technologiques (développement de l'Internet, communications à haut débit, importantes capacités de stockage, algorithmes de compression d'images efficaces, politique de numérisation à grande échelle des archives patrimoniales ou industrielles) permettent de mettre à disposition d'énormes corpus de documents numérisés. 

1)Sauvegarde  des documents patrimoniaux : Notre objectif est de valoriser notre patrimoine documentaire pour mieux le partager, ce qui implique de le préserver pour mieux en transmettre la mémoire aux générations futures. La numérisation du fond documentaire ancien apporte des avantages indéniables, permettant un archivage fiable et bien structuré en regroupant les images avec des données textuelles. Cette numérisation dépend du choix du scanner, du mode de numérisation et de format de stockage. Les images sont stockées sans traitement ni compression, ils vont passer par une étape de restauration et de correction géométriques à l'aide de logiciels spécialisés. Les images traitées sont archivées puis soumises aux différents programmes d'analyse et de compression.

fiG. Chaîne de traitement

- La restauration: La restauration de l'image constitue une étape importante du processus de prétraitement dans la chaîne de l'analyse de documents. Elle  consiste à retrouver l'information qui a été perdu lors de la procédure de digitalisation. Mis à part les méthodes classiques de corrections d'inclinaisons et d'élimination de tâches, il est apparu dans le cas des documents images anciens, d'effectuer des traitements de restauration poussés. Il s'agit donc d'étudier les algorithmes de restauration et débruitage  utilisés dans le domaine de traitement d'images a savoir l'image en couleur  afin de les appliquer sur les documents anciens.   

- Compression: Les images de documents anciens posent des problèmes spécifiques de stockage, de traitement et de transmission sur la bande étroite de l'Internet. Il paraît donc nécessaire de compresser ces images. Dans la littérature, il existe deux types d'algorithmes de compression à savoir la compression sans perte et la compression avec perte. Il s'agit donc à :
·        
Etudier les différentes formes de compression, de montrer les effets destructeurs d'une compression avec perte comme la norme JPEG sur un document ancien.
·        
Etudier les différentes techniques de compression réalisées dans les systèmes existants tel que : djvu, Debora,…
·        
Utiliser  et appliquer des techniques de compression  basées sur les méthodes ondlettes et les méthodes fractales.   

 
 

© 2005- Laboratoire de Recherche en Informatique
Tous droits réservés - All rights reserved