Ces problématiques sont au centre des préoccupations des
chercheurs
Sauvegarde du
Patrimoine Culturel de Civilisation Ancienne
Workshop SAPCCA
Sauvegarde
du Patrimoine Culturel des Civilisations Arabes
Annaba, 12-13
Avril 2008
1) Problématique:
Le patrimoine culturel et scientifique est un bien publique
unique qui représente la mémoire collective et vivante de notre
société. Le patrimoine culturel arabe est porteur d'une richesse
exceptionnelle qui a développé l'héritage du monde antique,
hellénistique et oriental, et a contribué de façon décisive à
l'émergence de la modernité en Occident.
Les documents manuscrits arabes anciens forment une bonne partie
de ce patrimoine qui encourent une dégradation progressive et
par suite, sont menacés d'un réel danger de disparition. Il
existe environ 3 millions de manuscrits d'origine arabe et
islamique, éparpillés à travers le monde. Ils ne sont pas
conservés dans de bonnes conditions et les chercheurs ont du mal
à pouvoir les consulter.
Ce projet s’inscrit dans une démarche de sauvegarde et de
valorisation de données patrimoniales dont la communauté
internationale a pris conscience de l’intérêt. Ce projet vise à
faciliter l'accès à des documents anciens grâce à la mise en
place de techniques de numérisation, de rétro conversion et
d’indexation de documents. Pour des raisons de conservation, les
documents anciens ne peuvent actuellement être consultés que
par une faible minorité d'experts ou de chercheurs. Coûteux en
moyens de conservation et peu utilisés, les fonds anciens
peuvent alors apparaître comme sous exploités dans une
bibliothèque. Leur numérisation ouvrirait ces collections à un
plus large public et permettrait une valorisation sans
dégradation. De plus il paraît possible par une indexation
réfléchie et par le développement d’outils de consultation
conviviaux de fournir aux experts des moyens de travail plus
performants en terme de recherche d’information et d’analyse des
contenus.
La numérisation des fonds documentaires de la bibliothèque
nationale de Tunis (BNT) et les Archives Nationales de Tunis
(ANT) sont actuellement publiés sur le site web
http://www.bibliotheque.nat.tn et
http://www.archives.nat.tn , ils comportent des documents de
type (manuscrits, monographie, périodiques,…) ce qui permet aux
chercheurs d'accéder à ces richesses.
D'autres projets de numérisation de manuscrits islamiques dans
le cadre du programme « mémoire du monde » de l ’UNESCO sont en
cours de réalisation tel que :
-Slovaquie
- La collection Bašagic de manuscrits
islamiques : Bibliothèque de l'Université à Bratislava
-Sauvetage des collections de manuscrits privés de la
ville de Zabid (Yemen) (la section arabe de l'Institut de
Recherche et d'Histoire des Textes (I.R.H.T.), Paris)
-Sauvegarde des manuscrits de Tombouctou (Mali) Centre
pour le développement et l’Environnement, Université d ’Oslo,
Norvège en collaboration avec ENSSIB, Lyon
Devant la masse de documents manuscrits existante, le traitement
automatique de ces documents est un avantage certain. Si il
existe aujourd'hui des solutions industrielles permettant la
lecture automatique de formulaires, de chèques manuscrits ou
encore des enveloppes postales, la lecture complète d'un
document manuscrit est une tâche délicate notamment à cause de
la grande variabilité entre les styles d'écriture mais aussi à
cause du lexique beaucoup plus grand que dans le domaine du
chèque par exemple. En effet, Les documents manuscrits anciens
possèdent de nombreuses particularités qui ne permettent pas
d’appliquer les techniques classiques d’analyse d’images de
documents composites et d’OCR (Reconnaissance Optique de
Caractères). Ils se heurtent à de multiples problèmes parmi
lesquels on peut citer :
-Les
déformations dues à la courbure naturelle des pages
-L'ombre
générée par l'intérieur de la reliure
-Le texte
apparaît sous forme de "vagues", le texte du verso transparaît (encre
trop acide)
-La présence de tâches
d’humidité absorbée par le papier et
qui rende illisible l’original
-La présence de plis et de déchirures.
-La variabilité de la mise en page et des styles
d’écritures
Tous ces défauts engendrent une perte d'informations
structurelles des documents, et augmentent ainsi les difficultés
pour reconnaître la structure et par suite l'information.
D'où la nécessité de mettre en œuvre une chaîne de
numérisation,
de traitement et d'interprétation des images de documents
manuscrits, et d'indexation qui présente un travail fastidieux
dans le cas manuelle et difficile dans le cas automatique vue la
variabilité des contenus des documents (imprimés et/ou
manuscrits, multi fontes, présence de graphiques, etc...).
Ce qui fait, nous travaillons à développer des outils d'analyse
automatique de documents permettant d'automatiser ces tâches. Si
dans le cas de documents imprimés des outils de plus en plus
performants existent, dans le cas du manuscrit, le problème est
loin d'être résolu, du fait de la grande variabilité et de la
faible structuration de tels documents.
II- Objectifs du projetLes récentes évolutions technologiques (développement de
l'Internet, communications à haut débit, importantes capacités
de stockage, algorithmes de compression d'images efficaces,
politique de numérisation à grande échelle des archives
patrimoniales ou industrielles) permettent de mettre à
disposition d'énormes corpus de documents numérisés.
1)Sauvegarde
des documents patrimoniaux : Notre objectif est de valoriser notre patrimoine
documentaire pour mieux le partager, ce qui implique de le
préserver pour mieux en transmettre la mémoire aux générations
futures. La numérisation du fond documentaire ancien apporte des
avantages indéniables, permettant un archivage fiable et bien
structuré en regroupant les images avec des données textuelles. Cette
numérisation dépend du choix du scanner, du mode de numérisation
et de format de stockage. Les images sont stockées sans
traitement ni compression, ils vont passer par une étape de
restauration et de correction géométriques à l'aide de logiciels
spécialisés. Les images traitées sont archivées puis soumises
aux différents programmes d'analyse et de compression.
fiG. Chaîne de traitement
- La
restauration: La restauration de l'image
constitue une étape importante du processus de prétraitement
dans la chaîne de l'analyse de documents. Elle consiste à
retrouver l'information qui a été perdu lors de la procédure de
digitalisation. Mis à part les méthodes classiques de
corrections d'inclinaisons et d'élimination de tâches, il est
apparu dans le cas des documents images anciens, d'effectuer des
traitements de restauration poussés. Il s'agit donc d'étudier
les algorithmes de restauration et débruitage utilisés dans le
domaine de traitement d'images a savoir l'image en couleur afin
de les appliquer sur les documents anciens.
- Compression: Les images de documents anciens posent des problèmes
spécifiques de stockage, de traitement et de transmission sur la
bande étroite de l'Internet. Il paraît donc nécessaire de
compresser ces images. Dans la littérature, il existe deux types
d'algorithmes de compression à savoir la compression sans perte
et la compression avec perte. Il s'agit donc à :
·Etudier les différentes formes de compression, de
montrer les effets destructeurs d'une compression avec perte
comme la norme JPEG sur un document ancien.
·Etudier les différentes techniques de compression
réalisées dans les systèmes existants tel que : djvu, Debora,…
·Utiliser et appliquer des techniques de
compression basées sur les méthodes ondlettes et les
méthodes fractales.