Présence graphiques
Grande variabilité
des caractéres
Présence d'altérations, plis et déchirures
Ces problématiques sont au centre des préoccupations des
chercheurs
Sauvegarde du
Patrimoine Culturel de Civilisation Ancienne (SAPCCA)
3) Champs d'application:
Ce projet a été proposé et
retenu lors de la troisième assemblée générale ordinaire
de l'association CEMUR (Coopération Europe-Maghreb des
Universités en Réseau) qui s'est tenue à Sfax (Tunisie) le 20
Mars 2004. L'idée est née un an plutôt en marge des travaux de
la deuxième AG de CEMUR à Nouakchott (Mauritanie). Une visite
du site historique de CHENGUITI a été offerte par le rectorat de
l’Université de Nouakchott et organisée par son Service des
Relations Internationales.
Compte tenu de la valeur inestimable des documents anciens qui
existent dans les bibliothèques de cette ville, et de leur état
de dégradation avancée parfois, il a été convenu de réfléchir
sur le lancement d'un projet au sein de CEMUR pour la
sauvegarde, la diffusion et la valorisation des contenus de ces
ouvrages précieux. Ceci pourrait se faire par leur mise sur
support informatique (reconnaissance des caractères arabes,
indexation, …).
Nous résumons ci-dessous les différents champs d'application
issus d'expérimentations en cours au sein des équipes de
recherche du réseau CEMUR :
-La constitution d'une bibliothèque numérique de livres
imprimés et manuscrits anciens du site de CHENGUITI avec accès
par le web;
-L'extension de cette expérience à d'autres sites
arabo-musulmans;
-La numérisation de patrimoines thématiques (culturels,
littéraires, scientifiques,…)
-Aide à la datation et l'authentification des documents
anciens
-Aide à l'identification du scripteur
-Développement d'algorithmes intelligents pour l'analyse
de la structure, d'interprétation et de reconnaissance des
documents manuscrits.
IV- Résumé du travail à effectuer
1.Recensement et analyse les projets en cours ou déjà
accompli concernant la numérisation du patrimoine culturel
arabo-islamique en particulier et les manuscrits anciens en
général
2.Identification les sites pour lesquels une campagne de
numérisation est nécessaire
3.Choix des collections à numériser selon leur intérêts
(culturel, littéraire, scientifique, …) mais aussi selon leur
état de dégradation
4.Constitution d'une banque d'images numérisées et
compressées de manuscrits anciens
5.Structuration de cette banque sous forme d'une base de
données relationnelle et ouverte qu'on peut enrichir et modifier
à volonté
6.Etiquetage, balisage et indexation manuelle
7.Double utilisation de la base de données :
a)Mise à disposition immédiate sur le web avec accès à
plusieurs niveaux (amateur, spécialisé)
b)Usage comme base statistique sur laquelle seront évalués
les différents algorithmes de traitement d'image et d'OCR
(subdivision en deux corpus : l'un pour l'apprentissage, l'autre
pour les tests)
8.OCRisation de la base
a)Prétraitement (restauration, séparation texte/graphique,
manuscrit/imprimé, identification du scripteur, segmentation du
texte en blocs, en ligne, en mot et en caractère, indexation
automatique, etc)
b)Reconnaissance des caractères (utilisation de
connaissances à priori, combinaison de classifieurs,
dictionnaire spécialisé de mots arabes, analyse syntaxique,
sémantique, etc)
9.Double accès à la base c'est à dire une indexation en
mode image et mode texte.
V- Universités concernées: Le projet SAPCCA s’inscrit dans le cadre de
l’association CEMUR (Coopération Europe Maghreb des Universités
en Réseau). CEMUR est un “ réseau composé d’universités ou
d’établissements autonomes d’enseignement supérieur ”. Les
membres actifs de CEMUR sont actuellement au nombre de 5
(Assemblée Générale du 20 Mars 2004) :
·Université du Havre (France)
·Université de Nouakchott (Mauritanie)
·Université de Caddi Ayadd de Marrakech (Maroc)
·Université de Aïn Chok de Casablanca (Maroc).
·Université de Sfax (Tunisie)
·Université Badji Mokhtar - Annaba, (Algérie)
·Bibliothèque nationale de Tunis (Tunisie)
Liste des
participants et des représentants des laboratoires partenaires
1.CERENE (Centre d'Etude
et de Recherche en Economie et GestioN LogistiquE) 2.GED (Equipe Gestion Electronique de Document)
3.REGIM
(Research Group on Intelligent
Machines)
4.LSHC
(laboratoire des Sciences Humaines de Casablanca)
5. LAIIC (Laboratoire d’Automatique et
informatique industrielle)
6. Université de Nouakchoutt
Laboratoire 7. LRI-Annaba: Laboratoire de Recherche en Informatique,
Université d’Annaba, Algérie
VI- Résultats
attendus: 1- Ouvrages:Les résultats seront compilés dans un ouvrage à caractère
pédagogique. et dans les mémoires de thèses de doctorats.
2 - Actes des séminaires: Les communications présentées dans les différentes
manifestations seront éditées dans des actes.
3- Site Web: collecticiel sera élaboré sous forme de site WEB. Il
permettra, en plus de la diffusion des différents résultats, un
travail collaborateur entre les différents partenaires de CEMUR.
4- Colloque :Un colloque final
permettra la diffusion de l'ensemble des résultats de cette
action.