Présence d'altérations, plis et déchirures Ces problématiques sont au centre des préoccupations des
chercheurs
Sauvegarde du
Patrimoine Culturel de Civilisation Ancienne (SAPCCA)
5) SAPCCA / Bilan LRI-Annaba:
a) Etude de l'existant: Les documents anciens sont
aujourd’hui conservés en majeure partie au Centre des Archives
Nationales à Alger et représentent une part importante de notre
patrimoine archivistique, diminué malheureusement de la
quasi-totalité des fonds constitués durant l’occupation
coloniale, de 1830 à 1962, année où l’Algérie recouvre son
indépendance, réaffirme sa souveraineté sur l’intégralité
de son territoire et restaure ses institutions.
En effet, les français ont commencé à transférer les archives
algériennes en France bien avant l’indépendance. Une
partie infime a pu être récupérée mais de très nombreux
documents sont actuellement conservés à Aix-En-Provence. L’Etat
algérien réclame toujours leur restitution. Comment ne pas
déplorer aussi la perte irréparable des documents prestigieux de
Hiempsal, consultés par Salluste, ceux d’Ibn Rostom, des
Zirides, des Hammadide et des Zianides. Les archives ottomanes,
les archives de la période coloniale, les archives de la lutte
de libération nationale et les documents issus des illustrations
publiques depuis l’indépendance constituent les fondements des
Archives Nationales algériennes.
Eléments constitutifs de la mémoire collective, les Archives
Nationales ont progressivement établi leur assise juridique et
institutionnelle afin de contribuer aux tâches d’édification
nationale. De 1962 à 1971, la gestion et la reconstitution du
patrimoine archivistique national furent confiées successivement
au Ministère de l’Education Nationale puis à celui de
l’Orientation Nationale et au Ministère de l’Information et de
la culture.
Aujourd’hui, les Archives Nationales sont considérées
comme l’un des trois piliers du patrimoine culturel algérien
avec les bibliothèques et les musées et sont chargées de
préserver la mémoire collective du peuple.
Bien que notre contribution dans SAPCCA s'inscrive dans un cadre
plus général, nous avons néanmoins tenté de faire une analyse
des lieux tout en menant une activité beaucoup plus orientée
vers les aspects segmentation et post-traitement.
b) Premiers résultats obtenus: Dans nos travaux, nous
avons privilégié tant la partie sensibilisation et savoir-faire
liés à la gestion des documents anciens que les traitements
techniques. Nous avons participé par des communications afin
d'attirer l'attention sur l'importance de la numérisation, du
traitement et de l'interprétation des images de documents arabes
anciens. A cet effet, nous avons apporté des éclairages sur les
différentes phases que doivent subir ces documents, depuis
l'acquisition jusqu'à la création d'une base indexée, et,
éventuellement la reconnaissance du contenu, tout en mettant en
évidence les problèmes ainsi que les difficultés qui peuvent
surgir et quelques propositions pour les résoudre. Ce
travail a fait l'objet de deux communications l'une dans une
conférence nationale sur le trésor de la langue arabe qui s'est
tenue en mai 2005 à Alger et la seconde dans une conférence
internationale sur le texte et l'image (TISR 2005).
Sur le plan recherche, un travail a été effectué sur
la segmentation des mots manuscrits en vue de leur
reconnaissance, nous avons proposé une méthode globale (i.e.
sans segmentation en caractères) pour la reconnaissance des mots
arabes manuscrits. Notre approche est basée sur les
modèles de Markov cachés (Hidden Markov Models ou HMMs) de durée
d'état explicite de différents types (Gaussien, Poissonien et
Gamma).
Dans la méthode proposée, chaque mot du lexique de
reconnaissance est modélisé par un HMM discret d’ordre 1
de durée explicite. L’image du mot à reconnaître est d’abord
parcourue de droite à gauche afin d’en générer une séquence de
vecteurs de paramètres. Après quantification vectorielle, la
séquence extraite sera soumise à un classifieur de type HMM pour
identifier le mot. La discrimination de ce dernier
est effectuée à base d’un critère de maximum de vraisemblance en
utilisant l’algorithme de Viterbi. Des expérimentations
significatives ont été effectuées sur la base de données de
référence IFN/ENIT ont montré qu'une distribution de type
Gamma pour la durée d'état a donnée le meilleur taux de
reconnaissance (91.23 % en top 2).
En parallèle nous investissons dans le domaine de
post-traitement pour la correction des mots Arabes issus des
systèmes de reconnaissance de textes arabes. Elles sont conçues
pour être adaptables en corrigeant les erreurs de rejet et de
substitution. L'une d'elles est étroitement liée au dictionnaire
elle est dite guidée par le lexique. L'autre, guidée par le
contexte, exploitant les informations contextuelles des
classifieurs. Les propriétés de la langue Arabe sont très utiles
en analyse morpho-lexicale et par conséquent elle sont fortement
exploitées dans le développement de la deuxième méthode. Les
erreurs de substitution sont écrites sous formes de règles de
production et utilisées par un système de production. Les
extensions aux niveaux syntaxique et sémantique sont envisagées
en perspectives.
c) Tavaux publiés sur le thème du traitement automatique de
la langue arabe:
- Communications Nationales et Internationales avec Comité de
Lecture:
1) Farah N., Ennaji A., Khadir T., Sellami M., ‘Benefit of
multiclassifier systems for Arabic handwritten words
recognition.’, 8e International Conference on Document
Analysis and Recognition, ICDAR 2005, Daejeon, Korea
2) Souici L., Sellami M., (2005), "Génération automatique de
réseaux neuro-symboliques pour la reconnaissance globale de mots
arabes", ISPS’2005, International Symposium on Programming and
Systems, Alger, Mai 2005
3) Farah N., Khadir T., Sellami M., ‘Artificial neural network
fusion: Application to Arabic words recognition’, European
Symposium on Artificial Neural Networks ESANN 2005,
Bruges, Belgium
4) Azzizi N., M. Sellami, "La problématique de l'archivage des
documents arabes manuscrits", Colloque sur le trésor de la
langues arabe, CRDLA, Alger, Mai 2005N
5) Azizi N, SouiciI L, Sellami M. "Numérisation, traitement et
interprétation des Documents Anciens", International
Workshop on Text, Image and Speech Recognition Annaba, Algeria,
December 12-14th, 2005
- Publications Internationales:
1) L. Souici, M. Sellami : « A hybrid neuro-symbolic
approach for arabic handwritten word recognition" JACIII,
Journal of Advanced Computational Intelligence and Intelligent
Informatics, Vol. 10, N°1, January 2006
2) T. Farah, L. Souici,, M. Sellami : « Classifiers
combination and syntax analysis for arabic literal amount
recognition», Engineering Applications of Artificial
Intelligence, Volume 19, Issue 1, February 2006
3) T. Sari, M. Sellami : « Arabic character segmentation and
recognition system », International Journal of Computers and
Applications, Volume 27, Num 3, July 2005, Publisher Actapress,
Calgary, Canada
d) Formation
- Une doctorante travail sur le projet
- Deux étudiants master recherche (post-gradués), ont choisi ce
thème comme projet
e) Proposition d'action correctrice dans SAPCCA:
- Convertir la mission vers la Tunisie en un stage pour
doctorant à destination de l'université du Havre, afin de
permettre à deux étudiants d'y effectuer des séjours.