Google

Yahoo

CARI-info

MESRS

Université Badji Mokhtar-Annaba

SAPCCA

 Projets :
 · Le LRI-Annaba
 · SAPCCA: Problématique
 · SAPCCA: Analyse et reco.
 · SAPCCA: Applications
 · SAPCCA:  resultats-attendus
 · SAPCCA:  Contribution-LRI
 
   Contactez-nous


Email

web@lri-annaba.net

Tel: +213 38 87 29 91
Fax: +213 38 87 29 04
 

 


Présence graphiques


Grande variabilité
des caractéres


Présence d'altérations, plis et déchirures

Ces problématiques sont au centre des préoccupations des chercheurs

Sauvegarde  du Patrimoine Culturel de Civilisation Ancienne (SAPCCA)

5) SAPCCA / Bilan LRI-Annaba:
a) Etude de l'existant: Les documents anciens s
ont aujourd’hui conservés en majeure partie au Centre des Archives Nationales à Alger et représentent une part importante de notre patrimoine archivistique, diminué malheureusement de la quasi-totalité des fonds constitués durant l’occupation coloniale, de 1830 à 1962, année où l’Algérie recouvre son indépendance, réaffirme sa souveraineté  sur l’intégralité de son territoire et restaure ses institutions.

En effet, les français ont commencé à transférer les archives algériennes en France  bien avant l’indépendance. Une partie infime a pu être récupérée mais de très nombreux documents sont actuellement conservés à Aix-En-Provence. L’Etat algérien réclame toujours leur restitution. Comment ne pas déplorer aussi la perte irréparable des documents prestigieux de Hiempsal, consultés par Salluste, ceux d’Ibn Rostom, des Zirides, des Hammadide et des Zianides. Les archives ottomanes, les archives de la période coloniale, les archives de la lutte de libération nationale et les documents issus des illustrations publiques depuis l’indépendance constituent les fondements des Archives Nationales algériennes.

Eléments constitutifs de la mémoire collective, les Archives Nationales ont progressivement établi leur assise juridique et institutionnelle afin de contribuer aux tâches d’édification nationale. De 1962 à 1971, la gestion et la reconstitution du patrimoine archivistique national furent confiées successivement au Ministère de l’Education Nationale puis à celui de l’Orientation Nationale et au Ministère de l’Information et de la culture.

Aujourd’hui, les Archives Nationales  sont considérées comme l’un des trois piliers du patrimoine culturel algérien avec les bibliothèques et les musées et sont chargées de préserver la mémoire collective du peuple.

Bien que notre contribution dans SAPCCA s'inscrive dans un cadre plus général, nous avons néanmoins tenté de faire une analyse des lieux tout en menant une activité beaucoup plus orientée vers les aspects segmentation et post-traitement.

b) Premiers résultats obtenus: Dans nos travaux, nous avons privilégié tant la partie sensibilisation et savoir-faire liés à la gestion des documents anciens que les traitements techniques. Nous avons participé par des communications afin d'attirer l'attention sur l'importance de la numérisation, du traitement et de l'interprétation des images de documents arabes anciens. A cet effet, nous avons apporté des éclairages sur les différentes phases que doivent subir ces documents, depuis l'acquisition jusqu'à la création d'une base indexée, et, éventuellement la reconnaissance du contenu, tout en mettant en évidence les problèmes ainsi que les difficultés qui peuvent surgir et  quelques propositions pour les résoudre. Ce travail a fait l'objet de deux communications l'une dans une conférence nationale sur le trésor de la langue arabe qui s'est tenue en mai 2005 à Alger et la seconde dans une conférence internationale sur le texte et l'image (TISR 2005).

Sur le plan recherche, un travail a été effectué sur  la segmentation des mots manuscrits en vue de leur reconnaissance, nous avons proposé une méthode globale (i.e. sans segmentation en caractères) pour la reconnaissance des mots arabes manuscrits.  Notre approche est basée sur les modèles de Markov cachés (Hidden Markov Models ou HMMs) de durée d'état explicite de différents types (Gaussien, Poissonien et Gamma).  

Dans la méthode proposée, chaque mot du lexique de reconnaissance est modélisé par un HMM discret  d’ordre 1 de durée explicite. L’image du mot à reconnaître est d’abord parcourue de droite à gauche afin d’en générer une séquence de vecteurs de paramètres. Après quantification vectorielle, la séquence extraite sera soumise à un classifieur de type HMM pour identifier le mot.  La discrimination  de ce dernier est effectuée à base d’un critère de maximum de vraisemblance en utilisant l’algorithme de Viterbi. Des expérimentations significatives ont été effectuées sur la base de données de référence IFN/ENIT  ont montré qu'une distribution de type Gamma pour la durée d'état a donnée le meilleur taux de reconnaissance (91.23 % en top 2).

En parallèle nous investissons dans le domaine  de post-traitement pour la correction des mots Arabes issus des systèmes de reconnaissance de textes arabes. Elles sont conçues pour être adaptables en corrigeant les erreurs de rejet et de substitution. L'une d'elles est étroitement liée au dictionnaire elle est dite guidée par le lexique. L'autre, guidée par le contexte, exploitant les informations contextuelles des classifieurs. Les propriétés de la langue Arabe sont très utiles en analyse morpho-lexicale et par conséquent elle sont fortement exploitées dans le développement de la deuxième méthode. Les erreurs de substitution sont écrites sous formes de règles de production et utilisées par un système de production. Les extensions aux niveaux syntaxique et sémantique sont envisagées en perspectives.

c) Tavaux publiés sur le thème du traitement automatique de la langue arabe:

- Communications Nationales et Internationales avec Comité de Lecture:
1) Farah N., Ennaji A., Khadir T., Sellami M., ‘Benefit of multiclassifier systems for Arabic handwritten words recognition.’, 8e International Conference on  Document Analysis and Recognition, ICDAR 2005, Daejeon, Korea
2) Souici L., Sellami M., (2005), "Génération automatique de réseaux neuro-symboliques pour la reconnaissance globale de mots arabes", ISPS’2005, International Symposium on Programming and Systems, Alger, Mai 2005
3) Farah N., Khadir T., Sellami M., ‘Artificial neural network fusion: Application to Arabic words recognition’, European Symposium on Artificial Neural Networks  ESANN 2005, Bruges, Belgium
4) Azzizi N., M. Sellami, "La problématique de l'archivage des documents arabes manuscrits",  Colloque sur le trésor de la langues arabe, CRDLA, Alger, Mai 2005N
5) Azizi N, SouiciI L, Sellami M. "Numérisation, traitement et interprétation  des Documents  Anciens", International Workshop on  Text, Image and Speech Recognition Annaba, Algeria, December 12-14th,  2005

- Publications  Internationales:
1) L. Souici,  M. Sellami : « A hybrid neuro-symbolic approach for arabic handwritten word   recognition" JACIII,  Journal  of Advanced Computational Intelligence and Intelligent Informatics, Vol. 10, N°1, January 2006
2) T. Farah, L. Souici,, M. Sellami : « Classifiers combination and syntax analysis for arabic literal amount recognition», Engineering Applications of Artificial Intelligence, Volume 19, Issue 1, February 2006
3) T. Sari, M. Sellami : « Arabic character segmentation and recognition system », International Journal of Computers and Applications, Volume 27, Num 3, July 2005, Publisher Actapress, Calgary, Canada

d) Formation
- Une doctorante travail sur le projet
- Deux étudiants master recherche (post-gradués), ont choisi ce thème comme projet

e) Proposition d'action correctrice dans SAPCCA:
-
Convertir la mission vers la Tunisie en un stage pour doctorant à destination de l'université du Havre, afin de permettre à deux étudiants d'y effectuer des séjours.

 
 

© 2005- Laboratoire de Recherche en Informatique
Tous droits réservés - All rights reserved