Ces problématiques sont au centre des préoccupations des
chercheurs
Sauvegarde du
Patrimoine Culturel de Civilisation Ancienne (SAPCCA)
2) Analyse des structures et reconnaissance du
contenu:
Les documents anciens possèdent de nombreuses particularités qui
ne permettent pas d’appliquer les techniques classiques
d’analyse de documents composites et d’OCR (Optical Character
Recognition) sur ces ouvrages. Ils sont dégradés, reposent sur
les anciennes techniques d’imprimerie et respectent donc des
règles particulières connues a priori et qui se doivent d’être
exploitées durant l’indexation assistée si on veut obtenir de
bons résultats. Cette remarque constitue le fer de lance de
notre demande car nous pensons que ces connaissances n’ont pas
encore été suffisamment exploitées dans les projets précédents
de numérisation de fonds anciens.
Les différents problèmes posés
par l’analyse des documents anciens en vue de leur indexation
sont assez proches de ceux que l’on trouve en analyse et
interprétation d’images. La chaîne de traitement comporte
généralement un ensemble d’étapes visant à construire des
informations structurées à partir des informations numériques
élémentaires (pixels de l'image) et d’informations contextuelles
liées à la nature du document analysé. Les objectifs sont donc
:
1)De séparer les
différents composants situés sur les pages des ouvrages (texte,
illustration, lettrine,etc)
2)L'objectif très ambitieux de recomposer le
document, de comprendre son organisation et même d'interpréter
son contenu a fait l'objet ces vingt dernières années de
nombreux travaux prometteurs fondés sur l'analyse des images des
documents, domaine de recherche actuellement en plein de
développement. Dans cette vaste thématique de recherche, nous
pouvons distinguer deux grands niveaux d'analyse. Le premier
consiste à recomposer l'unité physique du document par la mise
en place des méthodes d'extraction de zones d'intérêt qui
constituent les objets physiques (zones de titre, de texte, de
graphique, d'images,..). Le second niveau consiste à une
description plus informative et plus logique, il correspond à
l'analyse et la reconnaissance de l'organisation hiérarchique
des constituants. La segmentation constitue un des premiers
traitements à effectuer dans un système d’analyse de documents.
Dans la littérature, les solutions proposées pour la
segmentation des documents images concernent les documents au
niveau de gris et binaire. Le problème aujourd'hui s'oppose pour
les documents en couleur composite (texte, image) et à structure
complexe, et plus complexe si le document à traiter est ancien.
L'objet de cette étude concerne principalement de réaliser une
étape primordiale dans l'analyse de la structure physique des
documents images à savoir la segmentation des documents arabes
anciens et en couleur a fin d'extraire les zones informatives
(texte, image, fond). Il s'agit donc d'étudier les algorithmes
à base d'ondlettes utilisés dans le domaine de traitement
d'images a fin de les appliquer sur les document image
anciens. Le but est la reconstruction de la structure logique
du document à partir de sa structure physique.
3)D’identifier
les différents styles d’écriture (gras, italique, taille,
manuscrit/imprimé…) pour simplifier la tâche des systèmes d’OCR
en créant des bases de modèles pour chacune des familles
détectées. On peut alors parler de reconnaissance adaptative des
textes arabes en fonction des caractéristiques de chaque
paragraphe. Leurs contenus seront alors convertis en textes
électroniques à l’aide d’un langage de balisage exploitable par
le WEB (SGML, HTML, XML)Les techniques
d’analyse et de reconnaissance doivent être adaptatives pour :
§Corriger les
imperfections du document : document altéré, présence de tâches
§Supporter le
masquage ou la perte d'informations structurelles : retombes
multiples, pages pliées ou déchirées.
L’adaptation sera effectuée :
§A l’aide de
connaissances à priori.
§En utilisant la
structure détectée
§En appliquant des
analyses linguistiques (lexicale, morphologique, syntaxique et
voire sémantique) pour la validation des textes reconnus
Durant ces travaux, nous
proposons de nous attarder sur les problématiques de recherche
suivantes :
·L’amélioration des performances des opérateurs de
traitement bas niveau
·L’amélioration de l'adéquation algorithme/donnée
pour la prise en compte du contexte (caractérisation
comportementale des opérateurs en fonction de leur contexte
d’utilisation)
·La modélisation et l’extermination des
connaissances implicites sur les documents à interpréter
(généricité du système).
3) Indexation de documents patrimoniaux:
A terme, les outils de
consultation doivent permettre l'usage de questions complexes
faisant appel aux résultats de questions précédentes et
facilitant la définition d'une certaine stratégie
d'interrogation. L'utilisateur doit également pouvoir intervenir
sur les documents en associant à ceux-ci des annotations ou
d'autres documents obtenus par ailleurs, pour se constituer une
sorte de fonds personnel. Pour cela, il est bien sûr nécessaire
de mener une réflexion sur les spécifications fonctionnelles de
l’outil client, mais aussi sur la manière dont devront être
structurées les informations extraites automatiquement et les
liens à mettre en place entre les différents blocs reconnus dans
les pages. Leur mode de stockage doit également être mûrement
réfléchi car l’indexation
est une opération coûteuse, qui nécessite des investissements
importants. Si les technologies et les normes choisies se
révélaient inadaptées les ressources deviendraient rapidement
obsolètes et inutilisables ou exigeraient rapidement de nouveaux
investissements.
Schéma d'indexation XML de documents du système SIM
(www.archimed.fr)
Pour mettre en place une
technique d’indexation optimale, il paraît indispensable
d’effectuer une analyse des ouvrages pour extraire les
caractéristiques spécifiques de ces documents anciens :
structures, invariants, présence de bandeaux, de lettrines,
d'illustrations, monographie, etc...Cette étude sera également
utile pour la définition des méta données à utiliser lors de la
description des ouvrages en vue de leur indexation. Toutes ces informations seront
stockées au format XML devenu aujourd’hui un standard
incontournable.
Dans un deuxième temps,
l'indexation est une méthode qui permet de retrouver
automatiquement un terme (ou une combinaison de termes) à partir
de clefs prédéfinies. Elle permet à l'utilisateur de retrouver
instantanément n'importe quelle information dans un immense
corpus d'archives.