Lire dans 50 ans, relire

a-orleans-les-murs-sont-des-vitres

À Orléans, hier, Richard Walter, de l’institut national de recherche historique des textes, débutait un séminaire sur la pérennité des archives numériques. Le but ? Non seulement établir un mode d’édition adapté aux nouvelles technologies, et le rendre commun. Mais aussi élargir le petit monde de la recherche à d’autres secteurs que le sien, ouvrir son labo à d’autres compétences et même, fait nouveau, d’autres disciplines. Grâce au Très Grand Équipement Adonis, les humanités digitales prennent corps. La renaissance technologique, post-industrielle, peut désormais enchanter le monde, comme le préconise l’équipe d’Ars Industrialis avec Bernard Stiegler.

Que les documents soient écrits, sonores ou graphiques, il faut désormais les traiter comme des données, dixit Stéphane Pouyllau (ingénieur d’étude au CNRS, responsable du centre national pour la numérisation de données visuelles du CNRS). Il ne s’agit pas de se servir des outils, souvent vite obsolètes et à documentation masquée des micro-ordinateurs. Mais bien de séparer le fond et la forme, la machine et ses outils, les besoins actuels et futurs, les données et leur encodage.

Ces données sont à documenter très précisément, comme une fiche cartonnée de catalogue de bibliothèque renseigne au plus près le lecteur sur le livre qu’il recherche (auteur(s), titre et sous-titre, mots-clés, nombre de pages, format, date de publication, état du livre, illustrations ou pas, combien, couv. cartonnée ou souple, éditeur, etc.). Ces métadonnées, qu’il faut largement anticiper, sont parfois longues à mettre en place : évaluation des besoins, documentation des données, établissement d’une DTD, soit huit mois pour le corpus évoqué. Elles induisent des pratiques communes à toutes les disciplines, outre un langage commun. Mais elles permettent une très grande rapidité de numérisation et de traitement des données, une fois le balisage préconisé – trois semaines pour le corpus en question. Surtout, ces métadonnées permettent la conservation des données dans des grands centres de calculs. Sous l’égide du TGE Adonis, les données y sont dupliquées, stockées, mises à jour et moissonnées (c’est-à-dire balayées par les robots des moteurs de recherche).

Pour cela, chaque projet devra être conduit en fonction d’un strict cahier des charges, avec un budget établi au plus près, de façon à ne pas anéantir des mois de travail et des années de recherche dans une édition numérique caduque dans une petite dizaine d’années. Il faut désormais concevoir qu’un chercheur, quelle que soit sa discipline, fasse de la veille technologique. Qu’il confie cela à quelqu’un dans l’équipe de son labo ou de son groupe de recherche, ou qu’il le prenne en charge lui-même, c’est un travail à temps complet.

Outre la pérennisation, cette numérisation dûment renseignée permet aux données de communiquer. Ça ne veut pas dire que les textes se mettent à faire danser les images. Non, ça signifie qu’un chercheur peut désormais faire toutes ses recherches depuis un ordinateur, quel qu’il soit. Pierre Mounier Marin Dacos en a fait un schéma que Stéphane Pouyllau reprend. La bibliographie est sous Zotero ou JabRef, le travail sur les sources se fait en équipe grâce à un wiki, le séminaire se conduit sur Hypothèses, le colloque sur Fabula ou PKP, les articles sont publiés sur Hal ou Revues.org, les essais sont lus sur des liseuses, et la veille se fait grâce à Google reader, Blogline, delicious ou twitter et même CiteUlike (c’est vous dire). Où que nous soyons, et même sur un ordi qui n’est pas le nôtre. Bon, il vaut mieux avoir sa liseuse avec soi. Si possible un Irex de sorte à annoter les textes.

les-outils-virtuels-de-pierre-mounier

Une grosse partie de l’interopérabilité passe par les normes et les standards. Le langage XML, développe Michel Jacobson qui archive des langues orales en voie de disparition ou non, le Dublin Core et le codage en TEI en sont de bons exemples. Aucun intérêt de réinventer la roue. Le danger, c’est lorsque les chercheurs se mettent l’un à publier directement sous Spip, l’autre sous Drupal, ou même sous WordPress (comme ici, NDA). Peu importe qu’ils le fassent après avoir pris conscience de la distinction entre ressource et travail d’édition de la ressource. Un ordinateur n’interprète jamais que des 0 et des 1. Ces trains de bits, ces données porteuses d’information doivent être décodées pour être correctement interpétées. Elles peuvent être par exemple encodées sous forme textuelle avec le code Ascii. La lecture de ce code Ascii révèle un codage en HTML. Qui fait lui-même appel à du codage en CSS, ou cascades de feuilles de style. L’empilement de ces codages doit être déplié par un interpréteur, comme un navigateur web, pour recomposer : la couleur, une graisse, une image, une inclinaison, une police, un paragraphe, etc. Ainsi le navigateur web (Internet Explorer ou Mozilla Firefox) rendt-il visible et compréhensible à l’œil, nu mais humain, le contenu que la machine ne lit que comme des 0 et des 1.

Une fois ces données mises en ligne, il faut les pérenniser, poursuit ce spécialiste de l’archive numérique. L’Open Archivale Information System est une norme. Sa vocation consiste à décrire un modèle conceptuel et d’organisation pour la préservation de l’information numérique. Son but : que les communautés d’utilisateurs cibles y accèdent, et l’utilisent. L’OAIS définit entre autres : un vocabulaire, une typologie des catégories d’information, un modèle fonctionnel, et les interactions possibles.

Ainsi, à l’entrée de l’archive, on vérifie la conformité aux formats et codages définis par l’archive en question : la présence de métadonnées. Lors du stockage, on envisage la migration sur différents supports, que l’on multiplie. On contrôle régulièrement l’intégrité des données.

Dans cette organisation, le CRDO que conduit Michel Jacobson se place aux deux bouts de la chaîne : à l’entrée comme le point de contact et le filtre entre producteurs et archives ; à la sortie en proposant des accès aux informations. Ces accès à l’information ne sont autres que des moteurs de recherche variés : full text, par catégorie, par indication spatiale comme la géolocalisation des langues parlées dans le monde, par similarité temporelle, outils de consultation.

diapo-mjacobson

À base de technologies W3, ou de web sémantique, les outils utilisés sont robustes : XML, XSLT, XQuery. C’est un gage de stabilité des données. Ce n’est pas Jean-Marc Destabeaux, développeur malgré lui mais hyper doué, qui dira le contraire.

Le référencement des données s’élabore avec des protocoles d’Open Archive Intitiative qui, distinguant les entrepôts de données des fournisseurs de service, moissonnent les métadonnées au plus large. Ainsi les données sont-elles visibles, interactives – et conservées. Le Corpus de la parole a, par exemple, mis en ligne des vidéos analogiques en langue des signes. Comme quoi, même le numérique peut viser à la pérennité.

© Constance Krebs, 28 janvier 2009.
Relecture de Michel Jacobson à 17h30, pour sa partie.
Relecture de Stéphane Pouyllau le 5 février 2009, pour sa partie.

Quelques liens indispensables

Outils de gestion bibliographique
Jab Ref et sa présentation
Zotero

Outil de partage de signets entre chercheurs
CiteULike
vu par les Urfistes

Norme des archives ouvertes
Définition du CRDO et liens

Le Corpus de la parole

OAIster moteur de recherche spécialisé dans le moissonnage des serveurs d’archives ouvertes
et ce qu’en dit Piotrr

Wikis
Ecole thématique Préservation et diffusion numériques des sources de la recherche en sciences humaines et sociales, 19-24 octobre 2008, Fréjus.
Wiki d’Hubert de Phalèse, groupe de recherche littéraire avec outils informatiques

Centres de Ressources numériques
Adonis et son Très Grand Equipement

Centre de Ressources pour la Description de l’Oral (CRDO)

Centre National pour la Numérisation de Sources Visuelles (CN2SV)

Traitement ELectronique des Manuscrits et de Archives (TELMA)

Centre National de Ressources Textuelles et Lexicales

Blogs et pages persos
Blog de Stéphane Pouyllau

Page de Michel Jacobson

s-pouyllau-m-jacobson-r-walter


About this entry