Aricle de catalo

Article de catalo

La gestion informatisé de corpus bibliographiques : adaptation des normes et formats documentaires

Pour pouvoir concevoir une bibliographie exhaustive sur un sujet pluridisciplinaire, il est utile d’interroger plusieurs banques de données documentaires (BDD). La consultation de BDD différentes tant sur le plan géographique que thématique, pose tout de même trois problèmes :

Il est donc préférable pour la conception du corpus documentaire de procéder à une phase de normalisation de la structure des notices ; d’une phase de normalisation du contenu des champs ; d’une phase de dédoublonnage des notices.

Pour ce faire, ces différentes étapes peuvent être effectuées en fonction des nombreuses normes existantes et de savoir si ces normes peuvent être adaptées dans une gestion informatisée d’un corpus.

Une expérience a été tenté sur huit BDD différentes. Une équation de recherche distincte a été effectuée sur chacune des BDD : au total 27 000 notices bibliographiques ont été rassemblées. Une application a été développé pour le reformatage des données et le dédoublonnage des notices : WebStress.

Chaque base fonctionne sur une structure spécifique, constituée d’un nombre variable de champs. Pour une uniformisation des données, il est nécessaire de définir une structure respectant les normes documentaires en vigueur, ce qui suppose : l’éclatement de certains champs ; la fusion de certains champs ; et la conception de nouveaux champs ; normalisation des intitulés des champs.

A. Normes de description bibliographique

Deux types de normes existent : les normes de catalogage et les normes éditoriales. Les normes de catalogage sont utilisées par les bibliothèques et centres de documentations, celles-ci sont employées par les professionnels de l’information. Les normes éditoriales sont plus simple d’utilisations et donc employées par les chercheurs et autres.

Les AACR2 (Anglo-American Cataloguing Rules 2^nd ed.) incorporent les règles de l’ISBD mais conservent leurs spécifités et intègrent les besoins nouveaux nés de l’informatisation des bibliothèques.

La norme ISO 690 décrit les champs obligatoires mais laisse libre le choix de la présentation de la notice. Il faut alors appliquer la présentation de la notice suivant les normes reconnues dans la discipline décrite. C’est le style de Vancouver qui a été retenu car il fait autorité dans le domaine médical. Ajoutons que ce style reprend les recommandations de l’Index Medicus.

B. Formats d’échange de données

Se pose par la suite le problème d’échange de données par systèmes informatiques, il existe plusieurs formats. Les plus utilisés sont les formats MARC et SGML.

Format d’échange normalisé de données bibliographiques informatisées. Le format original a été développé par la Library of Congress en 1966, tandis que la British Library travaillait sur son propre format Marc. Deux versions ont donc vues le jour : MARC et USMARC. Marc est le format le plus utilisé pour le codage des données bibliographiques, mais a subi des adaptations nationales. On compte aujourd’hui une cinquantaine de format MARC spécifiques.

Ce format est complexe à utilisé pour un personnel non qualifié, ce format n’a donc pas été retenu pour représenter les données.

Se caractérise par sa capacité à représenter, à l’aide de balises ou identificateurs, la structure logique de n’importe quel document. Chaque élément est identifié par une balise d début et de fin d’élément.

C’es ce format qui a été retenu pour différentes raisons : intégration de formats différents ; lisibilité et compréhensibilité ; recherche structurée sur tous les éléments du document ; adaptabilité aux données bibliographiques qui comprennent du texte, et sont structurées ; indépendance de la plate-forme et du logiciel d’éditin ou de consultation.

Il est utile de normaliser le contenu des champs les plus importants pour la recherche documentaire et l’éxploitation bibliométrique du corpus

A. Normalisation des dates

C’est l’année la plus récente qui a été retenue. En revanche, la date du congrès apparaît en entier sur le modèle anglo-saxon.

B. Normalisation des langues

La mention de la langue a été retenu suivant l’intitulé complet proposé dans la norme internationale.

C. Normalisation des types de documents

Le type de document ont des dénominations distinctes d’une base de données à l’autre. Les différentes dénominations d’un même type de document ont été supprimées tout en conservant la dénomination figurant dans l’Index Medicus.

D. Normalisation des titres de périodiques

Les titres apparaissent suivant les bases interrogées, dans une forme complète et dans d’autres selon une forme abrégée. La normalisation s’est effectuée suivant les titres données dans l’édition de 1998 des publications en série dépouillées par la NLM pour ses BDD. Poiur les périodiques n’apparaissant pas dans cette liste, respect de la norme internationale ISO 4 qui donne les règles d’abréviation pour les du titre ou du titre de publication.

E. Normalisation des pays

Les noms de pays subissent de nombreuses variations. La norme ISO 3166 fixe la dénomination des pays proposant un code à deux ou trois chiffres. Mais ici il a été retenu la dénomination des pays figurant dans le MeSH.

F. Normalisation des auteurs

Le nom complet de l’auteur apparaît suivi des initiales de ses prénoms, sans point, conformémet à l’usage de l’Index Medicus.

G. Normalisation des descripteurs

Les prncipales variations terminologiques observées dans le corpus sont d’ordre morphologique et lexical. C’est conformément aux recommandations de Vancouver qu’ils on utilisé le MeSH et le métathésaurus UMLS pour la normalisation des descripteurs.

Les doublons désignent toutes les notices, au sein d’une ou plusieurs BDD, qui font référence à la même publication logique.

La sélection des champs qui vont servir à la construction de la clé de dédoublonnage s’&vère cruciale. Il convient de sélectionner les champs qui sont présents dans toutes les notices. Il est également important que ces champs possèdent un format homogène, soient significatifs et identifient de façon univoque les notices. Deus solutions sont alors envisageables :

BIBLID : qui est une norme internationale ISO 9115. Cet identifiant retient pourles articles de périodiques, l’ISSN, l’année de publication, la tomaison et la pagination. Pour les monographies, l’ISBN, l’année de publication, la pagination.

SICI : identifie de façon unique chaque expression physique d’une même entité logique.

Cette clé nécessite l’extraction d’un nouvelle information, à partir du traitement et de la concaténation de plusieurs données, sous une forme normalisée. Ils se sont inspirés du code Meyer-Uhlenried.

Cette clé alphanumérique de treize caractères comprend les quatre premières lettres du nom de l’auteur, les initiales des deux premiers prénoms de l’auteur si disponibles, les deux dernières lettres de l’année, la première lettre des cinq premiers mots du titre. Certains aménagements ont été apportés à ce code : l’indication de la première page de l’article a été ajoutée ; les quatre lettres de l’année pour éviter toute ambiguïté (année 2000) ; si le titre comporte moins de cinq mots, ajout des lettres du dernier mot du titre afin d’obtenir un cod à cinq lettres.

Les problèmes de format sont familiers aux professionnels de la documentation, il est difficile de faire un choix parmi les nombreuses normes proposées sur le marché. Les auteurs dressent trois constats par rapport à leurs applications : le caractère multiforme des normes ; l’inéquation des normes existantes pour les traitements informatisés et l’inéquation des identificateurs univoques d’unités d’information pour le dédoublonnage des notices.