1)
Introduction
Pour pouvoir concevoir une bibliographie exhaustive sur un sujet pluridisciplinaire, il est utile d’interroger plusieurs banques de données documentaires (BDD). La consultation de BDD différentes tant sur le plan géographique que thématique, pose tout de même trois problèmes :
- Hétérogénéité des formats de présentation
- Variabilité du vocabulaire d’indexation utilisé
- Redondance de l’information
Il est donc préférable pour la conception du corpus documentaire de procéder à une phase de normalisation de la structure des notices ; d’une phase de normalisation du contenu des champs ; d’une phase de dédoublonnage des notices.
Pour ce faire, ces différentes étapes peuvent être effectuées en fonction des nombreuses normes existantes et de savoir si ces normes peuvent être adaptées dans une gestion informatisée d’un corpus.
Une expérience a été tenté sur huit BDD différentes. Une équation de recherche distincte a été effectuée sur chacune des BDD : au total 27 000 notices bibliographiques ont été rassemblées. Une application a été développé pour le reformatage des données et le dédoublonnage des notices : WebStress.
2)
Normalisation
de la structure des notices
Chaque base fonctionne sur une structure spécifique, constituée d’un nombre variable de champs. Pour une uniformisation des données, il est nécessaire de définir une structure respectant les normes documentaires en vigueur, ce qui suppose : l’éclatement de certains champs ; la fusion de certains champs ; et la conception de nouveaux champs ; normalisation des intitulés des champs.
Deux types de normes existent : les normes de catalogage et les normes éditoriales. Les normes de catalogage sont utilisées par les bibliothèques et centres de documentations, celles-ci sont employées par les professionnels de l’information. Les normes éditoriales sont plus simple d’utilisations et donc employées par les chercheurs et autres.
ü Norme de catalogage
Toutes les normes de catalogage existantes sont dérivées de l’ISBD(G).
Les AACR2 (Anglo-American Cataloguing Rules 2nd ed.) incorporent les règles de l’ISBD mais conservent leurs spécifités et intègrent les besoins nouveaux nés de l’informatisation des bibliothèques.
ü Normalisation éditoriale
La norme ISO 690 décrit les champs obligatoires mais laisse libre le choix de la présentation de la notice. Il faut alors appliquer la présentation de la notice suivant les normes reconnues dans la discipline décrite. C’est le style de Vancouver qui a été retenu car il fait autorité dans le domaine médical. Ajoutons que ce style reprend les recommandations de l’Index Medicus.
Se pose par la suite le problème d’échange de données par systèmes informatiques, il existe plusieurs formats. Les plus utilisés sont les formats MARC et SGML.
ü Marc
Format d’échange normalisé de données bibliographiques informatisées. Le format original a été développé par la Library of Congress en 1966, tandis que la British Library travaillait sur son propre format Marc. Deux versions ont donc vues le jour : MARC et USMARC. Marc est le format le plus utilisé pour le codage des données bibliographiques, mais a subi des adaptations nationales. On compte aujourd’hui une cinquantaine de format MARC spécifiques.
UNIMARC : format d’uniformisation des formats MARC naît en 1972.
Actuellement, douze agences bibliographiques nationales emploient ce format.
Ce format est complexe à utilisé pour un personnel non qualifié, ce format n’a donc pas été retenu pour représenter les données.
ü SGML
Se caractérise par sa capacité à représenter, à l’aide de balises ou identificateurs, la structure logique de n’importe quel document. Chaque élément est identifié par une balise d début et de fin d’élément.
C’es ce format qui a été retenu pour différentes raisons : intégration de formats différents ; lisibilité et compréhensibilité ; recherche structurée sur tous les éléments du document ; adaptabilité aux données bibliographiques qui comprennent du texte, et sont structurées ; indépendance de la plate-forme et du logiciel d’éditin ou de consultation.
3) Normalisation du contenu des champs
Il est utile de normaliser le contenu des champs les plus importants pour la recherche documentaire et l’éxploitation bibliométrique du corpus
C’est l’année la plus récente qui a été retenue. En revanche, la date du congrès apparaît en entier sur le modèle anglo-saxon.
La mention de la langue a été retenu suivant l’intitulé complet proposé dans la norme internationale.
Le type de document ont des dénominations distinctes d’une base de données à l’autre. Les différentes dénominations d’un même type de document ont été supprimées tout en conservant la dénomination figurant dans l’Index Medicus.
Les titres apparaissent suivant les bases interrogées, dans une forme complète et dans d’autres selon une forme abrégée. La normalisation s’est effectuée suivant les titres données dans l’édition de 1998 des publications en série dépouillées par la NLM pour ses BDD. Poiur les périodiques n’apparaissant pas dans cette liste, respect de la norme internationale ISO 4 qui donne les règles d’abréviation pour les du titre ou du titre de publication.
Les noms de pays subissent de nombreuses variations. La norme ISO 3166 fixe la dénomination des pays proposant un code à deux ou trois chiffres. Mais ici il a été retenu la dénomination des pays figurant dans le MeSH.
Le nom complet de l’auteur apparaît suivi des initiales de ses prénoms, sans point, conformémet à l’usage de l’Index Medicus.
Les prncipales variations terminologiques observées dans le corpus sont d’ordre morphologique et lexical. C’est conformément aux recommandations de Vancouver qu’ils on utilisé le MeSH et le métathésaurus UMLS pour la normalisation des descripteurs.
4) Dédoublonnage des notices
Les doublons désignent toutes les notices, au sein d’une ou plusieurs BDD, qui font référence à la même publication logique.
A. Construction de la clé de dédoublonnage
La sélection des champs qui vont servir à la construction de la clé de dédoublonnage s’&vère cruciale. Il convient de sélectionner les champs qui sont présents dans toutes les notices. Il est également important que ces champs possèdent un format homogène, soient significatifs et identifient de façon univoque les notices. Deus solutions sont alors envisageables :
ü
Le système d’identification univoque d’unités
d’information
BIBLID : qui est une norme internationale ISO 9115. Cet identifiant retient pourles articles de périodiques, l’ISSN, l’année de publication, la tomaison et la pagination. Pour les monographies, l’ISBN, l’année de publication, la pagination.
SICI : identifie de façon unique chaque expression physique d’une même entité logique.
Ces deux système n’ont pas été retenu comme clé de dédoublonnage.
ü Construction d’une clé de dédoublonnage spécifique
Cette clé nécessite l’extraction d’un nouvelle information, à partir du traitement et de la concaténation de plusieurs données, sous une forme normalisée. Ils se sont inspirés du code Meyer-Uhlenried.
Cette clé alphanumérique de treize caractères comprend les quatre premières lettres du nom de l’auteur, les initiales des deux premiers prénoms de l’auteur si disponibles, les deux dernières lettres de l’année, la première lettre des cinq premiers mots du titre. Certains aménagements ont été apportés à ce code : l’indication de la première page de l’article a été ajoutée ; les quatre lettres de l’année pour éviter toute ambiguïté (année 2000) ; si le titre comporte moins de cinq mots, ajout des lettres du dernier mot du titre afin d’obtenir un cod à cinq lettres.
5)
Conclusion
Les problèmes de format sont familiers aux professionnels de la documentation, il est difficile de faire un choix parmi les nombreuses normes proposées sur le marché. Les auteurs dressent trois constats par rapport à leurs applications : le caractère multiforme des normes ; l’inéquation des normes existantes pour les traitements informatisés et l’inéquation des identificateurs univoques d’unités d’information pour le dédoublonnage des notices.