Le JISC a publié récemment deux études intéressantes :
- Library Management Systems Study (mars 2008), un état de l'art comparatif des principaux systèmes de SIGB utilisés dans les bibliothèques anglo-saxonnes et leurs perspectives d'évolution ;
Le JISC a publié récemment deux études intéressantes :
- Library Management Systems Study (mars 2008), un état de l'art comparatif des principaux systèmes de SIGB utilisés dans les bibliothèques anglo-saxonnes et leurs perspectives d'évolution ;
Après presque 5 semaines de vacances, il va me falloir un peu de temps pour me remettre de ces émotions et remonter la longue file d'attente de la veille en retard (même si j'en ai purement et simplement abandonné une partie, d'ailleurs j'ai découvert à cette occasion qu'on ne pouvait pas avoir plus de 200 items dans un fil dans Bloglines...).
Il y a toujours un livre dans mon moteur.
Voyons ce qui se passe en Australie quand on travaille sur l'indexation des données structurées, en s'appuyant sur des fonctionnalités propres aux moteurs de recherche : lisons l'article Relevance ranking of results from MARC-based catalogues : from guidelines to implementation exploiting structured metadata par Alison Dellit et Tony Boston, bibliothèque nationale d'Australie, février 2007.
Il y est question de Libraries Australia, un genre de super catalogue collectif australien, dont l'objectif est de devenir aussi courant pour les Australiens que Google ou Amazon... a challenge.
Premier point : la pertinence. On a pris l'habitude de voir arriver en premier les résultats les plus intéressants. Contrairement aux bibliothécaires qui éprouvent le vertige des chiffres, les usagers ne remarquent même pas qu'on leur présente des milliers de résultats. Ils prennent les premiers.
Pour une bibliothèque ce n'est pas aussi anodin qu'on pourrait le croire de calculer la pertinence des résultats. On peut toutefois s'appuyer assez tranquillement sur les données structurées des notices bibliographiques pour ce faire :
Matches in the title, author and subject fields, and those fields which describe the format, nature or form of the item, are more important than general matches within the record.
Matches in multiples of the
Moi aussi j'avais hâte qu'ils annoncent Worldcat identities.
Lorcan Dempsey nous l'avait montré en avant-première aux entretiens de la BnF. Ca avait l'air chouette. C'est carrément bluffant.
En deux mots, c'est un espèce de mash-up de données sur des auteurs : les livres qu'ils ont écrits, quand il les ont écrits, dans quelle langue, ce qu'on a écrit sur eux...
Je vous laisse découvrir.
C'est la mode dans les bibliothèques de sortir des trucs en version bêta. La preuve par l'exemple...
La Library of Congress a sorti un beta search assez intéressant. Une recherche simple qui fédère toutes les ressources de la bibliothèque (catalogue, bibliothèque numérique, site Web) : cela fait carrément penser à la National Library of Australia qui propose le même service, pas beta, sur sa page d'accueil depuis au moins 2 ans.
La Bibliothèque numérique d'Oxford a sorti un site beta construit avec Greenstone. Je trouve cela dommage qu'on soit obligé d'entrer par collection, à l'anglo-saxonne : ça manque un peu de recherche globale.
Merci à Peter Scott et à ResourceShelf.
Dans la suite de ma réflexion sur les outils de consultation de bibliothèque numérique, je me suis intéressée au problème du calcul de pertinence lorsqu'on veut interroger en même temps des données structurées (par exemple, des notices de catalogue) et du plein-texte.
C'est (encore) à la California Digital Library que j'ai trouvé la solution à mes problèmes, et en particulier dans le Melvyl recommender project.
Ce projet avait dans un premier temps pour objectif de montrer qu'on pouvait indexer des données structurées avec un outil de type "plein texte" (par opposition à une base de données). Pour cela, ils ont réuni quelques millions de notices, et les ont indexées grâce à XFT, un framework open source basé sur Lucene. Ca a donné un prototype assez intéressant, en particulier du point de vue de la FRBRisation des notices.
Dans une seconde phase, ils se sont demandé ce qui se passerait si à ces belles métadonnées ils ajoutaient de grosses quantités de plein texte dans des formats et des niveaux de qualité hétérogène. Ils ont donc injecté, en plus des notices, 18000 documents plein texte incluant des PDF, de l'OCR "brut" (non corrigé) et de la TEI (entre autres) et ont recommencé le petit jeu.
Le résultat de leurs cogitations, et les solutions pour faire une indexation réussie de matériel hétérogène et réparti dans
Maintenant que l'on sait pourquoi il ne faut pas dire moteur de recherche, je vous propose de parler plutôt des outils de consultation des bibliothèques numériques.
Quelques particularités par rapport aux moteurs classiques du Web : quelle que soit leur génération, les outils de consultation des bibliothèques numériques
Sans renier la recherche plein-texte, qui peut se révéler utile dans certains cas, on peut observer que dans un contexte de données fortement structurées et organisées, même les spécialistes du plein-texte font reposer leurs outils de recherche sur les métadonnées, et parfois pas que les leurs.
Pour moi un outil de consultation de bibliothèque numérique devrait se constituer de plusieurs couches qui, loin de s'opposer, se combinent. Parmi elles
Je suis de plus en plus convaincue que tout cela peut (doit ?) être intégré dans un ensemble cohérent, assez bien exprimé par l'idée d'outil de
Tantôt, je vous ai parlé de Redlightgreen, l'interface "grand public" des catalogues de RLG. Maintenant que RLG et OCLC ont fusionné, Redlightgreen va fermer le 1er novembre 2006, au profit du tout neuf Worldcat, qui vient d'ouvrir au public une vraie interface (oui, sans être obligé de poser des questions abracadabrantesques à Google).
La FRBRisation, le classement par pertinence, les "facettes" pour affiner la recherche et le formattage de citation sont des fonctionnalités qui étaient développées dans les deux catalogues.
Il y a un autre truc très important, c'est que ces deux catalogues sont adressables : on peut faire un lien pérenne vers une notice. Enfin, pérenne, jusqu'au jour où le catalogue est supprimé.
Il vous reste un peu moins de deux mois pour profiter des jolies couleurs de Redlightgreen. Ensuite tout sera fondu dans l'unique bleu worldcatien.
Si cela vous énerve, vous pouvez aussi lire les récriminations de Librarian.net sur les ratés de Worldcat, et sur le "décalage" des gens d'OCLC par rapport aux réalités du terrain (là je n'ai pas grand chose à leur envier je le reconnais).
Sinon vous pouvez aussi vous énerver contre Google, un sport très prisé ces derniers temps.
Faisons un jeu.
Il s'agit de répondre en le moins de temps possible à trois questions essentielles de la vie :
Les outils autorisés sont Google et Yahoo. Le but du jeu est bien sûr d'avoir la réponse dans les trois premiers résultats.
Les boeuf-carotte résistent : bien sûr, il faut se débarrasser des bruyantes recettes de cuisine (et les opérateurs booléens sont très peu efficaces, il faut bien le dire). J'ai fini, après de nombreux tâtonnements, par formuler ma requête de la manière suivante : "boeuf carotte pourquoi police" (presque équivalent à "boeuf carotte police" mais pas tout à fait).
Sur Google, je fais d'abord chou-blanc, puis après avoir rajouté un fatidique tiret (entre boeuf et carotte) je trouve quelque chose. Le premier lien (ABC de la langue française) est prometteur mais m'oblige à farfouiller longuement dans le site pour un résultat décevant. Le second m'apprend que les boeuf-carotte séviraient aussi dans les restaurants. Le troisième lien ne donne rien.
Sur Yahoo, le premier résultat ne donne rien, mais le deuxième m'envoie sur le Forum de l'Essor de la Gendarmerie Nationale où je trouve - beaucoup plus bas - une réponse à ma
Un bon exemple de ce que je disais l'autre jour au sujet des catalogues comme sources de données à réutiliser dans différentes interfaces, c'est le catalogue collectif de RLG. Celui-ci ne contient pas autant de notices que le catalogue collectif d'OCLC, mais surtout il est de nature différente puisqu'il regroupe, comme son nom l'indique, des collections de bibliothèques de recherche, et comme son nom ne l'indique pas, éventuellement d'autres institutions que des bibliothèques (RLG travaille beaucoup avec les archives et les musées, et inclut aussi des institutions de recherche, des marchands de livres, etc.). Tout cela représente plus de 130 millions de notices, mais beaucoup moins de titres car le principe est de ne pas dédoublonner les notices versées pour le même ouvrage par diverses institutions.
Ce catalogue collectif a plusieurs interfaces différentes :
Bien sûr c'est cette dernière qui m'intéresse ici.
RedLightGreen s'adresse à des