Dans la suite de ma réflexion sur les outils de consultation de bibliothèque numérique, je me suis intéressée au problème du calcul de pertinence lorsqu'on veut interroger en même temps des données structurées (par exemple, des notices de catalogue) et du plein-texte.
C'est (encore) à la California Digital Library que j'ai trouvé la solution à mes problèmes, et en particulier dans le Melvyl recommender project.
Ce projet avait dans un premier temps pour objectif de montrer qu'on pouvait indexer des données structurées avec un outil de type "plein texte" (par opposition à une base de données). Pour cela, ils ont réuni quelques millions de notices, et les ont indexées grâce à XFT, un framework open source basé sur Lucene. Ca a donné un prototype assez intéressant, en particulier du point de vue de la FRBRisation des notices.
Dans une seconde phase, ils se sont demandé ce qui se passerait si à ces belles métadonnées ils ajoutaient de grosses quantités de plein texte dans des formats et des niveaux de qualité hétérogène. Ils ont donc injecté, en plus des notices, 18000 documents plein texte incluant des PDF, de l'OCR "brut" (non corrigé) et de la TEI (entre autres) et ont recommencé le petit jeu.
Le résultat de leurs cogitations, et les solutions pour faire une indexation réussie de matériel hétérogène et réparti dans









