Month of juin, 2007

L'avenir de l'OCR : l'HCR

"HCR" pourrait vouloir dire "human character recognition", eh oui, je vous présente aujourd'hui un projet révolutionnaire qui permet de faire de la reconnaissance automatique de caractères en utilisant... des gens.

Le projet reCAPTCHA est tout à fait emblématique du pragmatisme à l'américaine qui caractérise des projets comme Internet Archive. Il part d'un genre de syllogisme :

  • quand on numérise, on a du mal avec l'OCR parce que certains mots ne peuvent être reconnus que par des humains
  • sur le web, on utilise des mots qui ne peuvent être reconnus que par des humains pour faire barrage aux robots
  • on n'a qu'à utiliser les mêmes humains pour reconnaître les deux types de mots !

Donc voilà, on va proposer aux blogs et autres sites de ce genre d'utiliser comme antispam un captcha à deux mots : le premier, connu par l'ordinateur, permet de faire barrage aux robots, et le second est un mot extrait de la numérisation d'IA qu'on n'arrive pas à océriser. Si plusieurs utilisateurs "numérisent" le même mot, celui-ci est validé dans IA.

Amis blogueurs qui avez des problèmes de spam de commentaires (ce n'est pas mon cas parce que je suis sous Lodel, mais bon, ça va peut-être changer, enfin bref), faites une bonne action : utilisez un captcha reCaptcha. C'est gratuit, c'est un web service, c'est accessible et en plus, ça génère de la

Presse U.S.

La Library of Congress a mis en ligne le site Chronicling America consacré aux journaux anciens.

C'est le fruit d'un projet qu'on suit depuis un moment, le NDNP (National digital newspaper program) - à ne pas confondre bien évidemment avec le NDIIPP qui, lui, porte sur la conservation numérique.

Le "plus" : bien sûr on peut chercher en plein texte dans ces journaux, mais surtout le visualiseur est carrément bluffant.

Le "moins" : cette espèce de granularité à la page. Evidemment avec la presse ça simplifie la vie, je suis bien placée pour le savoir, mais ça fait un peu bâclé.

Merci à 10KY blog.

Livre dans ta Face

Du côté de nos amis biblioblogueurs anglosaxons, j'observe depuis quelques temps un certain "buzz" autour du réseau social Facebook. Un buzz à vocation bibliothéconomique, indéniablement ; d'ailleurs la première fois que j'en ai entendu parler ça devait être à ELAG.

En fait, je n'ai jamais été très branchée réseaux sociaux ; à part une courte expérience sur Ning dans la continuité des biblioblogs, je ne me suis jamais inscrite au moindre réseau auparavant. Donc voilà, Facebook, je tente ou plutôt, j'explore.

En fait ce qui a attiré mon attention sur Facebooks c'est un autre outil, Libguides. Il s'agit d'un système de publication qui permet de fabriquer facilement des descriptions de collections dans une style "2.0", comme par exemple ça : Finding Newspapers. Vous remarquerez le côté "humain" du bibliothécaire, dont on peut voir la photo à côté de son oeuvre et à qui on peut laisser un message même en temps réel : un service qui autant que je puisse en juger n'existe pas dans une bibliothèque de la vraie vie parce que 1. les bibliothécaires ne signent pas personnellement leurs outils de recherche et 2. la consultation de l'outil et la rencontre avec le bibliothécaire sont souvent des phénomènes asynchrones.

En outre, ce système de publication de guides est Facebook-proof, ce qui semble être un gros

Bibliothèques et Web sémantique : le projet VIAF

Le projet VIAF, Virtual International Authority File, est un projet d'OCLC research qui vise à l'origine à aligner des listes d'autorités (notamment sur les noms propres) en vue de constituer une base de référence internationale.

Les premiers à tester ont été la Library of Congress et la Deutsche Bibliothek, qui travaillaient donc à l'alignement de leurs thésaurus respectifs ainsi que c'était décrit ici (ppt) ou .

Dès le départ, le projet affichait des intentions intéressantes en termes d'utilisation des technologies du Web sémantique. Il était aussi question de choses plus traditionnelles mais sur lesquelles on se posait aussi des questions, comme l'utilisation de l'OAI pour échanger des notices d'autorités (alors que, soyons clair, à première vue ce n'est pas fait pour ça).
De plus, cela s'inscrivait dans la continuité de services intéressants offerts par OCLC autour des autorités comme Worldcat Identities qui est un bon exemple de ce qu'on peut obtenir en "faisant travailler les données" comme diraient Lorcan et ses amis.

Aujourd'hui, d'après cette communication prévue à l'IFLA 2007 à Durban, le projet s'élargit avec de nouveaux partenaires, et le discours se radicalise assez nettement autour de l'idée de Web sémantique : ce n'est plus présenté comme une possibilité éventuelle de seconde main, mais comme le coeur du

Le bibliothécaire

Image associée au billet

Grave question pour un bibliothécaire que de savoir comment répondre en société à cette question anodine, "et toi, tu fais quoi dans la vie ?", question qui débouche inévitablement sur la suivante "ah bon, et c'est un métier, ça, de ranger des livres ?"

Moi-même il m'arrive assez souvent dans mon cadre familial de rencontrer des gens qui sont, disons, peu sensibilisés à l'utilité du métier de bibliothécaire et des bibliothèques en général ; pour eux ça doit être un peu comme les piscines, c'est sale et plein de pauvres et ils préfèrent avoir la leur chez eux parce qu'en plus ça fait assez joli.
J'ai toujours rêvé d'avoir une tirade extraordinaire à leur sortir sur mon métier et voilà que je la trouve, où ça, je vous le donne en mille, dans un livre.
La voici :

ELLE : Dites-moi ce que c'est, un bibliothécaire.
LUI : ... Une sorte de communisme, sans l'idéologie ou Marx ou toutes ces conneries. Notre métier, c'est de distribuer du savoir. Gracieusement. Entrez, s'il vous plaît, entrez, prenez un peu de savoir gratis, non, ce n'est pas plafonné, continuez, vous pouvez vous en gaver, non, ce n'est pas une arnaque, ce n'est pas un échantillon gratuit pour vous appâter et vous facturer plus tard, ou bien pour vous tapisser le cerveau de logos et de slogans. Un bibliothécaire n'a pas un statut social très élevé, et