Aujourd'hui, je me suis beaucoup amusée avec deux de ces merveilleux outils qui permettent de rentrer un ou plusieurs fichiers, et de sortir complètement autre chose (en général, du XML, sinon où est l'intérêt...) Je trouve cela particulièrement réjouissant.
MARCXML converter est comme son nom l'indique un convertisseur de fichiers MARC (en sortie ISO 2709) en xml suivant le schéma MARCXML . Evidemment, il faut des notices MARC21 en entrée, sinon ça marche pas.
Dans un autre genre, la National Library of New Zealand propose en téléchargement son Metadata extraction Tool en version stable. Mais à quoi cela sert-il, me direz-vous ? Cela sert à extraire les données contenues dans les en-têtes de fichiers TIFF, JPEG, PDF, BMP, Open Office, Word, et bien d'autres. Mais à quoi cela sert-il, me direz-vous encore ? Parmi ces informations, on trouve un certain nombre de données sur le fichier (son auteur, sa date de création, etc) ainsi que des données techniques nécessaires pour la conservation à long terme (le format, la taille, etc) - l'objectif de la NLZ. Grâce à l'outil d'extraction, on peut obtenir des sorties en XML de ces données, pour un fichier ou pour plusieurs à la fois (ce qu'on appelle les objets complexes). Apparemment il est assez simple de changer le schéma XML de sortie pour mettre celui qui nous fait plaisir, ce qui fait de cet outil une vraie perle.
Tous deux fonctionnent avec une machine Java récente et doivent être installés (mais ils sont faciles à utiliser et à installer sous Windows).
Dans le genre outil magique, il y a aussi le Servoo qu'utilise Lodel pour convertir les fichiers Word ou Open Office en XHTML, et en plus, lui, il fait ça en ligne à distance ! Mais à force que tout le monde en parle, ça commence à se savoir.

