Mea culpa, mea culpa, mea maxima culpa*

Publié le par Serein

* Pour les non latinistes, ce titre veut dire "c'est ma faute, c'est ma faute, c'est ma très grande faute". Autoflagellation généralement prononcée par les fidèles catholiques à la fin du Confiteor dans les temps anciens où la messe était en latin (et comme disait Brassens, "sans le latin, sans le latin, la messe nous emmerde...")

Bref je brode, je brode, telle l'élève prise en faute et qui essaie de noyer ses bêtises sous un vernis de futilité ou de latinité.

Mais il faut bien que je le dise, et que je fasse pénitence publique : j'ai commis une indélicatesse.

Il y a quelques semaines, en décembre, je fulminais dans un billet consacré à GoogleBooks contre un universitaire franco-québécois qui reprochait à Google de confisquer les algorithmes permettant la recherche in texte dans les fichiers de livres numérisés sur Google Books. Je mettais cette réflexion, qui me semblait pessimiste et à la limite de la paranoïa anti-google, en regard des réflexions de Robert Darnton qui se réjouit de la numérisation en masse au nom de l'ouverture des savoirs.

En l'état actuel du texte de monsieur Guédon, je suis toujours extrêmement dubitative face à son raisonnement. Comme je l'ai indiqué, il me semble très peu probable que Google prenne la peine et le temps de construire un fichier "texte" de ses numérisations à seule fin de pouvoir faire de la recherche dedans, et je ne crois pas non plus qu'il y ait derrière l'entreprise de numérisation de Google une volonté de domination intellectuelle. Une volonté d'être LA référence, LA source dominante, c'est indéniable. Mais c'est tout. Et Gallica, qui numérise des textes de la BNF, est sur le même plan.

Mais il se trouve que monsieur Guédon, sur le blog qu'il tient à l'intérieur du magazine en ligne Booksmag, a depuis écrit plusieurs billets. Il a également réagi au petit mot que je lui avait mis concernant Wikisource comme alternative pour numériser des textes libres.

Dans ses billets, et dans sa réponse, Jean-Claude Guédon semble bien davantage être dans une posture d'ouverture à la culture numérique. Il explique et encourage les licences Creative Commons, il affirme apprécier Wikipédia, il se demande dans quelle mesure il n'y a pas volonté de conservation et de maîtrise de la culture dans certaines institutions qui freinent des quatre fers devant l'ouverture numérique et les principes du web collaboratif. Il semble à le lire qu'il a une posture très intéressante et en cherchant un peu "qui" il était, je me suis rendu compte que c'est une personne très au courant et très ouverte au monde numérique, spécialisée dans ce domaine, et donnant de nombreuses conférences et interview sur ce sujet.

J'en comprends encore moins son billet sur Google Books, mais je crois que je me devais de reconnaître avoir jugé trop hâtivement ce monsieur. Je lui ai mis un petit mot sur Booksmag, lui parlant de mon billet "rageur", m'excusant de l'avoir jugé trop vite et lui proposant si besoin de corriger mon billet pour en enlever tout ce qui pourrait paraître insultant. Lui disant aussi que j'allais faire un mot "réparateur" sur mon blog. Il m'a répondu qu'il allait me répondre sur Booksmag. J'espère ne pas avoir été trop maladroite...

Voilà, c'était ma boulette. La leçon de morale du jour ? Réfléchir avant d'écrire... je ne renie absolument pas ma sincérité totale lorsque j'ai écrit mon billet, le 15 décembre dernier. Mais j'aurais dû sans doute prendre le temps de la réflexion et d'abord entamer le débat avec lui au lieu de le déplacer ici.
Pour être informé des derniers articles, inscrivez vous :

Commenter cet article

Olympi 23/01/2009 23:08

Pour faire simple, voici les étapes pour l'OCR :1) scan du livre, on optient une image2) on traite l'image pour obtenir le texte3) on corrige le texte pour lutter contre les erreurs de lecture4) on index le texte5) l'utilisateur peut faire une rechercheIl faut savoir que les opérations les plus coûteuses en temps sont les 1), 2) et 3), et alogriquement les plus difficiles sont les 2) et 3). Ces deux dernières opérations (lecture et correction) dure pour tout un livre plusieur seconde, bien plus que le temps d'une requêtes internet (temps entre l'arrivé de la demande de la page et le début de livraison par le serveur), même pas une seconde !Il me semble donc obligatoire pour Google de sauvegarder les textes, au minnimum coupés par mot dans son index. Que Google ne garde pas les textes d'un bloque me semblerait ridicule de leur part. Ces textes pourront toujours servir plus tard.Les raisons pour ne pas délivrer le texte lui-même, mais seuleument son image ? Pour forcer la vente de livre, accord légaux peut-être, pour ne pas en faire profiter d'autres projets. Bref garder le fruit de son travail, rien de bien étrange pour une entreprise.

Olympi 23/01/2009 21:07

« Il y a notamment un problème avec les s et les f qui ne s'écrivent pas pareil dans les imprimés jusqu'à la fin du XIXe siècle. »Il suffit d'apter l'algorithme pour ce genre de cas.« Avoir un fichier texte potable permettant de faire une recherche nécessite donc un gros travail de reprise manuelle de l'OCR brut. »Bof, avec un bon algo qui ne fait par exemple que chercher l'orthographe de mot on doit, par exemple, arriver facilement à modifier un 0 (zero) en o (lettre). Vu que j'y connais rien en OCR, mon imagination doit être largement dépassé par la complexe et la qualité de corrections des algos réellement utilisés.« Google a-t-il un moyen de faire la recherche soit dans l'image originelle, soit dans l'OCR originel et de corriger instantanément les différences typographiques ? Quelque chose qui ne serait faisable qu'avec de gros moyens informatiques et ne pourrait donc être distribué à tous ? »Oui il le font, mais en amont après le scan du livre, puis avec le texte il l'index et mets tous ça dans la base du moteur de recherche. Si bien que lorsque vous chercher «toto» google va trouver tous les livres comportant le mot «toto» et même savoir où il se trouve dans les livres.« n fait, il me semble que Google Books permet bel et bien de faire une recherche dabs un livre. Allez dans "A propos de ce livre" et vous obtenez par exemple cette page : »Sans même chercher aussi loin, en haut à droite de la page internet lorsqu'on se trouve sur un livre il y a la boite de recherche.

Serein 23/01/2009 21:27


@ Perce-Niais et Olympi : oui, je sais bien qu'on peut faire de la recherche dans les livres numérisés par Google, et je le fais très régulièrement, c'est notamment très pratique pour tout un tas
de bouquins anciens qui sont dans le domaine public mais peu accessibles hors des très grandes bibliothèques.

La question n'est pas là du tout. La question est : Google a-t-il quelque part un fichier texte issu de son logiciel de reconnaissance de caractère (OCR) pour chaque livre numérisé ?

Mr Guédon semblait penser que oui, et que volontairement Google ne le met pas en accès libre, afin d'obliger le lecteur à se rendre à chaque fois sur GoogleBooks pour faire de la recherche in
texte, ou à télécharger le bouquin en entier, mais en mode image et donc sans recherche in texte possible.

Pour ma part je doute que Google fasse l'effort de produire un fichier texte à chaque fois, et je pense plutôt qu'il y a une méthode pour faire ce travail de recherche in texte directement sur
l'image, où à partir d'un OCR trop "brut" pour être mis à disposition des internautes. Gallica 2, le site d'ouvrages numérisés de la BNF, procède apparemment de la même manière.


Perce-Niais 23/01/2009 15:37

En fait, il me semble que Google Books permet bel et bien de faire une recherche dabs un livre. Allez dans "A propos de ce livre" et vous obtenez par exemple cette page :http://books.google.be/books?id=ES4VAAAAQAAJ&hl=froù il y a une rubrique "Rechercher dans ce livre". (Mais je ne suis pas sûr que le résultat soit très bon. Il dépend sûrement d'une OCR.En outre, il me semble que Google Books permet aussi de télécharger les livres, au moins certains. Voyez cette page :http://books.google.be/books?id=ES4VAAAAQAAJ&pg=PA87&lpg=PA87&dq=pibrac++%22apologie+%C3%A0+la+reine+marguerite%22&source=bl&ots=X7xtjpo9gE&sig=FaxTpcPIewBk-8khiyM7Dqy4dnA&hl=fr&sa=X&oi=book_result&resnum=1&ct=result#PPA88,M1Il y a une rubrique "Télécharger".

Olympi 22/01/2009 22:50

1) HAHA! ;)2) Google doit très certainnement (cela me semble impossible de faire autrement) sauvegarder les textes avec les images des bouquins pour les raisons suivantes :— on peut faire des recherches dans les bouquins, donc il y a obligatoirement un index (mots -> endroit du livre)— les fichiers textes c'est pas lourd, comparé à une image, ou pire à une vidéo— google est riche— google à de gros serveurs (en terme d'espace disque)— google à les moyens de se payer des serveurs puissants (en terme de calcul)—google à les moyens de se payer des chercheurs et des ingénieurs pour améliorer les algorithmes de reconnaissance de caractère, qu'ils feront tourner sur les seveurs puissantMais il reste ta question : pourquoi ne nous permet-il pas de télécharger le texte ? Certainnement pour éviter de trop gros problème de droit d'auteur. Si on pouvais télécharger le fichier texte, des personnes auraient créer en très peu de temps un logiciel pour télécharger tout le livre automatiquement (le logiciel ferait plusieurs recherches d'affilés pour récolter toutes les parties et aurait ensuite recolé les morceaux).

Serein 22/01/2009 23:01


En fait, ce qui me perturbe avec cette histoire de fichiers textes, c'est que normalement les OCR butent sur les textes anciens à cause de la typographie ancienne.
Il y a notamment un problème avec les s et les f qui ne s'écrivent pas pareil dans les imprimés jusqu'à la fin du XIXe siècle.
Avoir un fichier texte potable permettant de faire une recherche nécessite donc un gros travail de reprise manuelle de l'OCR brut.  Or à ma connaissance le personnel de Google n'est pas
du genre à faire des vérifications manuelles.
La question que je me pose donc est : Google a-t-il un moyen de faire la recherche soit dans l'image originelle, soit dans l'OCR originel et de corriger instantanément les différences
typographiques ? Quelque chose qui ne serait faisable qu'avec de gros moyens informatiques et ne pourrait donc être distribué à tous ?

Je cherche pour l'instant sans trouver la réponse... je crois qu'il faudrait chercher du côté de la BNF, qui semble fonctionner de la même façon pour Gallica2.

Pour la question des droits d'auteur, elle ne se pose que pour les textes encore soumis au droit d'auteur. Pour les textes libres de droits, on peut déjà télécharger l'ensemble des bouquins.


Pierrot le Chroniqueur 22/01/2009 13:28

J'aime bien la morale. J'espère qu'"on" te lira avec attention, même si tu es moi, ou pas.