Présentation

  • : Un blog (de plus) pour faire part de mes réflexions sur Wikipédia et ce qui l'entoure.

Calendrier

Novembre 2009
L M M J V S D
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30            
<< < > >>

Syndication

  • Flux RSS des articles

Mercredi 21 janvier 2009
* Pour les non latinistes, ce titre veut dire "c'est ma faute, c'est ma faute, c'est ma très grande faute". Autoflagellation généralement prononcée par les fidèles catholiques à la fin du Confiteor dans les temps anciens où la messe était en latin (et comme disait Brassens, "sans le latin, sans le latin, la messe nous emmerde...")

Bref je brode, je brode, telle l'élève prise en faute et qui essaie de noyer ses bêtises sous un vernis de futilité ou de latinité.

Mais il faut bien que je le dise, et que je fasse pénitence publique : j'ai commis une indélicatesse.

Il y a quelques semaines, en décembre, je fulminais dans un billet consacré à GoogleBooks contre un universitaire franco-québécois qui reprochait à Google de confisquer les algorithmes permettant la recherche in texte dans les fichiers de livres numérisés sur Google Books. Je mettais cette réflexion, qui me semblait pessimiste et à la limite de la paranoïa anti-google, en regard des réflexions de Robert Darnton qui se réjouit de la numérisation en masse au nom de l'ouverture des savoirs.

En l'état actuel du texte de monsieur Guédon, je suis toujours extrêmement dubitative face à son raisonnement. Comme je l'ai indiqué, il me semble très peu probable que Google prenne la peine et le temps de construire un fichier "texte" de ses numérisations à seule fin de pouvoir faire de la recherche dedans, et je ne crois pas non plus qu'il y ait derrière l'entreprise de numérisation de Google une volonté de domination intellectuelle. Une volonté d'être LA référence, LA source dominante, c'est indéniable. Mais c'est tout. Et Gallica, qui numérise des textes de la BNF, est sur le même plan.

Mais il se trouve que monsieur Guédon, sur le blog qu'il tient à l'intérieur du magazine en ligne Booksmag, a depuis écrit plusieurs billets. Il a également réagi au petit mot que je lui avait mis concernant Wikisource comme alternative pour numériser des textes libres.

Dans ses billets, et dans sa réponse, Jean-Claude Guédon semble bien davantage être dans une posture d'ouverture à la culture numérique. Il explique et encourage les licences Creative Commons, il affirme apprécier Wikipédia, il se demande dans quelle mesure il n'y a pas volonté de conservation et de maîtrise de la culture dans certaines institutions qui freinent des quatre fers devant l'ouverture numérique et les principes du web collaboratif. Il semble à le lire qu'il a une posture très intéressante et en cherchant un peu "qui" il était, je me suis rendu compte que c'est une personne très au courant et très ouverte au monde numérique, spécialisée dans ce domaine, et donnant de nombreuses conférences et interview sur ce sujet.

J'en comprends encore moins son billet sur Google Books, mais je crois que je me devais de reconnaître avoir jugé trop hâtivement ce monsieur. Je lui ai mis un petit mot sur Booksmag, lui parlant de mon billet "rageur", m'excusant de l'avoir jugé trop vite et lui proposant si besoin de corriger mon billet pour en enlever tout ce qui pourrait paraître insultant. Lui disant aussi que j'allais faire un mot "réparateur" sur mon blog. Il m'a répondu qu'il allait me répondre sur Booksmag. J'espère ne pas avoir été trop maladroite...

Voilà, c'était ma boulette. La leçon de morale du jour ? Réfléchir avant d'écrire... je ne renie absolument pas ma sincérité totale lorsque j'ai écrit mon billet, le 15 décembre dernier. Mais j'aurais dû sans doute prendre le temps de la réflexion et d'abord entamer le débat avec lui au lieu de le déplacer ici.
Par Serein - Publié dans : Et ailleurs, ça se passe comment ? - Communauté : Autour de Wikipédia
Ecrire un commentaire - Voir les 6 commentaires - Recommander
Retour à l'accueil

Commentaires

Question de profane (je dois parfois faire de l'auto-piercing) : une recherche Google sur un mot ou sur une expression fournit souvent un passage d'un livre numérisé sur Google Books. Le mot ou l'expression est surligné dans le résultat. Cela n'indique-t-il pas qu'il y a un fichier texte associé au livre ?
Commentaire n°1 posté par Perce-Niais le 22/01/2009 à 08h50
Je ne suis pas une spécialiste de la numérisation, donc prends avec des pincettes ce que je peux dire.
En même temps, pour en avoir discuté avec plusieurs personnes, il semble hautement improbable que Google, qui numérise des centaines de milliers de textes, possède un fichier texte de chacun. Si tu as un peu contribué sur Wikisource, tu auras vu le temps que ça prend de corriger un OCR et de "remettre d'aplomb" un texte numérisé. Il faudrait des centaines de petites mains, de surcroit formées à la correction et parfois au déchiffrage de textes anciens. Or Google n'emploie pas ce genre de personnel.
Gallica, qui numérise les textes de la BNF, a comme fonctionnalité dans sa dernière version (Gallica 2) de pouvoir faire de la recherche in texte dans quelques livres. A priori, ils n'ont pas non plus de personnel travaillant sur un fichier texte, juste des techniciens qui numérisent.

Donc je pense qu'il y a un système permettant de faire de la recherche dans le texte, mais simplement à partir du fichier originel. Cela pourrait expliquer pourquoi on peut faire cette recherche dans le texte quand on est sur le site du "numérisateur" (Google Books ou Gallica 2) et pas quand on a téléchargé le fichier.

Je vais essayer de me renseigner de façon un peu plus précise sur ce sujet. C'est vrai que c'est troublant. En même temps, il me paraît vraiment hautement improbable que Google ait des fichiers textes.
Réponse de Serein le 22/01/2009 à 09h44
J'aime bien la morale. J'espère qu'"on" te lira avec attention, même si tu es moi, ou pas.
Commentaire n°2 posté par Pierrot le Chroniqueur le 22/01/2009 à 13h28
1) HAHA! ;)

2) Google doit très certainnement (cela me semble impossible de faire autrement) sauvegarder les textes avec les images des bouquins pour les raisons suivantes :
— on peut faire des recherches dans les bouquins, donc il y a obligatoirement un index (mots -> endroit du livre)
— les fichiers textes c'est pas lourd, comparé à une image, ou pire à une vidéo
— google est riche
— google à de gros serveurs (en terme d'espace disque)
— google à les moyens de se payer des serveurs puissants (en terme de calcul)
—google à les moyens de se payer des chercheurs et des ingénieurs pour améliorer les algorithmes de reconnaissance de caractère, qu'ils feront tourner sur les seveurs puissant

Mais il reste ta question : pourquoi ne nous permet-il pas de télécharger le texte ? Certainnement pour éviter de trop gros problème de droit d'auteur. Si on pouvais télécharger le fichier texte, des personnes auraient créer en très peu de temps un logiciel pour télécharger tout le livre automatiquement (le logiciel ferait plusieurs recherches d'affilés pour récolter toutes les parties et aurait ensuite recolé les morceaux).
Commentaire n°3 posté par Olympi le 22/01/2009 à 22h50
En fait, ce qui me perturbe avec cette histoire de fichiers textes, c'est que normalement les OCR butent sur les textes anciens à cause de la typographie ancienne.
Il y a notamment un problème avec les s et les f qui ne s'écrivent pas pareil dans les imprimés jusqu'à la fin du XIXe siècle.
Avoir un fichier texte potable permettant de faire une recherche nécessite donc un gros travail de reprise manuelle de l'OCR brut.  Or à ma connaissance le personnel de Google n'est pas du genre à faire des vérifications manuelles.
La question que je me pose donc est : Google a-t-il un moyen de faire la recherche soit dans l'image originelle, soit dans l'OCR originel et de corriger instantanément les différences typographiques ? Quelque chose qui ne serait faisable qu'avec de gros moyens informatiques et ne pourrait donc être distribué à tous ?

Je cherche pour l'instant sans trouver la réponse... je crois qu'il faudrait chercher du côté de la BNF, qui semble fonctionner de la même façon pour Gallica2.

Pour la question des droits d'auteur, elle ne se pose que pour les textes encore soumis au droit d'auteur. Pour les textes libres de droits, on peut déjà télécharger l'ensemble des bouquins.
Réponse de Serein le 22/01/2009 à 23h01
En fait, il me semble que Google Books permet bel et bien de faire une recherche dabs un livre. Allez dans "A propos de ce livre" et vous obtenez par exemple cette page :
http://books.google.be/books?id=ES4VAAAAQAAJ&hl=fr
où il y a une rubrique "Rechercher dans ce livre". (Mais je ne suis pas sûr que le résultat soit très bon. Il dépend sûrement d'une OCR.
En outre, il me semble que Google Books permet aussi de télécharger les livres, au moins certains. Voyez cette page :
http://books.google.be/books?id=ES4VAAAAQAAJ&pg=PA87&lpg=PA87&dq=pibrac++%22apologie+%C3%A0+la+reine+marguerite%22&source=bl&ots=X7xtjpo9gE&sig=FaxTpcPIewBk-8khiyM7Dqy4dnA&hl=fr&sa=X&oi=book_result&resnum=1&ct=result#PPA88,M1
Il y a une rubrique "Télécharger".
Commentaire n°4 posté par Perce-Niais le 23/01/2009 à 15h37
« Il y a notamment un problème avec les s et les f qui ne s'écrivent pas pareil dans les imprimés jusqu'à la fin du XIXe siècle. »
Il suffit d'apter l'algorithme pour ce genre de cas.

« Avoir un fichier texte potable permettant de faire une recherche nécessite donc un gros travail de reprise manuelle de l'OCR brut. »
Bof, avec un bon algo qui ne fait par exemple que chercher l'orthographe de mot on doit, par exemple, arriver facilement à modifier un 0 (zero) en o (lettre). Vu que j'y connais rien en OCR, mon imagination doit être largement dépassé par la complexe et la qualité de corrections des algos réellement utilisés.

« Google a-t-il un moyen de faire la recherche soit dans l'image originelle, soit dans l'OCR originel et de corriger instantanément les différences typographiques ? Quelque chose qui ne serait faisable qu'avec de gros moyens informatiques et ne pourrait donc être distribué à tous ? »
Oui il le font, mais en amont après le scan du livre, puis avec le texte il l'index et mets tous ça dans la base du moteur de recherche. Si bien que lorsque vous chercher «toto» google va trouver tous les livres comportant le mot «toto» et même savoir où il se trouve dans les livres.

« n fait, il me semble que Google Books permet bel et bien de faire une recherche dabs un livre. Allez dans "A propos de ce livre" et vous obtenez par exemple cette page : »
Sans même chercher aussi loin, en haut à droite de la page internet lorsqu'on se trouve sur un livre il y a la boite de recherche.

Commentaire n°5 posté par Olympi le 23/01/2009 à 21h07
@ Perce-Niais et Olympi : oui, je sais bien qu'on peut faire de la recherche dans les livres numérisés par Google, et je le fais très régulièrement, c'est notamment très pratique pour tout un tas de bouquins anciens qui sont dans le domaine public mais peu accessibles hors des très grandes bibliothèques.

La question n'est pas là du tout. La question est : Google a-t-il quelque part un fichier texte issu de son logiciel de reconnaissance de caractère (OCR) pour chaque livre numérisé ?

Mr Guédon semblait penser que oui, et que volontairement Google ne le met pas en accès libre, afin d'obliger le lecteur à se rendre à chaque fois sur GoogleBooks pour faire de la recherche in texte, ou à télécharger le bouquin en entier, mais en mode image et donc sans recherche in texte possible.

Pour ma part je doute que Google fasse l'effort de produire un fichier texte à chaque fois, et je pense plutôt qu'il y a une méthode pour faire ce travail de recherche in texte directement sur l'image, où à partir d'un OCR trop "brut" pour être mis à disposition des internautes. Gallica 2, le site d'ouvrages numérisés de la BNF, procède apparemment de la même manière.
Réponse de Serein le 23/01/2009 à 21h27
Pour faire simple, voici les étapes pour l'OCR :
1) scan du livre, on optient une image
2) on traite l'image pour obtenir le texte
3) on corrige le texte pour lutter contre les erreurs de lecture
4) on index le texte
5) l'utilisateur peut faire une recherche

Il faut savoir que les opérations les plus coûteuses en temps sont les 1), 2) et 3), et alogriquement les plus difficiles sont les 2) et 3). Ces deux dernières opérations (lecture et correction) dure pour tout un livre plusieur seconde, bien plus que le temps d'une requêtes internet (temps entre l'arrivé de la demande de la page et le début de livraison par le serveur), même pas une seconde !

Il me semble donc obligatoire pour Google de sauvegarder les textes, au minnimum coupés par mot dans son index. Que Google ne garde pas les textes d'un bloque me semblerait ridicule de leur part. Ces textes pourront toujours servir plus tard.

Les raisons pour ne pas délivrer le texte lui-même, mais seuleument son image ? Pour forcer la vente de livre, accord légaux peut-être, pour ne pas en faire profiter d'autres projets. Bref garder le fruit de son travail, rien de bien étrange pour une entreprise.
Commentaire n°6 posté par Olympi le 23/01/2009 à 23h08
Créer un blog sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus