Google Books : un "géant" vu comme un danger ou une opportunité

Publié le par Serein

J'ai longuement hésité à écrire ce billet ici ou sur mon blog "janséniste", parce qu'il croise typiquement ma vie wikipédienne et ma vie d'historienne. Finalement, comme je crois que mes lectorats ne sont que partiellement en intersection, je le publie sur les deux blogs.

Donc, GoogleBooks. Les wikipédiens le connaissent bien, les autres peut-être un peu moins. C'est un service de Google qui numérise à tour de bras des livres, les mettant sur internet en mode image, intégralement ou partiellement (cela dépend essentiellement du droit d'auteur). La recherche in texte par moteur de recherche est possible, la qualité des scans inégale mais globalement satisfaisante, l'offre augmente de jours en jours, et cela est bien pratique.

Je me sers souvent de GoogleBooks, soit pour avoir accès à des livres anciens (c'est dur d'habiter la "province" et d'être loin des riches bibliothèques parisiennes !), soit - sur Wikipédia - pour rechercher des copyvios.

Or, depuis l'épisode Wikigrill (voir mon billet consacré au sujet), je regarde régulièrement le site de ce magazine (Booksmag). J'ai même déboursé 3 euros pour acheter l'exemplaire papier tout à l'heure, et voir un peu de quoi il s'agit.
Sur Booksmag.fr, il y a eu dernièrement deux articles intéressants consacrés à GoogleBooks, et surtout intéressants par leurs contradictions.

L'un est une longue interview de Robert Darnton, éminent historien américain et directeur du réseau des bibliothèques d'Harvard (excusez du peu !), intitulée "L'initative Google signe une étape dans la démocratisation du savoir". L'autre est un billet d'humeur de Jean-Claude Guédon, professeur de littérature comparée à l'université de Montréal et (si j'ai bien compris) historien des sciences, qui titre "Google Books : le vrai piège".

Que disent-ils ?

- Robert Darnton se réjouit de la numérisation par Google, restant extrêmement prudent face aux lacunes bibliographiques de l'outil, mais se réjouissant de ce que "Le moteur de recherche de Google va mettre le savoir accumulé dans les livres à la portée de tout un chacun ou, du moins, de toute la population du monde qui dispose d’un accès à Internet." Il prend une posture d'ouverture et de volonté de diffusion du savoir : "Je crois profondément à la démocratisation du savoir. (...) Étant à la tête de la plus grande bibliothèque universitaire du monde, je suis favorable à la numérisation complète de tous les livres portant sur des sujets d’intérêt général et à la mise en ligne progressive, à titre gratuit, de tous les livres de nos collections dont le contenu est tombé dans le domaine public.".

Soulignant qu'Harvard a été la première université à signer un partenariat avec Google, il estime que "C’est un pas tangible vers l’instauration d’une république des lettres, et d’une citoyenneté universelle au sein de cette république.".

Il estime que la critique de Google par Jean-Noël Jeanneney se conçoit si elle débouche sur une marche pluraliste vers la numérisation des livres, tout en considérant qu'il y a certainement un peu "d’antiaméricanisme, même si Jeanneney connaît bien les États-Unis et n’est nullement un anti-américain primaire.".

Il considère que les limites du projet de numérisation de Google se heurte principalement aux deux écueils que sont :
- sur la quantité, le problèmes des droits d'auteurs (qu'il qualifie ainsi :" La propriété littéraire, dont les règles sont certes parfois archaïques, est un obstacle majeur à une numérisation totale.")
- sur la qualité, le problème des multiples éditions de livres, surtout pour les XVIIe et XVIIIe siècles (les éditions sont parfois différentes), et l'absence de bibliographes au sein du projet Google.

Mais globalement, il estime que c'est un projet très intéressant, et qu'il ne tuera pas le livre, pas plus que la télévision n'a tuée la radio, ni l'imprimerie l'écrit manuscrit.

- Jean-Claude Guédon, lui, s'attache à un aspect particulier de Google Books pour faire part de sa désapprobation du projet. Il s'attaque au problème de la recherche dans le texte, expliquant qu'il a sans problème trouvé un exemplaire complet de Madame Bovary sur Google Books, qu'il y a fait une recherche in texte, mais que lorsqu'il a téléchargé le livre dans son disque dur il ne peut plus faire cette recherche. Forcément, puisqu'il télécharge le pdf du scan de l'image, et non le texte proprement dit.

Il en déduit donc que Google est en train " de monopoliser tout le champ algorithmique en train de croître autour des documents numérisés", qu'il cherche à "devenir le système d'exploitation dominant, voire unique, de cette algorithmique." Que si on ne passe pas par Google, on ne peut que rester au XXe siècle et au livre papier.

Ce que ce monsieur semble ignorer, c'est que Gallica, le site de numérisations de la BNF, procède exactement de la même façon (à ces inconvénients près qu'on ne peut quasiment jamais faire de recherche dans le texte, que les scans sont pourris la plupart du temps et qu'il n'est pas indexé par les moteurs de recherche). Donc Gallica est également une entreprise de domination du monde ? Mon Dieu, mais quelle horreur !

Du coup, charitable, je suis allée lui indiquer que sur Wikisource il pouvait trouver un fichier texte de Madame Bovary, totalement libre, sans aliénation algorithmique, et où il pourra faire toutes les recherches qu'il veut, même en téléchargeant le texte (puisque c'est du texte et non de l'image).


Que retenir de ces deux textes ? D'une part l'ouverture, de l'autre la crispation. D'un côté la curiosité d'un universitaire connu pour ses travaux importants sur le XVIIIe siècle (ce n'est pas un geek, tout étudiant en histoire a lu Darnton), qui se réjouit que davantage de monde - et en premier lieu les chercheurs - puisse avoir accès aux livres anciens, de l'autre un universitaire qui s'étonne d'une chose somme toute logique (on ne fait pas de recherche in texte dans une image) et en tire des conclusions alarmistes sur la domination de Google.
C'est bien simple, avant de voir la présentation de M. Guédon, j'ai cru que c'était un intellectuel français ;-) L'esprit étroit de nos chères élites a-t-il donc contaminé le Canada ? Diantre, tout est perdu alors...

Bref, je préfère avoir tort avec Darnton que raison avec Guédon (ou plutôt, je préfère être optimiste avec Darnton que parano avec Guédon), moi aussi je me réjouis d'avoir des textes disponibles, je n'en suis pas pour autant un suppôt de Google et j'aime lire des vrais livres en papier.
Et si je peux résoudre l'impossible casse-tête de faire ma thèse tout en bossant jusqu'à 17h, puis en m'occupant de mes enfants, et faire avec une bibliothèque municipale certes riche mais qui ferme tôt, ne prête pas ses livres et est fermée le dimanche, en trouvant quelques livres sur Google Books, Gallica et Wikisource, et bien je m'estimerai heureuse. Tout le monde n'est pas solitaire, oisif et parisien.




Commenter cet article

booksmag 24/04/2009 18:26

Bonjour Serein,Merci pour vos commentaires sur le site de Books. Je profite de ce post pour rebondir sur le sujet. Nous avons récemment publié un texte de Darnton, qui a durci sa position depuis l'accord passé entre Google et les auteurs et éditeurs américains. Ce texte et l'interview de Darnton sont pour quelques jours en accès libre sur le site à l'occasion de la journée mondiale du livre. A bientôt,Séverine Fiévet (webmaster booksmag.fr)

Jean-Claude Guédon 21/01/2009 21:15

Bonjour. Je vous ai répondu sur mon blog de Books. Désolé pour le retard de ma réponse. Cordialement. J.-C. Guédon

cliohist 31/12/2008 15:16

Merci à Serein pour sa veille attentive.Lire l'article orginel de Robert Darnton, The Library in the New Ageen anglais dans The New York Review of Books 55-10 (juin 2008)http://www.nybooks.com/articles/21514Au départ, sous l'influence des bibliothécaires, et par économie, Gallica a fait le choix du mode image.  Avec Gallica 2, "Un certain nombre d’ouvrages sont même (sic) consultables à la fois en mode image et en mode texte"http://www.bnf.fr/pages/catalog/bibliotheque_numerique.htmPour la sociologie et l'histoire, Les Classiques des Sciences Sociales vérifient l'intérêt de l'artisanat et de la mutualisation sur le web, au même titre que Wikisource ou que Wikimedia Commons. http://classiques.uqac.ca/Meilleurs voeux pour 2009

Emma 24/12/2008 11:02

J'avais lu l'article de monsieur Guédon avant de lire votre billet, et je ne l'ai pas tout à fait compris de la même façon que vous. La question qui me semble intéressante c'est "dans la mesure où Google possède une version texte des livres, pourquoi ne diffuse-t-il que la version image ?" La conséquence est que pour faire une recherche on est alors obligé d'utiliser les outils de Google (peut importe leur nom ici, c'est détourner la question principale que de savoir s'il faut parler d'algorithmique ou d'autre chose).Comme vous le faites remarquer en citant Madame Bovary, certains textes sont disponibles ailleurs et si l'on veut faire une recherche sur ce texte, on peut en allant voir ailleurs. Il n'empêche que si certains ouvrages sont numérisés par Google et seulement par Google, il n'y aura que les outils de recherche de Google qui permettront de faire une recherche dans le texte de ces ouvrages.Vous citez également Gallica qui ne diffuse que les versions "image" des livres qui ont été scannés. Si je ne me trompe Gallica n'a pas les versions "texte" de ces ouvrages et ne peut donc pas les diffuser.Nous en revenons donc à la question principale qu'avait le mérite de poser monsieur Guédon : pourquoi Google, dans la mesure où il possède des ouvrages numérisés (sous les deux formes : texte et image, ne met-il à disposition que la version "image" de ces ouvrages, obligeant  l'utilisateur de passer obligatoirement par les outils mis à disposition par Google pour faire des recherches ?J'en profite pour signaler un projet très intéressant, le projet Gutenberg, qui met notamment à disposition les versions "texte" des ouvrages scannés, dont les sources sont diverses. On y trouve notamment des ouvrages venant de Gallica. Le travail de relecture et de mise en forme s'appuie sur des équipes de bénévoles, dont le travail est organisé de façon remarquable. Voir www.pgdp.net

Serein 28/12/2008 20:26


Je préviens d'avance : je suis assez nulle en technique, donc prenez mes remarques avec des pincettes :

Il n'est pas sûr du tout que Google ait les versions texte des textes qu'il numérise, et je pense même que ce n'est pas le cas. Je crois qu'ils mettent en place un système de recherche dans le
texte sur les scans en "mode image" des livres. En gros, ils fonctionneraient comme Gallica, en apportant une fonctionnalité de plus.

Pour connaître un peu la manière dont cela se passe sur Wikisource, je sais que passer un document d'un mode image à un mode texte est une chose extrêmement longue et nécessitant des moyens humains
hors de portée de Google étant donné la masse de textes qu'ils numérisent. Il faut soit retaper entièrement le texte, soit utiliser des logiciels de reconnaissance de caractère (OCR) et ensuite
faire une vérification "humaine" du texte. Il me semble donc que Google n'a pas par devers lui les textes en mode "texte".
Encore une fois, je raisonne par logique et je ne peux être catégorique dans mon affirmation. Si quelqu'un passant ici en sait plus, qu'il nous éclaire ;-)

Sinon, le projet Gutenberg est effectivement une belle avancée.

J'espère que malgré le retard de ma réponse elle vous parviendra et vous satisfera.


DM 21/12/2008 07:13

Notons des usages... surprenants des termes techniques « algorithmique » et « système d'exploitation ».Je ne connais pas M. Guédon et je ne sais pas si c'était son propos, mais j'ai remarqué chez certains « intellectuels » une tendance à utiliser des mots techniques sans forcément maîtriser leur sens et, somme toute, pour dire des choses banales.-- DM, qui enseigne l'algorithmique

Serein 21/12/2008 11:08


Personnellement je prends tellement de pincettes pour utiliser ces mots dont je sais que je ne maîtrise pas l'intégralité des définitions... que je ne les utilise pas ;-)