J'ai longuement hésité à écrire ce billet ici ou sur mon blog "janséniste", parce qu'il croise typiquement ma vie wikipédienne et ma vie d'historienne. Finalement, comme je crois que mes lectorats ne sont que
partiellement en intersection, je le publie sur les deux blogs.
Donc, GoogleBooks. Les wikipédiens le connaissent bien, les autres peut-être un peu moins. C'est un service de Google qui numérise à tour de bras
des livres, les mettant sur internet en mode image, intégralement ou partiellement (cela dépend essentiellement du droit d'auteur). La recherche in texte par moteur de recherche est
possible, la qualité des scans inégale mais globalement satisfaisante, l'offre augmente de jours en jours, et cela est bien pratique.
Je me sers souvent de GoogleBooks, soit pour avoir accès à des livres anciens (c'est dur d'habiter la "province" et d'être loin des riches
bibliothèques parisiennes !), soit - sur Wikipédia - pour rechercher des copyvios.
Or, depuis l'épisode Wikigrill (voir mon billet consacré au sujet), je
regarde régulièrement le site de ce magazine (Booksmag). J'ai même déboursé 3 euros pour acheter l'exemplaire papier tout à l'heure, et voir un peu de quoi
il s'agit. Sur Booksmag.fr, il y a eu dernièrement deux articles intéressants consacrés à GoogleBooks, et surtout intéressants par leurs
contradictions.
- Robert Darnton se réjouit de la numérisation par Google, restant extrêmement prudent face aux lacunes bibliographiques de l'outil, mais se
réjouissant de ce que "Le moteur de recherche de Google va mettre le savoir accumulé dans les livres à la portée de tout un chacun ou, du moins, de toute la population du monde qui dispose d’un
accès à Internet." Il prend une posture d'ouverture et de volonté de diffusion du savoir : "Je crois profondément à la démocratisation du savoir. (...) Étant à la tête de la plus grande
bibliothèque universitaire du monde, je suis favorable à la numérisation complète de tous les livres portant sur des sujets d’intérêt général et à la mise en ligne progressive, à titre gratuit,
de tous les livres de nos collections dont le contenu est tombé dans le domaine public.".
Soulignant qu'Harvard a été la première université à signer un partenariat avec Google, il estime que "C’est un pas tangible vers l’instauration
d’une république des lettres, et d’une citoyenneté universelle au sein de cette république.".
Il estime que la critique de Google par Jean-Noël Jeanneney se conçoit si elle débouche sur une marche pluraliste vers la numérisation des
livres, tout en considérant qu'il y a certainement un peu "d’antiaméricanisme, même si Jeanneney connaît bien les États-Unis et n’est nullement un anti-américain primaire.".
Il considère que les limites du projet de numérisation de Google se heurte principalement aux deux écueils que sont : - sur la quantité, le problèmes des droits d'auteurs (qu'il qualifie ainsi :" La propriété littéraire, dont les règles sont certes parfois
archaïques, est un obstacle majeur à une numérisation totale.") - sur la qualité, le problème des multiples éditions de livres, surtout pour les XVIIe et XVIIIe siècles (les éditions sont parfois différentes),
et l'absence de bibliographes au sein du projet Google.
Mais globalement, il estime que c'est un projet très intéressant, et qu'il ne tuera pas le livre, pas plus que la télévision n'a tuée la radio,
ni l'imprimerie l'écrit manuscrit.
- Jean-Claude Guédon, lui, s'attache à un aspect particulier de Google Books pour faire part de sa désapprobation du projet. Il s'attaque au
problème de la recherche dans le texte, expliquant qu'il a sans problème trouvé un exemplaire complet de Madame Bovary sur Google Books, qu'il y a fait une recherche in texte, mais que
lorsqu'il a téléchargé le livre dans son disque dur il ne peut plus faire cette recherche. Forcément, puisqu'il télécharge le pdf du scan de l'image, et non le texte proprement dit.
Il en déduit donc que Google est en train " de monopoliser tout le champ algorithmique en train de croître autour des documents numérisés", qu'il
cherche à "devenir le système d'exploitation dominant, voire unique, de cette algorithmique." Que si on ne passe pas par Google, on ne peut que rester au XXe siècle et au livre papier.
Ce que ce monsieur semble ignorer, c'est que Gallica, le site de numérisations de la BNF, procède exactement de la même façon (à ces
inconvénients près qu'on ne peut quasiment jamais faire de recherche dans le texte, que les scans sont pourris la plupart du temps et qu'il n'est pas indexé par les moteurs de recherche). Donc
Gallica est également une entreprise de domination du monde ? Mon Dieu, mais quelle horreur !
Du coup, charitable, je suis allée lui indiquer que sur Wikisource il pouvait trouver
un fichier texte de Madame Bovary, totalement libre, sans aliénation algorithmique, et où il pourra faire toutes les recherches qu'il veut, même en téléchargeant le texte (puisque c'est
du texte et non de l'image).
Que retenir de ces deux textes ? D'une part l'ouverture, de l'autre la crispation. D'un côté la curiosité d'un universitaire connu pour ses
travaux importants sur le XVIIIe siècle (ce n'est pas un geek, tout étudiant en histoire a lu Darnton), qui se réjouit que davantage de monde - et en premier lieu les chercheurs - puisse avoir
accès aux livres anciens, de l'autre un universitaire qui s'étonne d'une chose somme toute logique (on ne fait pas de recherche in texte dans une image) et en tire des conclusions alarmistes sur
la domination de Google. C'est bien simple, avant de voir la présentation de M. Guédon, j'ai cru que c'était un intellectuel français ;-) L'esprit étroit de nos chères
élites a-t-il donc contaminé le Canada ? Diantre, tout est perdu alors...
Bref, je préfère avoir tort avec Darnton que raison avec Guédon (ou plutôt, je préfère être optimiste avec Darnton que parano avec Guédon), moi
aussi je me réjouis d'avoir des textes disponibles, je n'en suis pas pour autant un suppôt de Google et j'aime lire des vrais livres en papier. Et si je peux résoudre l'impossible casse-tête de faire ma thèse tout en bossant jusqu'à 17h, puis en m'occupant de mes enfants, et faire avec
une bibliothèque municipale certes riche mais qui ferme tôt, ne prête pas ses livres et est fermée le dimanche, en trouvant quelques livres sur Google Books, Gallica et Wikisource, et bien je
m'estimerai heureuse. Tout le monde n'est pas solitaire, oisif et parisien.
« Bref, je préfère avoir tort avec Darnton que raison avec Guédon (ou plutôt, je préfère être optimiste avec Darnton que parano avec Guédon) » Et les deux points de vue ne sont pas conciliablent peut-être ? De plus, ce n'est pas pour rien que d'autres projets de bibliothéques virtuelles ont vu le jour, c'est bien pour contrer un possible monopole de google.
Commentaire n°1
posté par
olympi
le 15/12/2008 à 20h44
Disons que j'ai trouvé un peu étonnant (ou risible) que M. Guédon parte d'un point technique somme toute banal et non spécifique à Google pour en tirer la conclusion que Google cherche à
s'accaparer le monopole de la numérisation des livres, ce qui est totalement faux.
Je préfère largement l'approche ouverte et mesurée de Robert Darnton, qui se réjouit de la libre circulation des connaissances tout en soulignant que le pluralisme est nécessaire pour assurer la
meilleure "offre" possible et le plus possible de points de vue.
En ce sens les deux points de vue ne me semblent pas conciliables.
Excellent billet. Google Books est un trésor faramineux, personne n'empêche les autres de faire aussi bien ou mieux. Il est difficile de ne pas avoir l'impression que derrière le mal qu'en disent certains, il y a, inavouée, une hostilité de principe à la diffusion des sources primaires sans contrôle étatique.
Commentaire n°2
posté par
Perce-Niais
le 16/12/2008 à 12h13
En tout cas, selon http://en.wikipedia.org/wiki/Jean-Claude_Gu%C3%A9don , Jean-Claude Guédon est d'origine française ;-) .
Commentaire n°3
posté par
Boréal
le 17/12/2008 à 03h53
Notons des usages... surprenants des termes techniques « algorithmique » et « système d'exploitation ».
Je ne connais pas M. Guédon et je ne sais pas si c'était son propos, mais j'ai remarqué chez certains « intellectuels » une tendance à utiliser des mots techniques sans forcément maîtriser leur sens et, somme toute, pour dire des choses banales.
-- DM, qui enseigne l'algorithmique
Commentaire n°4
posté par
DM
le 21/12/2008 à 07h13
Personnellement je prends tellement de pincettes pour utiliser ces mots dont je sais que je ne maîtrise pas l'intégralité des définitions... que je ne les utilise pas ;-)
J'avais lu l'article de monsieur Guédon avant de lire votre billet, et je ne l'ai pas tout à fait compris de la même façon que vous. La question qui me semble intéressante c'est "dans la mesure où Google possède une version texte des livres, pourquoi ne diffuse-t-il que la version image ?" La conséquence est que pour faire une recherche on est alors obligé d'utiliser les outils de Google (peut importe leur nom ici, c'est détourner la question principale que de savoir s'il faut parler d'algorithmique ou d'autre chose). Comme vous le faites remarquer en citant Madame Bovary, certains textes sont disponibles ailleurs et si l'on veut faire une recherche sur ce texte, on peut en allant voir ailleurs. Il n'empêche que si certains ouvrages sont numérisés par Google et seulement par Google, il n'y aura que les outils de recherche de Google qui permettront de faire une recherche dans le texte de ces ouvrages. Vous citez également Gallica qui ne diffuse que les versions "image" des livres qui ont été scannés. Si je ne me trompe Gallica n'a pas les versions "texte" de ces ouvrages et ne peut donc pas les diffuser. Nous en revenons donc à la question principale qu'avait le mérite de poser monsieur Guédon : pourquoi Google, dans la mesure où il possède des ouvrages numérisés (sous les deux formes : texte et image, ne met-il à disposition que la version "image" de ces ouvrages, obligeant l'utilisateur de passer obligatoirement par les outils mis à disposition par Google pour faire des recherches ? J'en profite pour signaler un projet très intéressant, le projet Gutenberg, qui met notamment à disposition les versions "texte" des ouvrages scannés, dont les sources sont diverses. On y trouve notamment des ouvrages venant de Gallica. Le travail de relecture et de mise en forme s'appuie sur des équipes de bénévoles, dont le travail est organisé de façon remarquable. Voir www.pgdp.net
Commentaire n°5
posté par
Emma
le 24/12/2008 à 11h02
Je préviens d'avance : je suis assez nulle en technique, donc prenez mes remarques avec des pincettes :
Il n'est pas sûr du tout que Google ait les versions texte des textes qu'il numérise, et je pense même que ce n'est pas le cas. Je crois qu'ils mettent en place un système de recherche dans le
texte sur les scans en "mode image" des livres. En gros, ils fonctionneraient comme Gallica, en apportant une fonctionnalité de plus.
Pour connaître un peu la manière dont cela se passe sur Wikisource, je sais que passer un document d'un mode image à un mode texte est une chose extrêmement longue et nécessitant des moyens humains
hors de portée de Google étant donné la masse de textes qu'ils numérisent. Il faut soit retaper entièrement le texte, soit utiliser des logiciels de reconnaissance de caractère (OCR) et ensuite
faire une vérification "humaine" du texte. Il me semble donc que Google n'a pas par devers lui les textes en mode "texte".
Encore une fois, je raisonne par logique et je ne peux être catégorique dans mon affirmation. Si quelqu'un passant ici en sait plus, qu'il nous éclaire ;-)
Sinon, le projet Gutenberg est effectivement une belle avancée.
J'espère que malgré le retard de ma réponse elle vous parviendra et vous satisfera.
Lire l'article orginel de Robert Darnton, The Library in the New Age en anglais dans The New York Review of Books 55-10 (juin 2008) http://www.nybooks.com/articles/21514
Au départ, sous l'influence des bibliothécaires, et par économie, Gallica a fait le choix du mode image. Avec Gallica 2, "Un certain nombre d’ouvrages sont même (sic) consultables à la fois en mode image et en mode texte" http://www.bnf.fr/pages/catalog/bibliotheque_numerique.htm
Pour la sociologie et l'histoire, Les Classiques des Sciences Sociales vérifient l'intérêt de l'artisanat et de la mutualisation sur le web, au même titre que Wikisource ou que Wikimedia Commons. http://classiques.uqac.ca/
Meilleurs voeux pour 2009
Commentaire n°6
posté par
cliohist
le 31/12/2008 à 15h16
Bonjour. Je vous ai répondu sur mon blog de Books. Désolé pour le retard de ma réponse. Cordialement. J.-C. Guédon
Commentaire n°7
posté par
Jean-Claude Guédon
le 21/01/2009 à 21h15
Bonjour Serein,
Merci pour vos commentaires sur le site de Books. Je profite de ce post pour rebondir sur le sujet. Nous avons récemment publié un texte de Darnton, qui a durci sa position depuis l'accord passé entre Google et les auteurs et éditeurs américains. Ce texte et l'interview de Darnton sont pour quelques jours en accès libre sur le site à l'occasion de la journée mondiale du livre. A bientôt, Séverine Fiévet (webmaster booksmag.fr)
Commentaire n°8
posté par
booksmag
le 24/04/2009 à 18h26
Et les deux points de vue ne sont pas conciliablent peut-être ?
De plus, ce n'est pas pour rien que d'autres projets de bibliothéques virtuelles ont vu le jour, c'est bien pour contrer un possible monopole de google.
Je préfère largement l'approche ouverte et mesurée de Robert Darnton, qui se réjouit de la libre circulation des connaissances tout en soulignant que le pluralisme est nécessaire pour assurer la meilleure "offre" possible et le plus possible de points de vue.
En ce sens les deux points de vue ne me semblent pas conciliables.
Je ne connais pas M. Guédon et je ne sais pas si c'était son propos, mais j'ai remarqué chez certains « intellectuels » une tendance à utiliser des mots techniques sans forcément maîtriser leur sens et, somme toute, pour dire des choses banales.
-- DM, qui enseigne l'algorithmique
Comme vous le faites remarquer en citant Madame Bovary, certains textes sont disponibles ailleurs et si l'on veut faire une recherche sur ce texte, on peut en allant voir ailleurs. Il n'empêche que si certains ouvrages sont numérisés par Google et seulement par Google, il n'y aura que les outils de recherche de Google qui permettront de faire une recherche dans le texte de ces ouvrages.
Vous citez également Gallica qui ne diffuse que les versions "image" des livres qui ont été scannés. Si je ne me trompe Gallica n'a pas les versions "texte" de ces ouvrages et ne peut donc pas les diffuser.
Nous en revenons donc à la question principale qu'avait le mérite de poser monsieur Guédon : pourquoi Google, dans la mesure où il possède des ouvrages numérisés (sous les deux formes : texte et image, ne met-il à disposition que la version "image" de ces ouvrages, obligeant l'utilisateur de passer obligatoirement par les outils mis à disposition par Google pour faire des recherches ?
J'en profite pour signaler un projet très intéressant, le projet Gutenberg, qui met notamment à disposition les versions "texte" des ouvrages scannés, dont les sources sont diverses. On y trouve notamment des ouvrages venant de Gallica. Le travail de relecture et de mise en forme s'appuie sur des équipes de bénévoles, dont le travail est organisé de façon remarquable. Voir www.pgdp.net
Il n'est pas sûr du tout que Google ait les versions texte des textes qu'il numérise, et je pense même que ce n'est pas le cas. Je crois qu'ils mettent en place un système de recherche dans le texte sur les scans en "mode image" des livres. En gros, ils fonctionneraient comme Gallica, en apportant une fonctionnalité de plus.
Pour connaître un peu la manière dont cela se passe sur Wikisource, je sais que passer un document d'un mode image à un mode texte est une chose extrêmement longue et nécessitant des moyens humains hors de portée de Google étant donné la masse de textes qu'ils numérisent. Il faut soit retaper entièrement le texte, soit utiliser des logiciels de reconnaissance de caractère (OCR) et ensuite faire une vérification "humaine" du texte. Il me semble donc que Google n'a pas par devers lui les textes en mode "texte".
Encore une fois, je raisonne par logique et je ne peux être catégorique dans mon affirmation. Si quelqu'un passant ici en sait plus, qu'il nous éclaire ;-)
Sinon, le projet Gutenberg est effectivement une belle avancée.
J'espère que malgré le retard de ma réponse elle vous parviendra et vous satisfera.
Lire l'article orginel de Robert Darnton,
The Library in the New Age
en anglais dans The New York Review of Books 55-10 (juin 2008)
http://www.nybooks.com/articles/21514
Au départ, sous l'influence des bibliothécaires, et par économie, Gallica a fait le choix du mode image. Avec Gallica 2, "Un certain nombre d’ouvrages sont même (sic) consultables à la fois en mode image et en mode texte"
http://www.bnf.fr/pages/catalog/bibliotheque_numerique.htm
Pour la sociologie et l'histoire, Les Classiques des Sciences Sociales vérifient l'intérêt de l'artisanat et de la mutualisation sur le web, au même titre que Wikisource ou que Wikimedia Commons. http://classiques.uqac.ca/
Meilleurs voeux pour 2009
Merci pour vos commentaires sur le site de Books. Je profite de ce post pour rebondir sur le sujet. Nous avons récemment publié un texte de Darnton, qui a durci sa position depuis l'accord passé entre Google et les auteurs et éditeurs américains. Ce texte et l'interview de Darnton sont pour quelques jours en accès libre sur le site à l'occasion de la journée mondiale du livre. A bientôt,
Séverine Fiévet (webmaster booksmag.fr)