dimanche, décembre 19, 2010

Google N-Gram : des choses cachées depuis le commencement du monde

Etes-vous déjà allé tester le service Google N-Gram mis en ligne sur le GoogleLabs ?

C'est assez fascinant, et c'est une belle illustration de ce que je commençais à évoquer dans mon dernier billet sur les big data.

Comme l'expliquent les responsables du projet sur le blog officiel, Google vient tout simplement de mettre à la disposition des chercheurs un invraisemblable corpus. 5 millions de livres ont été numérisés soit, paraît-il, environ 4% des livres imprimés depuis l'aube de l'humanité. Je suppose que la distribution de ces ouvrages, censément en six langues, est accessibles quelque part.
Google Research a ensuite trié les 1000 milliards de mots concernés, pour en construire le modèle n-gram pour n=5. En gros, ils créé le corpus de toutes les séquences de 1 à 5 mots disponibles. 1000 milliards de mots, 13 millions de mots différents, 1 milliard de séquences apparaissant au moins 40 fois, le tout disponible pour la recherche ou même accessible en ligne sur le GoogleLabs.


Tout un chacun peut ainsi lancer ses propres recherches. Je me suis ainsi amusé à observer les destins presque croisés de deux grands acteurs de l'affaire Dreyfus : Charles Péguy et Emile Zola, qui semblent subir, dans la littérature française, une opposition ressuscitée à chaque période de guerre.

Amusant aussi de constater à quel point cette perception est différente quand on s'intéresse aux essais de langue anglaise :

Toutes sortes de recherches, des plus naïves aux plus élaborées deviennent ainsi possibles. Je félicite ainsi James Becht d'avoir préempté l'analyse des évolutions comparées de l'Amour, la Mort, la Guerre, le Christ et le Diable entre 1800 et 2000, puis avoir commencé une analyse des évolutions des doctrines politiques...

Ce que ces exemples ne font pas bien sentir, c'est justement qu'on est entré dans un autre ordre que ces premières questions, somme toute encore un peu gadget. On dispose désormais d'un corpus extraordinairement important, qui demanderait des dizaines de milliers d'années de vie de lecteur pour être analysé, et qui est pourtant rendu manipulable, analysable, ouvert au travail et à l'interprétation.

Boing Boing titre ainsi Data mining the intellectual history of the human race with Google Book Search et montre comment on commence à pouvoir poser des questions, dessiner des patterns, suggérer des hypothèses qui étaient tout simplement insoupçonnables avant l'ouverture de ce corpus. Google a en effet eu soin de transmettre son corpus à de nombreux chercheurs avant l'ouverture au public, ce qui a valu une première grande publication dans Science jeudi dernier, intitulée "Analyse quantitative de la culture humaine en utilisant des millions de livres digitalisés". Les auteurs de l'article commencent ainsi à regarder la demie-vie de l'intérêt pour les grandes dates charnières de l'histoire, et à mesurer ainsi l'accélération du temps. Nous ne sommes qu'au début du travail.

Jean Véronis, qui a pu accéder au corpus en avant-première, comme d'autres chercheurs dans le monde, présente excellemment les perspectives de cette nouvelle science, que l'équipe de Google a baptisé culturonomics, mélange de culture et de génomique (il faudra au passage que nous creusions un jour cette proximité entre les websciences et les sciences du vivant, qui semble extrêmement féconde des deux côtés de l'Atlantique).

Je crois que cet exemple montre magnifiquement comment les big data ne sont pas seulement "plus de données", mais l'ouverture vers un autre ordre des données. Les questions que nous pouvons poser, tout un chacun, à ce corpus, étaient tout simplement hors de propos il y a six mois. La littérature vient d'être dotée d'un deuxième langage. Comme si on n'avait encore jamais entendu l'orchestre jouer au complet. Comme si ses significations les plus souterraines étaient aujourd'hui mises au grand jour.

Mais aussi de nouvelles questions. Je vous presse de lire le passionnant article d'Olivier Ertzscheid, Culturonomics : juste une question de corpus ?, qui ouvre une perspective passionnante sur cette notion de corpus, analysé par lui comme objet de possession, et sur les enjeux qui se dessinent autour de la maîtrise de ces immenses corpus.

2 commentaires:

  1. C'est en effet une interface passionnante... Dès samedi dernier je me suis mis à faire plusieurs comparatifs, entre autres :

    Doctrines politiques 1800-2000

    http://jamesbecht.blogspot.com/2010/12/occurence-des-mots-doctrines-politiques.html

    Amour, Guerre, Mort

    http://jamesbecht.blogspot.com/2010/12/lamour-la-mort-la-guerre-le-christ-et.html

    RépondreSupprimer
  2. Je vous signale aussi ce remarquable article, très problématisé, sur les précautions techniques et épistémologiques à l'utilisation du n-gram viewer : http://socioargu.hypotheses.org/1963

    RépondreSupprimer