dimanche, décembre 19, 2010

Google N-Gram : des choses cachées depuis le commencement du monde

Etes-vous déjà allé tester le service Google N-Gram mis en ligne sur le GoogleLabs ?

C'est assez fascinant, et c'est une belle illustration de ce que je commençais à évoquer dans mon dernier billet sur les big data.

Comme l'expliquent les responsables du projet sur le blog officiel, Google vient tout simplement de mettre à la disposition des chercheurs un invraisemblable corpus. 5 millions de livres ont été numérisés soit, paraît-il, environ 4% des livres imprimés depuis l'aube de l'humanité. Je suppose que la distribution de ces ouvrages, censément en six langues, est accessibles quelque part.
Google Research a ensuite trié les 1000 milliards de mots concernés, pour en construire le modèle n-gram pour n=5. En gros, ils créé le corpus de toutes les séquences de 1 à 5 mots disponibles. 1000 milliards de mots, 13 millions de mots différents, 1 milliard de séquences apparaissant au moins 40 fois, le tout disponible pour la recherche ou même accessible en ligne sur le GoogleLabs.