Etes-vous déjà allé tester le service Google N-Gram mis en ligne sur le GoogleLabs ?
C'est assez fascinant, et c'est une belle illustration de ce que je commençais à évoquer dans mon dernier billet sur les big data.
Comme l'expliquent les responsables du projet sur le blog officiel, Google vient tout simplement de mettre à la disposition des chercheurs un invraisemblable corpus. 5 millions de livres ont été numérisés soit, paraît-il, environ 4% des livres imprimés depuis l'aube de l'humanité. Je suppose que la distribution de ces ouvrages, censément en six langues, est accessibles quelque part.
Google Research a ensuite trié les 1000 milliards de mots concernés, pour en construire le modèle n-gram pour n=5. En gros, ils créé le corpus de toutes les séquences de 1 à 5 mots disponibles. 1000 milliards de mots, 13 millions de mots différents, 1 milliard de séquences apparaissant au moins 40 fois, le tout disponible pour la recherche ou même accessible en ligne sur le GoogleLabs.
Libellés
Administration libérée
(2)
Afrique
(2)
analyse de l'opinion
(2)
Animation
(1)
Apple
(1)
Banques
(3)
Big data
(15)
Biotechnologies
(3)
Cap digital
(19)
Chine
(3)
Communication
(7)
Communs
(4)
Covid19
(2)
Culture
(5)
DataRevolution
(15)
Design
(3)
développement durable
(3)
DINSIC
(3)
Données publiques
(2)
Droit
(1)
Droits de l'homme
(2)
Economie
(19)
Education
(15)
Elon Musk
(1)
Energie
(1)
Entreprise
(11)
Etalab
(6)
Etat-plateforme
(5)
Etats-Unis
(11)
Facebook
(7)
Fiscalité
(2)
France
(2)
Futur
(3)
Futur en Seine
(3)
Google
(5)
Grand emprunt
(5)
Industrie
(6)
Innovation
(24)
Internet
(6)
Internet des objets
(2)
Israël
(1)
Japon
(4)
jeu vidéo
(3)
Liberté d'Internet
(2)
Logiciel Libre
(1)
Media
(2)
Metropole parisienne
(8)
MFG-Labs
(3)
Multitude
(3)
Netneutralité
(5)
OGP
(4)
Open data
(16)
Open government
(8)
Philosophie
(4)
PLF2013
(6)
Pôles de compétitivité
(4)
privacy
(4)
Psychologie
(1)
Publicité
(1)
Puissance publique
(5)
Quantified Self
(2)
Robotique
(4)
Santé
(3)
Science
(1)
Silicon Valley
(3)
Smart disclosure
(2)
société numérique
(38)
Sociologie
(1)
Stratégie
(9)
Télévision
(2)
UK
(1)
Web social
(7)