Henri Verdier Blog: Big data

Affichage des articles dont le libellé est Big data. Afficher tous les articles

mardi, février 09, 2016

Premier rapport annuel sur la "gouvernance de la donnée" de l'Etat

Le 16 septembre 2014, le Premier ministre instituait la fonction d'Administrateur général des données (AGD), que j'inaugure depuis le 18 septembre dernier.

Adaptée de la fonction de Chief data officer, mais pensée en fonction des besoins de l'Etat, cette fonction vise principalement à diffuser au sein de l'Etat les nouvelles pratiques des datasciences. A l'usage, ces pratiques ne réalisent pas tant la promesse des "big data" (nous n'avons pas encore relevé au sein de l'action publique tellement de problèmes nécessitant d'énormes quantités de calcul), mais au nom des nouvelles classes d'actions qui s'inventent tous les jours avec les données.

Insensiblement, en effet, nous passons du régime de la description à celui de la prédiction, puis, plus important encore, à celui de la prescription. C'est cela qui se passe aujourd'hui d'important avec les données : l'irruption de nouvelles questions : "next best action", par exemple. Et souvent aussi de nouvelles stratégies d'action : la création de boucles de rétrocontrôle rapide, l' "empowerment" des agents, l'ouverture de référentiels accessibles à tous...

Pour remplir sa mission, l'AGD était autorisé à créer une petite équipe au sein de la mission Etalab, se voyait doté d'une capacité d'expérimentation, d'une capacité à demander à connaître la structure des données des administrations, et se voyait confier la tâche de remettre chaque année au Premier ministre un rapport sur la gouvernance de la donnée.

Plus d'infos »

dimanche, juillet 06, 2014

Le numérique dévorera-t-il le luxe ?

Alice, Nicolas et Oussama m'ont invité à parler ce mercredi à "Hackers on the Runway", la grande rencontre organisée par TheFamily autour de la disruption digitale de l'industrie du luxe.

Et ils m'ont demandé de parler de big data.

Evidemment, c'etait paradoxal. Le numérique dévore le monde, c'est entendu. Mais il l'attaque plutôt par la technologie, l'algorithme, la personnalisation ou la massification.

Le luxe, on pourrait penser que ça va être autre chose. Enfin si, comme moi, on entend par luxe le geste glamour, élitiste, précieux et inaccessible. C'est vrai qu'on a un peu de mal à l'associer au numérique. J'y pensais d'ailleurs l'autre jour, traversant l'une de ces villes du sud de la France où 80 % des femmes sont blondes, couvertes de bijoux, et où les nouveaux riches aiment des costumes, des voitures et des restaurants auxquels je ne songerais même pas. Je me disais justement que leurs smartphones, en revanche, sont ceux que nous voyons tous les jours dans le métro. Et je me demandais si le numérique ferait naître une nouvelle Distinction ou s'il nous promettait désormais la même perfection à portée de tous ?

Au fond, le luxe doit assumer une position paradoxale par rapport à la modernité. Il vise l'intemporel, l'éternel, il enjambe son temps. Comme le dandy de Dolto : "C'est au coeur même de Dieu qu'il doit atteindre, flèche de désir, c'est au coeur de Dieu qu'il doit ficher son cri".

Et en même temps, il est totalement de son temps, parce qu'il en convoque toutes les technologies, parce qu'il en épouse les aspirations les plus secrètes, parce qu'il lui propose de nouvelles formes de "distinction" au sens de Bourdieu, parce qu'il couronne une économie, dont il dépend. Mais aussi parce qu'il inquiète son temps qui ne cesse de tenter de le contrôler, comme le montre la longue histoire de édits somptuaires et de leurs tentatives, au fil des siècles, sur tout les continents, pour l'organiser et le limiter. Et surtout parce que le luxe, quoi qu'on en pense, a toujours une dimension politique.

Plus d'infos »

mardi, avril 22, 2014

Conférence de Paris sur l'open data et l'open gov : c'est maintenant

Cette semaine, à Paris, la mission Etalab et le Conseil national du numérique organisent la Conférence de Paris sur l'Open data et le gouvernement ouvert. Le programme détaillé est accessible sur le blog d'Etalab, et sur le site www.laconferencedeparis.fr.

Nous avons travaillé cette rencontre pour en faire un moment important dans la jeune histoire du mouvement français de l'open data et du gouvernement ouvert.

Un moment important, d'abord, parce que seront rassemblés, sur deux jours, et sur trois sites, des ministres, des hauts fonctionnaires, des magistrats, des savants, des entrepreneurs, des associations et des citoyens engagés, des représentants et acteurs de l'open data venant, pour certains de fort loin (Mexique, Etats-Unis, Tunisie, Angleterre, Irlande), qui vont échanger, partager, et s'enrichir mutuellement autour de toutes les transformations qu'apportent la révolution de la donnée, la modernisation de l'action publique, les nouvelles stratégies d'action collective à l'âge de la multitude... Parce que nous parlerons aussi bien de la transparence des institutions que des nouveaux pouvoirs de la société civile ou des usages des big data.

Un moment important parce que la France va commencer à mêler sa voix à la conversation mondiale sur les nouvelles pratiques de gouvernement et que l'on va voir que notre propre tradition existe, qu'elle a son histoire, avec ses succès et ses reculs, et qu'elle mérite l'intérêt de nos partenaires internationaux autant que nous nous passionnons pour les leurs.

Un moment important, peut-être, pour certaines des annonces qui y seront faites.

Un moment important, nous l'espérons, grâce aux interventions de grands responsables publics, de figures mondiales de l'open data et des datasciences, comme Michaël Flowers, ou Gavin Starcks, Rufus Pollock... Grâce aux "datastories" qui montreront la valeur insoupçonnable que prennent aujourd'hui ces données, mais aussi créativité et la vitalité de nos écosystèmes. Grâce à la demi-journée d'ateliers de de tables rondes, très ouverte, du 25 avril, nous allons pouvoir travailler collégialement (plus de 350 inscrits ce soir) des aspects centraux du futur de nos politques de la donnée.

Mais un moment important, surtout, parce que pour la première fois en France, nous allons essayer, tous ensemble, de poser la question de la circulation des données publiques, de ce qui se passe quand on travaille à la fluidité, à la maniabilité, au partage de ces données, au point où elle doit se poser : celui d'une transformation globale des rapports économiques, politiques et sociaux.

Plus d'infos »

mercredi, octobre 02, 2013

Quelle mesure pour les données publiques ? (Shannon, McLuhan et les BigData)

Le Premier ministre a récemment adressé au gouvernement, par voie de circulaire, un Vademecum de l'ouverture et du partage des données publiques, afin de faciliter l'appropriation de cette démarche en en rappelant les fondements et les enjeux, et en répondant aux questions que se posent bien des administrations confrontées à une démarche concrète d'ouverture...

Autant qu'on puisse en juger, la démarche a été bien accueillie, et le document circule, y compris par des voies imprévues, et diffuse auprès des administrations et des collectivités locales.

Tout naturellement, certains commentateurs se sont demandés, devant ce rappel des fondamentaux, ce qui s'était passé depuis la mise en place de la nouvelle organisation.

Et c'est là que l'on a vu fleurir, ici ou là, l'argument selon lequel l'ouverture se ralentirait, puisque Etalab n'aurait "libéré" que 50.000 nouveaux fichiers en un an, contre 300.000 fichiers les deux années précédentes. Cet article de l'IFRAP, par exemple, est particulièrement éloquent.

La valeur des séries complètes

Alors certes, il nous faudra expliquer que le nombre de fichiers est un bien pauvre paramètre pour décrire l'impact d'une politique d'open data. Il nous faudra dire, par exemple, que sur les 300.000 fichiers recensés par www.data.gouv.fr en décembre 2012, presque 290.000 provenaient du découpage par communes (et intercommunalités) de 6 fichiers de l'INSEE (recensement de la population, etc.).

Il nous faudra expliquer que dans les nouveaux fichiers se cachent des documents extrêmement importants : réserve parlementaire, attributaires de marchés publics, aides à la presse, population carcérale, et d'autres, plus ésotériques, mais très importants pour les professionnels, comme ceux de France Agrimer ou de l'ARCEP, ou de l'ATIH, et d'autres enfin, qui marquent de nouvelles manières d'envisager l'action publique, comme les données ayant servi de base aux travaux de la mission Queyranne Desmaël Jürgensen [J'espère que personne ne se sentira lésé de n'être pas mentionné : je ne prends ces exemples que pour les besoins de la démonstration...].

Plus d'infos »

mardi, mars 19, 2013

Non, les données ne sont pas du pétrole...

Il ne se passe plus une semaine sans un dossier spécial titrant sur "les data, pétrole du XXIe Siècle", "data is the new oil", "les données, le nouvel or noir", "vos données personnelles valent 315 milliards d'euros", "profitez des opportunités des big data", voire même un "trésor caché" et j'en passe.

On comprend bien la métaphore : les données personnelles, les données publiques, les données de l'internet des objets seraient comme le pétrole : une ressource naturelle, fluide, susceptibles de toutes sortes de transformations, et porteuses d'un énorme potentiel de valeur. Plus encore, elles seraient le ferment d'une nouvelle révolution industrielle, appelées à plier l'économie mondiale à leur puissant potentiel industriel.

On comprend la métaphore, mais elle n'en n'est pas moins lassante. C'est en passe de devenir l'un de ces memes qu'affectionne Internet, comme son prédécesseur, le fameux "content is king". Elle désigne un aspect du réel mais, par sa force de suggestion, en dissimule d'autres et entraîne une cascade d'attitudes et de raisonnement, parfois fortement biaisés. C'est surtout une pauvre métaphore, qui débouche sur une pauvre pensée. Car, comme toute métaphore, elle est partiellement fausse, elle contraint la pensée et lui fait prendre des chemins hasardeux. La donnée, c'est à la fois beaucoup plus compliqué, et, dans l'économie, c'est à la fois beaucoup moins, et beaucoup plus que du pétrole.

Plus d'infos »

jeudi, novembre 01, 2012

Les big data, c'est pas que pour la pub

La promesse du big data, que nous avons souvent évoquée sur ce blog, est bien trop souvent traduite dans les faits en techniques de ciblage marketing. C'est compréhensible quand on voit les succès de Critéo, Google, ou des moteurs de recommandation d'Amazon ou de Netflix. Mais c'est aussi un appauvrissement de ce que l'on pourrait attendre de la naissance des Datasciences.

Quatre jours d'immersion à Boston puis New-York, avec les amis du Orange Institute, m'ont heureusement permis de rencontrer des projets d'une toute autre envergure, qu'il s'agisse des réflexions du Medialab sur la Feedback economy ; de la conception, ici ou là, de nouveaux services en matière de santé, de transport ou d'énergie ; ou d'autres approches, plus globales, de ces données désormais ambiantes. J'ai notamment découvert deux passionnants projets au service de l'intérêt général, l'un porté par l'ONU, l'autre par la Mairie de New-York.

Plus d'infos »

mardi, avril 17, 2012

Peut-on être contre les big data ?

Mon ami Daniel Kaplan, vient de publier dans Internet Actu un article au titre provocateur : Big Data, grande illusion ?

L'article présente les thèses d'Alan Mitchell, le directeur de la stratégie du cabinet Ctrl+shift. Selon lui, "les Big Data auraient presque un côté contre-révolutionnaire : le chant du cygne d’une informatique productiviste, centralisatrice, centrée sur les grandes organisations." L'effort consenti - notamment en R&D - pour développer cette informatique et ses applications aurait été mieux employé à développer le pouvoir de création des individus, et à les aider à produire eux-mêmes les arbitrages qui leurs sont proposés par cette informatique massive. Daniel Kaplan lui-même reconnaît, à la fin de l'article, que le propos est peut-être un peu fort et qu'il est peu adapté, par exemple, aux les sciences dures.

Je m'arrête sur cet article parce qu'on me pose de plus en plus de questions sur ce phénomène big data dont j'ai parlé très tôt. Et parce que cette position, même si je puis la partager en partie, mélange la description du réel, l'analyse économique et la prise de position politique d'une manière qui mérite qu'on la prenne au sérieux, mais aussi qu'on lui réponde.

Ce que veut dénoncer Mitchell, c'est une inflexion des stratégies de R&D, des politiques de recherche, voire de certaines stratégies de résolution de problèmes, qui privilégie une approche massive, centralisée, consommatrice de capital. Avec une véritable cohérence idéologique, il propose d'encourager au contraire la production locale de données, de savoirs et d'applications, dans la lignée d'autres combats du numérique comme celui du mouvement du logiciel libre contre les grands éditeurs.
Pourquoi pas ? Il y a bien des circonstances où je souscrirais volontiers à cette analyse. D'un point de vue politique, la concentration des données, de la puissance de traitement et de la capacité d'interprétation est préoccupante.

Mais de là à contester l'existence même, l'intérêt et la puissance du phénomène big data, il y a un pas que l'on ne peut franchir.

Plus d'infos »

lundi, septembre 05, 2011

Kevin Slavin et la physique de la culture

Je vous parlais il y a un an du High Frequency Trading et de sa probable contribution au mini krach (9% de perte de valeur boursière) qui avait frappé Wall Street en moins de deux minutes le 6 mai 2010.

Cette remarquable conférence TED de Kevin Slavin (le fondateur de Area/Code, racheté par Zynga) reprend cette question de manière passionnante, profonde et un peu inquiétante. Car quand il dit que les algorithmes façonnent le monde, il ne parle pas en Pythagoricien. Il parle bien de terraformation. Quand il parle de physique de la culture, il parle bien de physiciens de la guerre froide qui décident aujourd'hui des films que vont produire Hollywood.

Regardez plutôt...

Allez, bonne rentrée à tous. Et pour vous remonter le moral, ne ratez pas cette belle interview de Michel Serres, qui nous rend bien plus optimistes sur l'avenir de nos petites poucettes.

lundi, juillet 25, 2011

7 sondages mondiaux par minute

Je viens de tomber par hasard sur cette belle infographie

60 Seconds - Things That Happen On Internet Every Sixty Seconds

Infographic by- Shanghai Web Designers

Elle nous vient de Dubaï...
Elle nous montre, avec des chiffres récents, l'emprise incroyable qu'a pris Internet dans la vie quotidienne de la planète. 600 nouvelles vidéos par minute sur Youtube, 100.000 tweets, 13.000 ventes d'applications I-Phone... On le sent bien, mais ça fait toujours du bien d'avoir des chiffres actualisés.

Ce qui m'a frappé, tout comme Milan Stankovic, qui l'a relevé sur Twitter, ce sont deux chiffres étrangement similaires.
Presque 700.000 recherches par minute sur Google. Presque 700.000 modifications de statuts par minute sur Facebook.

Plus d'infos »

jeudi, avril 14, 2011

C'est quoi, un zettabyte ?

Le problème, avec les big data, c'est qu'on nous assène en permanence des ordres de grandeur, des Méga-, Giga-, Tera- et même Zettabytes, alors qu'on n'a en tête aucune métrique pour se représenter ce que ça signifie.

Franchement, ça vous dit quoi quand on vous dit qu'on sait traiter un Terabytes de données en 1 minute ?

Or, nous entrons dans une époque où il sera aussi important d'avoir une intuition des volumétries de données que d'avoir une intuition des distances.

C'est pourquoi nous vous avons concocté, avec l'équipe de MFG-Labs, une petite animation, un peu inspirée d'un article de ReadWriteWeb, qui permet de se faire une idée.

Zettabyte from MFG Labs on Vimeo.

A chaque étape, on multiplie par 1.024.

Maintenant, quand vous entendrez quelque part que l'humanité déverse 1,2 zettabytes par an sur Internet, j'espère que vous saurez un peu mieux ce que ça veut dire.

Pour info, sur le blog de Jean-Noël Chaintreuil, vous apprendrez que l'humanité consomme 3,6 zettabytes par jour.

Mais qu'est-ce qu'ils font de toutes ces données ?

mardi, mars 01, 2011

What makes Silicon Valley so special ? (guest post)

I am very pleased to release today a "guest post" from my friend Georges Nahon, director of Orange Labs San Francisco, and Director General of the Orange Institute.

What makes Silicon Valley so special for digital innovation?

It is a culture of constant rebellion against all sorts of establishments particularly in the information & communication technology space. It is also a profound desire to have a major impact on the world who needs to be changed to be a better place. Good changes happen when things move fast dynamically.

SV is about an insatiable quest for non incremental innovation that will disrupt the existing world to do two things: (1) redirect some of the economic value disrupted to the venture capitalists who funded the disruption, and (2) make it a better place.

It is also a place where optimism, generosity, altruism and communities drive the behaviors rather than individualism, egocentricity and cynism. The Valley places a premium on alternatives to top-down, hierarchical sources of support. Governmental subsidy is seen as toxic to innovation funded by private investors. Smart risks are the norm.

What developments have you witnessed in Digital Innovation Management in the past years (Open innovation, Co-creation, Fast prototyping and beta release, User experience focus ...)?

The world is now the web. People are now at the center of the web as they are at the center of the real world. There is clearly more happening bottom up as more people can share constantly more ideas across the world and across the walls of their companies.

There is a distortion that the web and the mobile technology have brought to the entire innovation space as creativity can be quickly turned into beta product and tested at scale given the huge and growing size of the web. In reality major disruptive innovations are not happening like that. They still require years of R&D and testing. And it still delivers new and interesting products. What has changed is that the social real time and mobile web is encouraging and generating all sorts of entrepreneurial innovations that are not based on the traditional vision of R&D. Both will continue to thrive but management of stakeholders’ patience is the new health indicator for innovation.

What disruptions do you anticipate and what are the challenges for Silicon Valley to remain a worldwide leader in term of digital innovation?

The Web has created an unprecedented situation in the history of humankind: an avalanche of non structured information and data produced every second and made available continuously to the entire planet at little to no cost.

Managing these new information currents require a new approach to IT and networking and to data analysis and representation.

The era of Big Data is around us and will only get more pervasive and inevitable.

What do you plan to focus on in term of Innovation Management emerging trends?

Big data in a mobile and real time world as the new knowledge infrastructure.

(Photo by Adam Tinworth)

lundi, février 14, 2011

Big Data : comment faire du neuf avec du neuf ?

C'est toujours pareil avec l'innovation. On commence par lui demander d'imiter l'ancien.
Parfois, cette absence d'imagination suffit à éteindre une technologie prometteuse. Parfois, c'est une phase transitoire qui débouche ensuite seulement sur les grandes créations.

Cela fait près d'un an que nous travaillons à l'analyse de grands corpus de données relationnelles. On commence à être à l'aise dans leur extraction, leur clusterisation, leur analyse, la modélisation de certains phénomènes, le filtrage social, les moteurs de recommandation ou la datavisualisation... On a eu fait quelques missions captivantes et quelques résultats insoupçonnés...

Mais je ne peux m'empêcher de penser que nous, nos concurrents, nos clients ou nos partenaires, nous passons encore à côté des vrais enjeux. Nous n'avons pas encore trouvé les questions qui mériteraient d'être posées aux masses de données désormais disponibles.

C'est toujours l'histoire du génie dans la bouteille. Si vous aviez trois voeux à formuler, vous commenceriez par quoi ?

La plupart des usages actuels des "big data" tiennent en quelques catégories : prédire l'évolution d'un phénomène, détecter un noeud particulièrement stratégique, repérer des corrélations pour optimiser une stratégie (notamment marketing), organiser une communication virale, mieux cibler, mieux appareiller, mieux relier....

Ces usages ne sont certes pas insignifiants. Sans doute même vont-ils révolutionner le marketing du futur. Sans doute seront-ils essentiels aux futures stratégies de sécurité. Sans doute permettront-ils l'avènement des "villes intelligentes", de la "maison intelligente", du "transport intelligent" (même si "optimisé" me semblerait un qualificatif préférable à "intelligent"). Mais ils me semblent ancrés dans la vision d'un monde qui ne serait que le prolongement du nôtre, avec simplement une puissance de calcul et des masses de données accrues.

Les craintes - légitimes - exprimées face à cette révolution sont également fondées sur d'anciennes représentations. On nous ressert "big brother" à toutes les sauces, c'est-à-dire l'idée qu'on saura tout sur chacun. Mais c'est là encore une crainte fondée sur des représentations anciennes. C'est la police du Tsar qui cherchait à tout savoir sur chacun. Le pouvoir s'est fait plus subtil, plus euphémique, plus manipulateur. Il s'est fait biopolitique, et peut-être même infopolitique depuis cette époque. Il s'est fait Spectacle, et plus encore depuis cette époque. Il n'a vraiment plus besoin de tout savoir sur chacun. Les contre-pouvoirs eux-mêmes se cherchent des formes sans centre, comme l'ont en partie illustré les événements en Tunisie et en Egypte.

Plus d'infos »

mardi, février 01, 2011

MFG Labs en direct de la Strata conference

Aujourd'hui commence, à Santa Clara, la Strata conference organisée par Tim O'Reilly (@timoreilly sur Twitter).
.

La Strata Conference est la première conférence de rang mondial sur les Big Data, leur analyse, leur traitement et la manière dont elles seront utilisées pour créer de nouveaux savoirs, de nouveaux services et de nouvelles entreprises.

Le programme de Keynotes est alléchant, jugez en vous même.

Les Workshops portent de doux intitulés comme :
- Make People Fall in Love with Your Data: A Practical Tutorial for Data Visualization and UI Design
- How to Develop Big Data Applications for Hadoop
- Communicating Data Clearly

Nos amis Américains, qui ont le sens de la formule, annoncent un de ces événements qui structurent une décennie, à l'instar de la Web 2.0 conference en 2004. Comme dit l'un des participants sur Twitter : on entre dans un monde où "Code is a a commodity. Data is the new code". Passionnant.

MFG-Labs est à Santa Clara. (MFG-Labs, c'est ma société).

Nous allons essayer de vous raconter ce qu'on verra sur Twitter : @mfg_labs. Le # est #strataconf

Et nous sommes heureux de partager avec vous le Livestream que vous offre l'organisateur :

dimanche, décembre 19, 2010

Google N-Gram : des choses cachées depuis le commencement du monde

Etes-vous déjà allé tester le service Google N-Gram mis en ligne sur le GoogleLabs ?

C'est assez fascinant, et c'est une belle illustration de ce que je commençais à évoquer dans mon dernier billet sur les big data.

Comme l'expliquent les responsables du projet sur le blog officiel, Google vient tout simplement de mettre à la disposition des chercheurs un invraisemblable corpus. 5 millions de livres ont été numérisés soit, paraît-il, environ 4% des livres imprimés depuis l'aube de l'humanité. Je suppose que la distribution de ces ouvrages, censément en six langues, est accessibles quelque part.
Google Research a ensuite trié les 1000 milliards de mots concernés, pour en construire le modèle n-gram pour n=5. En gros, ils créé le corpus de toutes les séquences de 1 à 5 mots disponibles. 1000 milliards de mots, 13 millions de mots différents, 1 milliard de séquences apparaissant au moins 40 fois, le tout disponible pour la recherche ou même accessible en ligne sur le GoogleLabs.

Plus d'infos »

mardi, décembre 14, 2010

Big Data : Making sense at scale

D'un récent voyage dans la Silicon Valley (merci aux amis du Orange Institute), je rentre avec une conviction : tout ce que nous connaissions du web va changer à nouveau avec le phénomène des big data. Il pose à nouveau, sur des bases différentes, presque toutes les questions liées à la transformation numérique.

En 2008, l’humanité a déversé 480 milliards de Gigabytes sur Internet. En 2010, ce furent 800 milliards de Gygabytes, soit, comme l’a dit un jour Eric Schmidt, plus que la totalité de ce que l’humanité avait écrit, imprimé, gravé, filmé ou enregistré de sa naissance jusqu’en 2003.

Ces données ne sont pas toutes des oeuvres. Outre les blogs, les textes, les vidéos (35 millions sont regardées sur Youtube chaque minute) ou le partage de musique, il y a désormais les microconversations, les applications géolocalisées, la production de données personnelles, la mise en ligne de données publiques, les interactions de l’Internet des objets...

Naviguer dans ce nouveau web demande une nouvelle science. C’est comme passer d’une navigation fluviale à une plongée en eaux profondes. Mobilis in mobile.

Plus d'infos »

Libellés

mardi, février 09, 2016

dimanche, juillet 06, 2014

mardi, avril 22, 2014

mercredi, octobre 02, 2013

mardi, mars 19, 2013

jeudi, novembre 01, 2012

mardi, avril 17, 2012

lundi, septembre 05, 2011

lundi, juillet 25, 2011

jeudi, avril 14, 2011

mardi, mars 01, 2011

lundi, février 14, 2011

mardi, février 01, 2011

dimanche, décembre 19, 2010

mardi, décembre 14, 2010