jeudi, novembre 01, 2012

Les big data, c'est pas que pour la pub


La promesse du big data, que nous avons souvent évoquée sur ce blog, est bien trop souvent traduite dans les faits en techniques de ciblage marketing. C'est compréhensible quand on voit les succès de Critéo, Google, ou des moteurs de recommandation d'Amazon ou de Netflix. Mais c'est aussi un appauvrissement de ce que l'on pourrait attendre de la naissance des Datasciences.

Quatre jours d'immersion à Boston puis New-York, avec les amis du Orange Institute, m'ont heureusement permis de rencontrer des projets d'une toute autre envergure, qu'il s'agisse des réflexions du Medialab sur la Feedback economy ; de la conception, ici ou là, de nouveaux services en matière de santé, de transport ou d'énergie ; ou d'autres approches, plus globales, de ces données désormais ambiantes. J'ai notamment découvert deux passionnants projets au service de l'intérêt général, l'un porté par l'ONU, l'autre par la Mairie de New-York.

Le projet Global pulse de l'ONU

Le projet des Nations-Unis, UN Global Pulse, est piloté par Robert Kirkpatrick, qui revendique plus de 15 ans d'engagement "dans le design et l'utilisation d'outils technologiques avancés au service du business, de la santé publique, de la réponse aux catastrophes, de la coordination des secours, du journalisme citoyen, de la télémédecine, de la gestion de crise, de la médiation des conflits et du maintien de la paix..." Un programme à lui tout seul...

Il repose sur un constat simple : la plupart des actions de l'ONU (politique économique, la gestion des crises, les opérations de maintien de la paix) ont besoin de données fiables, actionnables, et obtenues dans un délai très court (temps réel si possible). Or, les systèmes d'information de l'ONU ont au contraire trop souvent des données anciennes, lacunaires, voire absolument non fiables quand elles viennent de certains Etats.
Puisque désormais l'empreinte de presque toutes les activités humaine est imprimée dans les réseaux numériques (tweets, facebook, cartographie des échanges téléphoniques, prix de certaines denrées, etc.), il devient donc très tentant d'aller chercher dans ces données ouvertes les éléments de décision dont l'organisation a besoin.
Sous la direction de Robert KirkPatrick, l'ONU a donc décidé de prendre au sérieux cette promesse, et de créer de véritables outils pour l'action à partir de ces données. Vous pourrez en trouver une brève présentation dans la vidéo qui accompagne cet article du Guardian.

La question éthique a été prise très au sérieux : il ne s'agit pas de créer un nouveau big brother, mais un système d'information pour des politiques humanitaires. Trois règles de protection de la privacy ont été retenues :
- ne jamais analyser d'informations personnelles identifiables (les tweets par exemples sont anonymisés)
- ne jamais analyser d'informations confidentielles (des mails, par exemple)
- ne jamais tenter de ré-identifier des individus à partir des ces informations anonymisées.

Ces limitations n'ont pas empêché l'équipe d'obtenir de beaux résultats. Il faut dire que le projet a été piloté par d'authentique chercheurs, qui se sont posé de robustes questions de méthodologie. Il faut dire aussi que de très nombreux laboratoires publics et privés sont associés à la démarche.

La liste des recherches en cours est passionnante : analyse du chômage à travers les conversations dans les réseaux sociaux, anticiper les crises alimentaires grâce aux médias d'information, suivi global de l'état sanitaire d'une population, etc. La liste est longue, et a permis la publication d'un White paper assez robuste que vous pouvez télécharger ici.

Ce programme est fascinant à plus d'un titre :

Tout d'abord, il prouve que les empreintes ainsi recueillies finissent par converger vers les données statistiques classique. Sur cette image, par exemple, vous voyez l'index du prix de la nourriture calculé par les médias sociaux (en bleu) qui converge vers les prix publiés par le BPS (l'organisme de Singapour en charge de publier cette statistique, en rouge). Simplement les données sociales sont gratuites, recueillies directement par le programme Global Pulse, en obtenues en temps réel.


Il est fascinant aussi par la relation entre ses résultats et l'économie des moyens mis en oeuvre. Ainsi, le staff de New-York est composé de moins de 15 personnes : hackers, dataminers, statisticiens et experts des différents domaines.

IL est remarquable enfin par la finesse des analyses qui deviennent ainsi possibles. On passe littéralement les pays étudiés aux rayons X, mesurant les déplacements de population après les catastrophes pour prévenir le choléra, anticipant l'inflation des prix alimentaires à partir du contenu des conversations sur Twitter, prédisant les épidémies de dengue à, partir des recherches sur Google, calculant la taille des embouteillages à partir de la géolocalisation des tweets, etc. On renouvelle aussi bien la géographie que la sociologie ou l'économie, et tout ceci avec l'injection d'une approche temps réel.

J'ai beaucoup aimé par exemple cette petite analyse des réactions des Américains et des Irlandais à un pic de chômage, toujours à partir des données recueillies sur Twitter.

On y voit les différences de comportements d'anticipation (montée de l'inquiétude et de la confusion en Irlande, montée de la colère aux Etats-Unis), et la différence des comportements d'après-chômage : montée des conversations sur les prix de l'immobilier, puis sur les prix de vente des voitures et sur les transports en commun aux Etats-Unis, augmentation des réservations de voyages en Irlande.

Dans cet exemple, on ne visualise pas seulement les mentalités de deux peuples, on voit une empreinte directe de la protection sociale disponible dans les deux pays, et des conséquences du chômage d'un côté et de l'autre de l'Atlantique...

Le programme Global Pulse a aujourd'hui ouvert des laboratoires de recherche dans 7 pays. Il étudie la possibilité de s'implanter aussi en France. Nous allons tout faire pour l'y encourager...

Les datascientists de la mairie de New-York

Cette approche des data au service d'une connaissance opérationnelle ne se limite pas à l'ONU. Nous avons également  un autre projet fascinant, à la mairie de New-York.

Michaël Flowers est lui aussi un personnage... Avocat de formation, il travailla pour les Sénat des Etats-Unis à la recherche de fraudes fiscales. Il coopéra aussi à la recherche puis au procès de Saddam Hussein. Il est aujourd'hui le directeur de la task force contre les délits financiers de la mairie de New-York, ainsi que le directeur du bureau municipal pour l'analyse et le planning stratégique, qui est ce qui nous intéresse aujourd'hui.

Ce dernier bureau développe une analyse des données passionnantes, non pas au service de la compréhension des phénomènes, comme à l'ONU, mais au service très concret d'une optimisation de l'allocation des ressources. On est ici dans une approche très pragmatique, très caractéristique de l'administration Bloomberg. On est aussi dans une approche plus répressive, et parfois un peu plus inquiétante, des connaissances que permettent ces données.

Il n'en demeure pas moins, comme il l'a expliqué lors de la dernière Strataconférence, que cette équipe obtient, avec des moyens très restreints, des résultats très efficaces.


Avec seulement 5 jeunes datascientists, le bureau dirigé par Michaël Flowers a produit des résultats significatifs dans la lutte contre les squats immobiliers, dans la lutte contre différentes formes de fraudes,  dans la prévention des incendies et, de manière générale, dans l'optimisation d'un grand nombre de dépenses ou d'allocations de ressources publiques. Ceci n'est pas sans rappeler les expériences menées à Santa Cruz et Los Angeles pour essayer de faire passer les patrouilles de police sur les lieux et aux heures où la probabilité de crimes est la plus élevée.

Le plus impressionnant dans ce projet, c'est qu'une équipe de 5 jeunes datascientists a permis de brasser une masse de données considérable, issues de plus de 20 agences locales ou fédérales, et d'en extraire un très grand nombre de corrélations. On mesure une fois encore la puissance de cette approche...

Un échange avec Michaël Flowers, en revanche, m'a permis une fois encore de mesurer combien nous sommes loins du rêve de Chris Anderson d'une science sans théorie. Bien loin de produire des résultats automatiquement inférés du croisement de ces masses de données, on a au contraire des équipes qui se penchent sur des questions qu'elles connaissent bien. On a des équipes qui savent éviter les corrélations grossières (ainsi, à New-York, les plaintes pour squat ne permettent pas d'identifier les zones de squat : elles émanent de Manhattan où les populations sont très intolérantes face à ces pratiques, alors que les squats se rencontrent beaucoup plus à Brooklyn). Et surtout des équipes qui doutent, qui remettent en permanence leurs hypothèses sur le métier, qui cherchent en permanence des moyens de contrôler leurs hypothèses grâce à d'autres sources d'information... Bref, des équipes véritablement scientifiques...


1 commentaire:

  1. Pashu Dewailly Christensen2 novembre 2012 à 20:07

    Merci beaucoup pour ce très bel article Henri. Les papiers et articles se sont multipliés dernièrement sur le sujet et je suis ravie de voir que tu y contribues. En voici, quelques uns (si tu ne les as pas encore vu)

    - Un papier du World Economic Forum:http://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development

    - Un autre assez recent de USAID: transition.usaid.gov/frontiers/pub/AniketBhushan.pdf (rechercher usaid_bigdata for international development dans google/bing pour trouver le pdf)

    - Une emission sur la chaine de radio américaine NPR qui parle du projet 'Million Dollar Blocks a New York: http://www.npr.org/2012/10/02/162149431/million-dollar-blocks-map-incarcerations-costs?sc=17&f=1001

    - Et meme la Banque Mondiale: http://blogs.worldbank.org/psd/big-data-for-development-beyond-transparency qui a d'ailleurs fait un event sur le sujet le 25 octobre dernier où Jake de http://datakind.org a présenté.

    C'est un sujet qui bouge aussi en France? J'ai vu quelques articles dans le Guardian mais encore aucun dans la presse francaise. Ce serait super si tu pouvais organiser quelque chose pour Global Pulse à Paris, toi qui est si bien connecté avec les boites tech en France.

    Let's spread the word for Big Data Beyond targeted ads.
    Pashu

    RépondreSupprimer