mardi, avril 17, 2012

Peut-on être contre les big data ?

Mon ami Daniel Kaplan, vient de publier dans Internet Actu un article au titre provocateur : Big Data, grande illusion ?

L'article présente les thèses d'Alan Mitchell, le directeur de la stratégie du cabinet Ctrl+shift. Selon lui, "les Big Data auraient presque un côté contre-révolutionnaire : le chant du cygne d’une informatique productiviste, centralisatrice, centrée sur les grandes organisations." L'effort consenti - notamment en R&D - pour développer cette informatique et ses applications aurait été mieux employé à développer le pouvoir de création des individus, et à les aider à produire eux-mêmes les arbitrages qui leurs sont proposés par cette informatique massive. Daniel Kaplan lui-même reconnaît, à la fin de l'article, que le propos est peut-être un peu fort et qu'il est peu adapté, par exemple, aux les sciences dures.

Je m'arrête sur cet article parce qu'on me pose de plus en plus de questions sur ce phénomène big data dont j'ai parlé très tôt. Et parce que cette position, même si je puis la partager en partie, mélange la description du réel, l'analyse économique et la prise de position politique d'une manière qui mérite qu'on la prenne au sérieux, mais aussi qu'on lui réponde.

Ce que veut dénoncer Mitchell, c'est une inflexion des stratégies de R&D, des politiques de recherche, voire de certaines stratégies de résolution de problèmes, qui privilégie une approche massive, centralisée, consommatrice de capital. Avec une véritable cohérence idéologique, il propose d'encourager au contraire la production locale de données, de savoirs et d'applications, dans la lignée d'autres combats du numérique comme celui du mouvement du logiciel libre contre les grands éditeurs.
Pourquoi pas ? Il y a bien des circonstances où je souscrirais volontiers à cette analyse. D'un point de vue politique, la concentration des données, de la puissance de traitement et de la capacité d'interprétation est préoccupante.

Mais de là à contester l'existence même, l'intérêt et la puissance du phénomène big data, il y a un pas que l'on ne peut franchir.



1- La prolifération des données est un fait
Sous l'effet conjugué du développement d'Internet, de la prolifération des contenus générés pas les utilisateurs, de l'interopérabilité croissante de grands systèmes d'information, de la démultiplication de capteurs aux prix dérisoires, de l'avènement des l'Internet des objets, la quantité d'informations disponibles sur Internet (+ 1 zettabyte en 2010) et dans les entreprises augmente avec une vitesse sidérante.
Pour moi, la première dimension de la vague big data, et peut-être la plus importante, est la baisse drastique du coût de production des données, et le fait que les entreprises peuvent aujourd'hui se doter de systèmes d'information auxquels elles n'osaient même pas rêver il y a quelques années à peine.
Qu'on le veuille ou non, les entreprises, les citoyens, les administrations agissent désormais dans un océan de données, qu'elles apprennent de mieux en mieux à manipuler et à interpréter, et qui fonde un vaste ensemble de stratégies.

2- L'approche big data se démocratise
Par ailleurs, même si le discours sur les big data est porté par des vendeurs de solutions intégrées, qui pèsent sur les choix d'investissement et sur les représentations, la réalité que nous vivons est au contraire celle d'une démocratisation du traitement des données massives.
Avec l'augmentation de la puissance des machines, la possibilité d'émuler plusieurs serveurs sur une même machine, l'accessibilité du cloud computing, la multiplication de framework comme hadoop, ou de bases de données innovantes (graph-databases, bases de données de documents, de colonnes, de flux), la possibilité de manipuler de grandes masses de données avec un très faible investissement ne cesse d'augmenter.
Je pense pour ma part que ce que M. Mitchell voit comme le chant du cygne de l'innovation centralisée a déjà explosé, et que le secteur des big data, comme d'autres aspects de l'économie numérique avant lui, vient d'entrer dans l'ère de l'open innovation. Je pense que les prochaines grandes initiatives viendront de PME, d'universités, de collectifs d'activistes comme pour le reste du web.
Certes, on découvrira probablement qu'un bon dataset que quelques Gigabytes suffit, et qu'il n'est pas besoin de fouiller tout le web pour inventer de nouveaux services. Il n'en demeure pas moins que des structures extrêmement légères, mobiles et innovantes vont pouvoir se mêler de travailler des données massives pour en extraire du sens ou pour créer de nouveaux services.


3- Les big data ne se limitent pas à la statistique
Ce serait une erreur complète que de croire que les big data se limitent à un traitement statistique massif, se résumant en somme à la recherche de corrélations.
Que l'on apprécie ou pas la finance, il est impossible de réduire le travail des quants ou du high frequency trading à une simple application de la statistique. Il y a bien longtemps déjà que la finance et le marketing ont appris à développer et tester des modèles dynamiques, ont commencé à explorer le machine learning et les possibilités de prédiction, se sont penchés sur la détection de signaux faibles, ont commencer à analyser les graphes et leurs dynamiques. Plus récemment, le monde des data s'est emparé de la datavisualization, a commencé à se marier avec l'analyse de texte, voire la sémantique, ouvrant des perspectives fascinantes.
Dans un récent - et célèbre - article,  Chris Anderson prédisait que l'approche big data allait un jour remplacer la méthode scientifique elle-même. L'homme est coutumier de genre de provocation, qui exaspère les scientifiques (et suscite peut-être les réactions comme celles d'Alan Mitchell). Il n'a jamais entièrement raison, mais il n'a jamais complètement tort non plus. L'utilisation des big data - et les approches qui se développent autour de ces données - sont en train, tranquillement, de faire évoluer les sciences elles-mêmes et nous autorisent à rêver de tous nouveaux savoirs, et notamment de savoirs portant sur les propriétés émergentes des grands systèmes.


4- Tous les usages ne sont pas centralisés
Enfin, ce serait également une erreur que de croire que tous les usages des big data ressemble à des approches de type big brother. Au contraire, il me semble que nous assistons à l'émergence d'un vaste ensemble de projets qui consistent à utiliser les données massives pour établir des micro-arbitrages locaux.
C'est le cas de Waze, célèbre start-up israélienne qui prospère en Californie. Elle propose aux automobilistes de partager leurs données de géolocalisation, pendan t leurs trajets, et de leur donner en retour un itinéraire optimisé (plus une composante de jeu). Cette société, comme des dizaines d'autres maintenant, manipule de facto des masses de données, mais pour en produire des masses d'usages locaux.
Et tout montre que ce modèle est appelé à une énorme généralisation.


1 commentaire:

  1. bonsoir,

    je rejoins ALAN Mitchell sur le principe. Les big data sont à l'image de notre économie moderne, le résultat de deux siècles d'exploitation intensive des ressources naturelles. Comme le pétrole, la donnée est le carburant du business. + de stockage, + de traitement + de production de nouvelles données pour un futur big data crunch. On est dans une phase ou tout s'accélère et il faut courir plus vite pour rester sur place. C'est l'effet de la reine rouge! la consumérisation IT n'arrange rien! c'est un changement radical qu'il faudrait pour éviter une totale désillusion. Allez jeter un oeil du coté des conclusion du club de ROME sur la décroissance terrible qui nous attend d'ici 2020.
    D'un autre coté, les BIG data sont une opportunité fabuleuse d'expérimenter de nouvelles méthodes, elles ont aussi un très grand pouvoir d'attraction d'un point de vue conceptuel. Toutefois je ne suis pas certain que l'on ait compris que les big data sont avant tout un changement de paradigme avant d'être une révolution technologique. Sinon, on s'intéresserait aux vrais enjeux qu'elles soulève comme l'entropie au sein des systèmes d'information.

    RépondreSupprimer