lundi, mars 28, 2016

Sciences et big data : La fin de la théorie ?

En décembre dernier, la Revue L'Archicube m'a sollicité dans le cadre d'un numéro spécial intitulé "Responsabilité, intégrité et éthique dans la recherche". J'ai un peu hésité à répondre car je suis moins investi sur ces questions qu'il y a quelques années. 
Mais le débat qui s'est noué m'a montré qu'il y avait beaucoup d'enjeux, de craintes, et d'incompréhensions à dissiper autour de cette question des big data dans la sciences. Il m'a confirmé aussi combien cette révolution bouleverse les habitudes et les organisations, bien au-delà des prouesses mathématiques qu'elle autorise.
J'ai donc réalisé cette interview, que je partage aujourd'hui avec vous, dans une version revue et améliorée.

La science expérimentale consiste à faire des mesures pour les confronter avec des prédictions de modèles théoriques.
Jusqu’au XXe siècle, les données étaient rares et chères : on montait des « manips » pour mettre en évidence (ou invalider) certaines de ces prédictions et l’on faisait des mesures sur ces montages. Ces montages coûtaient souvent très cher, les protocoles étaient complexes et coûteux, il fallait financer des laboratoires onéreux et un personnel nombreux et qualifié. Parfois, les mesures obtenues étaient aléatoires, et la tentation étaient forte de « solliciter » les données (en éliminant par exemple des « mesures aberrantes ») pour obtenir le résultat cherché. D’où l’importance des « cahiers de laboratoire » à la disposition des referee : il était très important de pouvoir reproduire les expériences dans d’autres laboratoires.
 Aujourd'hui, les données ("Data") sont abondantes et bon marché. Est-ce que cela change la philosophie de leur exploitation ?

Je ne sais pas bien à quoi vous opposez la « science expérimentale ». Il me semble qu’il n’y a qu’une seule forme d'activité scientifique : l’activité de comprendre le réel à travers un savoir prédictif, reproductible et falsifiable, comme l’a souligné Karl Popper. Et toutes les disciplines scientifiques devraient être expérimentales, sauf, disait Kant, les mathématiques qui procèdent par construction de concept.
Il faut partir de ce point parce que c’est cela la science. Monter des « manips », comparer une prédiction à une expérience, tenir un cahier ou porter une blouse blanche, ce sont des méthodes, des organisations, des habitudes qui ont leur efficacité, mais qui pourront être remplacées un jour ou l’autre. Déjà, en astrophysique on monte des expériences entièrement virtuelles qui produisent des résultats scientifiques.

Et précisément, comme vous le dites, nous vivons avec la démultiplication des données numériques, une révolution considérable, qui bouleverse toutes les activités humaines et qui ne peut pas ne pas impacter l’activité scientifique.
Cette révolution provient de la conjonction de trois phénomènes :
-       d’une part, en effet, on produit de plus en plus de données bon marché, grâce aux nouvelles technologies de capteurs légers, grâce à de nouveaux appareillages (aujourd’hui on sait faire un satellite à moins de 3000 euros et on séquence un génome humain pour moins de 200 dollars), grâce à la possibilité de créer de la contribution massive (comme le fait OpenStreetMap), grâce à l’informatisation d’un nombre croissant de processus, mais aussi du fait d'un profond changement de nos comportements et de notre rapport à l’intime qui fait qu’un nombre croissant d'entre nous partagent, plus ou moins délibérément, une quantité extraordinaire de données.
-       D’autre part, on assiste à une révolution des méthodes et des techniques de traitement de ces données, qui en baisse le coût (grâce au « cloud computing », par exemple), qui permet de nouvelles aproches (les bases de données en flux, l’informatique massivement parallèle des big data, le machine learning, le deep learning, le regain de l'intelligence artificielle) ou qui ouvre de nouvelles approches pour interroger ces données (« machine learning » par exemple).
-       Et il y a enfin une troisième révolution, consécutive des deux précédente, qui voit naître de très nombreuses nouvelles stratégies d’utilisation de ces données. Cette troisième dimension est à mon sens la plus frappante. On ne pose plus les même questions aux données, ou on les insère dans de nouveaux dispositifs d’action. On manipule des distributions complètes, au lieu de ne traiter que les moyennes statistiques, on « éduque des modèles de prévision », on recherche des signaux faibles, on apprend à raisonner sur des probabilités.

C’est la conjonction de ces trois dimensions de la révolution de la donnée qui bouleverse la science de nombreuses manières : on peut mesurer un nombre incalculable de phénomènes qu’il aurait été trop coûteux d’appareiller, on peut rechercher des signaux faibles à un coût qui diminue à toute allure, on peut mobiliser aisément une puissance de calcul considérable, on peut mobiliser des communautés extérieures au laboratoire – voir à la recherche, on peut rechercher des corrélations insoupçonnées sans hypothèses préalables (avec le « machine learning ») ce qui ne dispense pas de les vérifier ensuite dans de solides conditions expérimentales.
Je ne prends pas à mon compte les proclamations des chantres de la "fin de la théorie", puisque précisément la science reste toujours science et a le devoir de formuler des conclusions falsifiables, prédictives et reproductibles. Mais je constate que la science peut explorer un plus grand nombre de phénomènes, détecter des signaux de plus en plus ténus, et diversifier la stratégie d’identification des hypothèses à tester.
En revanche, c’est dans la sociologie du monde scientifique que les choses changent. Car effectivement on sort d’un monde où l’on reconnaissait le chercheur aguerri au fait qu’il avait appris, durement, sur le tas, à être économe en données, à réfléchir avant d’agir, à « ne pas se lancer à l’aventure ». Et il est vrai qu’aujourd’hui cette attitude est souvent moins efficace que la plongée dans une masse de données, même imprécises ou non structurées, en laissant germer les hypothèses à partir de premières questions posées aux données.