En décembre dernier, la Revue L'Archicube m'a sollicité dans le cadre d'un numéro spécial intitulé "Responsabilité, intégrité et éthique dans la recherche". J'ai un peu hésité à répondre car je suis moins investi sur ces questions qu'il y a quelques années.
Mais le débat qui s'est noué m'a montré qu'il y avait beaucoup d'enjeux, de craintes, et d'incompréhensions à dissiper autour de cette question des big data dans la sciences. Il m'a confirmé aussi combien cette révolution bouleverse les habitudes et les organisations, bien au-delà des prouesses mathématiques qu'elle autorise.
J'ai donc réalisé cette interview, que je partage aujourd'hui avec vous, dans une version revue et améliorée.
La science expérimentale consiste à faire des mesures pour les confronter avec des prédictions de modèles théoriques.
Mais le débat qui s'est noué m'a montré qu'il y avait beaucoup d'enjeux, de craintes, et d'incompréhensions à dissiper autour de cette question des big data dans la sciences. Il m'a confirmé aussi combien cette révolution bouleverse les habitudes et les organisations, bien au-delà des prouesses mathématiques qu'elle autorise.
J'ai donc réalisé cette interview, que je partage aujourd'hui avec vous, dans une version revue et améliorée.
La science expérimentale consiste à faire des mesures pour les confronter avec des prédictions de modèles théoriques.
Jusqu’au XXe
siècle, les données étaient rares et chères : on montait des « manips » pour
mettre en évidence (ou invalider) certaines de ces prédictions et l’on faisait
des mesures sur ces montages. Ces montages coûtaient souvent très cher, les
protocoles étaient complexes et coûteux, il fallait financer des laboratoires
onéreux et un personnel nombreux et qualifié. Parfois, les mesures obtenues
étaient aléatoires, et la tentation étaient forte de « solliciter » les données
(en éliminant par exemple des « mesures aberrantes ») pour obtenir le résultat
cherché. D’où l’importance des « cahiers de laboratoire » à la disposition des
referee : il était très important de pouvoir reproduire les expériences dans
d’autres laboratoires.
Aujourd'hui, les données ("Data")
sont abondantes et bon marché. Est-ce que cela change la philosophie de leur
exploitation ?
Je ne sais pas
bien à quoi vous opposez la « science expérimentale ». Il me
semble qu’il n’y a qu’une seule forme d'activité scientifique : l’activité de comprendre
le réel à travers un savoir prédictif, reproductible et falsifiable, comme l’a
souligné Karl Popper. Et toutes les disciplines scientifiques devraient être
expérimentales, sauf, disait Kant, les mathématiques qui procèdent par
construction de concept.
Il faut partir
de ce point parce que c’est cela la science. Monter des
« manips », comparer une prédiction à une expérience, tenir un cahier
ou porter une blouse blanche, ce sont des méthodes, des organisations, des
habitudes qui ont leur efficacité, mais qui pourront être remplacées un jour ou
l’autre. Déjà, en astrophysique on monte des expériences entièrement virtuelles
qui produisent des résultats scientifiques.
Et précisément, comme vous le dites, nous vivons avec la démultiplication des données numériques, une révolution considérable, qui
bouleverse toutes les activités humaines et qui ne peut pas ne pas impacter
l’activité scientifique.
Cette révolution
provient de la conjonction de trois phénomènes :
-
d’une
part, en effet, on produit de plus en plus de données bon marché, grâce aux
nouvelles technologies de capteurs légers, grâce à de nouveaux appareillages (aujourd’hui
on sait faire un satellite à moins de 3000 euros et on séquence un génome
humain pour moins de 200 dollars), grâce à la possibilité de créer de la
contribution massive (comme le fait OpenStreetMap), grâce à l’informatisation
d’un nombre croissant de processus, mais aussi du fait d'un
profond changement de nos comportements et de notre rapport à l’intime qui fait
qu’un nombre croissant d'entre nous partagent, plus ou moins délibérément, une
quantité extraordinaire de données.
-
D’autre
part, on assiste à une révolution des méthodes et des techniques de traitement
de ces données, qui en baisse le coût (grâce au « cloud computing »,
par exemple), qui permet de nouvelles aproches (les bases de données en flux,
l’informatique massivement parallèle des big data, le machine learning, le deep learning, le regain de l'intelligence artificielle) ou qui ouvre de nouvelles approches
pour interroger ces données (« machine learning » par exemple).
-
Et il y
a enfin une troisième révolution, consécutive des deux précédente, qui voit
naître de très nombreuses nouvelles stratégies d’utilisation de ces
données. Cette troisième dimension est à mon sens la plus frappante. On ne pose
plus les même questions aux données, ou on les insère dans de nouveaux
dispositifs d’action. On manipule des distributions complètes, au lieu de ne
traiter que les moyennes statistiques, on « éduque des modèles de
prévision », on recherche des signaux faibles, on apprend à raisonner sur
des probabilités.
C’est la
conjonction de ces trois dimensions de la révolution de la donnée qui
bouleverse la science de nombreuses manières : on peut mesurer un nombre
incalculable de phénomènes qu’il aurait été trop coûteux d’appareiller, on peut
rechercher des signaux faibles à un coût qui diminue à toute allure, on peut
mobiliser aisément une puissance de calcul considérable, on peut mobiliser des
communautés extérieures au laboratoire – voir à la recherche, on peut
rechercher des corrélations insoupçonnées sans hypothèses préalables (avec le
« machine learning ») ce qui ne dispense pas de les vérifier ensuite
dans de solides conditions expérimentales.
Je ne prends pas à mon compte les proclamations des chantres de la "fin de la théorie", puisque précisément la science reste toujours science et a le devoir de formuler des conclusions falsifiables, prédictives et reproductibles. Mais je constate que la science peut explorer un plus grand nombre de phénomènes, détecter des signaux de plus en plus ténus, et diversifier la stratégie d’identification des hypothèses à tester.
Je ne prends pas à mon compte les proclamations des chantres de la "fin de la théorie", puisque précisément la science reste toujours science et a le devoir de formuler des conclusions falsifiables, prédictives et reproductibles. Mais je constate que la science peut explorer un plus grand nombre de phénomènes, détecter des signaux de plus en plus ténus, et diversifier la stratégie d’identification des hypothèses à tester.
En revanche,
c’est dans la sociologie du monde scientifique que les choses changent. Car
effectivement on sort d’un monde où l’on reconnaissait le chercheur aguerri au
fait qu’il avait appris, durement, sur le tas, à être économe en données, à
réfléchir avant d’agir, à « ne pas se lancer à l’aventure ». Et il
est vrai qu’aujourd’hui cette attitude est souvent moins efficace que la
plongée dans une masse de données, même imprécises ou non structurées, en
laissant germer les hypothèses à partir de premières questions posées aux
données.