En décembre dernier, la Revue L'Archicube m'a sollicité dans le cadre d'un numéro spécial intitulé "Responsabilité, intégrité et éthique dans la recherche". J'ai un peu hésité à répondre car je suis moins investi sur ces questions qu'il y a quelques années.
Mais le débat qui s'est noué m'a montré qu'il y avait beaucoup d'enjeux, de craintes, et d'incompréhensions à dissiper autour de cette question des big data dans la sciences. Il m'a confirmé aussi combien cette révolution bouleverse les habitudes et les organisations, bien au-delà des prouesses mathématiques qu'elle autorise.
J'ai donc réalisé cette interview, que je partage aujourd'hui avec vous, dans une version revue et améliorée.
La science expérimentale consiste à faire des mesures pour les confronter avec des prédictions de modèles théoriques.
Mais le débat qui s'est noué m'a montré qu'il y avait beaucoup d'enjeux, de craintes, et d'incompréhensions à dissiper autour de cette question des big data dans la sciences. Il m'a confirmé aussi combien cette révolution bouleverse les habitudes et les organisations, bien au-delà des prouesses mathématiques qu'elle autorise.
J'ai donc réalisé cette interview, que je partage aujourd'hui avec vous, dans une version revue et améliorée.
La science expérimentale consiste à faire des mesures pour les confronter avec des prédictions de modèles théoriques.
Jusqu’au XXe
siècle, les données étaient rares et chères : on montait des « manips » pour
mettre en évidence (ou invalider) certaines de ces prédictions et l’on faisait
des mesures sur ces montages. Ces montages coûtaient souvent très cher, les
protocoles étaient complexes et coûteux, il fallait financer des laboratoires
onéreux et un personnel nombreux et qualifié. Parfois, les mesures obtenues
étaient aléatoires, et la tentation étaient forte de « solliciter » les données
(en éliminant par exemple des « mesures aberrantes ») pour obtenir le résultat
cherché. D’où l’importance des « cahiers de laboratoire » à la disposition des
referee : il était très important de pouvoir reproduire les expériences dans
d’autres laboratoires.
Aujourd'hui, les données ("Data")
sont abondantes et bon marché. Est-ce que cela change la philosophie de leur
exploitation ?
Je ne sais pas
bien à quoi vous opposez la « science expérimentale ». Il me
semble qu’il n’y a qu’une seule forme d'activité scientifique : l’activité de comprendre
le réel à travers un savoir prédictif, reproductible et falsifiable, comme l’a
souligné Karl Popper. Et toutes les disciplines scientifiques devraient être
expérimentales, sauf, disait Kant, les mathématiques qui procèdent par
construction de concept.
Il faut partir
de ce point parce que c’est cela la science. Monter des
« manips », comparer une prédiction à une expérience, tenir un cahier
ou porter une blouse blanche, ce sont des méthodes, des organisations, des
habitudes qui ont leur efficacité, mais qui pourront être remplacées un jour ou
l’autre. Déjà, en astrophysique on monte des expériences entièrement virtuelles
qui produisent des résultats scientifiques.
Et précisément, comme vous le dites, nous vivons avec la démultiplication des données numériques, une révolution considérable, qui
bouleverse toutes les activités humaines et qui ne peut pas ne pas impacter
l’activité scientifique.
Cette révolution
provient de la conjonction de trois phénomènes :
-
d’une
part, en effet, on produit de plus en plus de données bon marché, grâce aux
nouvelles technologies de capteurs légers, grâce à de nouveaux appareillages (aujourd’hui
on sait faire un satellite à moins de 3000 euros et on séquence un génome
humain pour moins de 200 dollars), grâce à la possibilité de créer de la
contribution massive (comme le fait OpenStreetMap), grâce à l’informatisation
d’un nombre croissant de processus, mais aussi du fait d'un
profond changement de nos comportements et de notre rapport à l’intime qui fait
qu’un nombre croissant d'entre nous partagent, plus ou moins délibérément, une
quantité extraordinaire de données.
-
D’autre
part, on assiste à une révolution des méthodes et des techniques de traitement
de ces données, qui en baisse le coût (grâce au « cloud computing »,
par exemple), qui permet de nouvelles aproches (les bases de données en flux,
l’informatique massivement parallèle des big data, le machine learning, le deep learning, le regain de l'intelligence artificielle) ou qui ouvre de nouvelles approches
pour interroger ces données (« machine learning » par exemple).
-
Et il y
a enfin une troisième révolution, consécutive des deux précédente, qui voit
naître de très nombreuses nouvelles stratégies d’utilisation de ces
données. Cette troisième dimension est à mon sens la plus frappante. On ne pose
plus les même questions aux données, ou on les insère dans de nouveaux
dispositifs d’action. On manipule des distributions complètes, au lieu de ne
traiter que les moyennes statistiques, on « éduque des modèles de
prévision », on recherche des signaux faibles, on apprend à raisonner sur
des probabilités.
C’est la
conjonction de ces trois dimensions de la révolution de la donnée qui
bouleverse la science de nombreuses manières : on peut mesurer un nombre
incalculable de phénomènes qu’il aurait été trop coûteux d’appareiller, on peut
rechercher des signaux faibles à un coût qui diminue à toute allure, on peut
mobiliser aisément une puissance de calcul considérable, on peut mobiliser des
communautés extérieures au laboratoire – voir à la recherche, on peut
rechercher des corrélations insoupçonnées sans hypothèses préalables (avec le
« machine learning ») ce qui ne dispense pas de les vérifier ensuite
dans de solides conditions expérimentales.
Je ne prends pas à mon compte les proclamations des chantres de la "fin de la théorie", puisque précisément la science reste toujours science et a le devoir de formuler des conclusions falsifiables, prédictives et reproductibles. Mais je constate que la science peut explorer un plus grand nombre de phénomènes, détecter des signaux de plus en plus ténus, et diversifier la stratégie d’identification des hypothèses à tester.
Je ne prends pas à mon compte les proclamations des chantres de la "fin de la théorie", puisque précisément la science reste toujours science et a le devoir de formuler des conclusions falsifiables, prédictives et reproductibles. Mais je constate que la science peut explorer un plus grand nombre de phénomènes, détecter des signaux de plus en plus ténus, et diversifier la stratégie d’identification des hypothèses à tester.
En revanche,
c’est dans la sociologie du monde scientifique que les choses changent. Car
effectivement on sort d’un monde où l’on reconnaissait le chercheur aguerri au
fait qu’il avait appris, durement, sur le tas, à être économe en données, à
réfléchir avant d’agir, à « ne pas se lancer à l’aventure ». Et il
est vrai qu’aujourd’hui cette attitude est souvent moins efficace que la
plongée dans une masse de données, même imprécises ou non structurées, en
laissant germer les hypothèses à partir de premières questions posées aux
données.
Ce qui est
frappant, c’est surtout la difficulté à accepter cette transformation. On a
parfois l’impression de revivre la Bataille d’Hernani, quand les Académiciens
classiques disaient que Hugo ne faisait pas vraiment du théâtre parce qu’il ne
respectait pas la règle des trois unités. Le Romantisme, c’est aussi du
théâtre, mais ce n’est pas du théâtre classique.
La révolution du
numérique a joué un rôle majeur dans le monde de la recherche ces dernières
décennies. En quoi a-t-elle été bénéfique à la découverte et à l’innovation.
Comme toutes les activités humaines, la recherche va donc
devoir se réorganiser en profondeur si elle veut saisir tout le potentiel de la
révolution numérique, et ceux qui ne sauront pas le faire seront
progressivement déqualifiés.
En théorie, elle devrait avoir beaucoup de facilités à
saisir une révolution qui est née dans les laboratoires et les campus, qui
emprunte de nombreux codes à l’activité scientifique (la transparence, la revue
par les pairs, la coopération, la circulation du savoir) et qui lui libère de
nombreuses ressources. En pratique, on voit quand même qu’une certaine manière
de voir la recherche est aujourd’hui ébranlée : l’organisation,
l’évaluation, le publication, le recrutement, la gestion budgétaire... Il y
aura quand même une métamorphose à réussir. D’autant que de nombreux intérêts
exogènes se penchent sur cette question, économiques en particulier, mais aussi
industriels ou politiques.
Il serait difficile d’énumérer toutes les transformations
numériques à l’œuvre. Il y a des capacités à observer des choses qui étaient
invisibles, la capacité à partager des ressources (à commencer par la puissance
de calcul) qui étaient par construction très concentrées, il y a les approches
« big data » appliquées à la méthode hypothético-déductive, il y a
les ressources du text-mining appliquées à la masse croissante d’articles
scientifiques publiés chaque mois, il y a la capacité à mobiliser la science
profane - et les forces de la contribution -, que les sciences naturelles connaissent depuis les lustres, il y a de
nouvelles formes de coopération possibles entre la science, l’innovation,
l’entreprise et la société civile.
Parmi ces transformations, je trouve qu’on tend en
général à sous-estimer tout ce qui se joue autour des logiques de l’action que
permet le numérique. On voit bien ce que produisent, dans l’ordre de l’action,
l’open source (avec ses communautés de contributeurs), l’open data (et son
potentiel d’innovation ouverte), l’open government (et sa capacité à engager
des citoyens). L’open innovation, l’open access, l’open science portent un
potentiel disruptif au moins équivalent au big data et à la révolution de la
donnée, qui me semble aujourd’hui sous-employé. Vous savez comme moi que les
joueurs de Foldit résolvent des problèmes de pliage de protéines qui échappent
encore aux ordinateurs. Dans ce cas précis, on demande aux joueurs de traiter
des problèmes assez simples et « mécaniques ». Mais demain, qu’est-ce
qui empêche de les intégrer plus profondément encre dans l’activité scientifique ?
L’accès libre
à de nombreuses informations et résultats permet-il de faciliter un certain
nombre de « mauvaises conduites » qui pourraient être qualifiées de
plagiat, fraude ou manquement à l’intégrité scientifique ? Quelles
sont les possibilités de détecter ces manquements à l’intégrité scientifique et
quels sont les recours possibles ?
On aborde là un deuxième chapitre, celui de l’open
access, qui n’est plus celui de la révolution de la donnée.
Bien sûr, l’irruption de nouvelles technologies, et de
surcroît de technologies cognitives, permet d’imaginer de nouveaux schémas de
fraude. Il est probable qu’on peut aujourd’hui comprendre la roadmap d’une équipe à partir de signaux
extrêmement faibles, on peut simuler des résultats en croisant de nombreuses
données, etc.
Mais symétriquement, on peut penser que la publication du
plus grand nombre possible de données d’expérience est aussi le meilleur moyen
de lutter contre la fraude. La transparence et la mobilisation du plus grand nombre sont autant d'occasions de détecter la fraude.
Quiconque a déjà publié un article de recherche sait bien qu’on publie « presque » tout ce qui permet de reproduire l’expérience, mais qu’on se garde toujours un petit ingrédient secret pour garder une petite longueur d’avance. C’est même un problème connu en épistémologie : il est rare qu’une expérience significative soit réellement reproductible sans l’intervention d’un humain ayant participé à l’expérience initiale.
Quiconque a déjà publié un article de recherche sait bien qu’on publie « presque » tout ce qui permet de reproduire l’expérience, mais qu’on se garde toujours un petit ingrédient secret pour garder une petite longueur d’avance. C’est même un problème connu en épistémologie : il est rare qu’une expérience significative soit réellement reproductible sans l’intervention d’un humain ayant participé à l’expérience initiale.
Par ailleurs, cette accessibilité croissante ne crée une
vulnérabilité de la communauté scientifique que si elle reste sur les schémas
d’organisation et de notation antérieurs. Si on regarde une perspective plus
large, on a au contraire un immense territoire d’opportunités. Pourquoi mesurer
l’impact d’un article au taux de citations alors qu’on pourrait mesurer
directement l’impact du résultat dans un ensemble varié de productions ?
Pourquoi se priver d’agréger des données scientifiques avec des données non
scientifiques ? Pourquoi ne pas apprendre, comme les géants du numérique,
à utiliser ses propres ressources pour devenir plateforme et attirer à soi
l’innovation d’écosystèmes entiers ?
L’échange du savoir pour créer une intelligence
collective est au cœur de la pratique scientifique depuis que la science est
science. C’est cet échange qui permet à chaque génération de dépasser la
précédente et qui nous permet d’être « des nains sur des épaules de
géants »
Jadis, on savait ce que l’on
cherchait : les expériences étaient construites en conséquence. Aujourd’hui, on
cherche là où l’on a des données. Ne risque-t-on pas passer à côté d’évènements
rares peu représentés (des « cygnes noirs ») ?
Votre question semble faire écho au célèbre article de Chris Anderson, dans
Wired !, sur « la fin de la théorie ». Elle est également un peu pessimiste. Je me méfie toujours de la nostalgie d'anciens âges d'or.
Jadis aussi les
« cygnes noirs » étaient difficiles à observer. Précisément, parce
que, comme vous le dites, on « savait ce qu’on cherchait » : on
restait prisonniers du paradigme dans lequel on raisonnait, qui empêchait de
voir d’innombrables phénomènes. Dans la
matière que je connais le mieux, la biologie, on a mis très longtemps à
détecter le phénomène de transfert de gène via des virus, parce qu’on pensait
que c’était une anomalie statistique non significative. Il faut lire les pages
de Thomas Kuhn sur cette question, elles sont définitives.
Evidemment, si
la science « pensée » était remplacée par une sorte d’empirisme mou,
on y perdrait au change. Mais qu’est-ce qui empêche de desserrer un peu l’étau
des paradigmes initiaux en acceptant de manipuler un peu plus de phénomènes, de
considérer des distributions plus étendues, etc.
Avez-vous noté,
par exemple, que l’épidémie de virus Ebola a été repérée 9 jours avant l’alerte
par l’OMS par une entreprise qui menait une veille sur les réseaux
sociaux ?
Au total, je pense quand même que plus nous baisserons les barrières à l'entrée dans l'activité scientifique, plus nous croiserons nos résultats et plus nous brasserons d'informations, et plus il y aura de chances de détecter les futurs "cygnes noirs". En effet, ce n’est pas parce qu’on ajoute les big data à la palette des méthodes permettant de générer des hypothèses qu’on est obligé de renoncer à une vérification méthodique de ces hypothèses.
Au total, je pense quand même que plus nous baisserons les barrières à l'entrée dans l'activité scientifique, plus nous croiserons nos résultats et plus nous brasserons d'informations, et plus il y aura de chances de détecter les futurs "cygnes noirs". En effet, ce n’est pas parce qu’on ajoute les big data à la palette des méthodes permettant de générer des hypothèses qu’on est obligé de renoncer à une vérification méthodique de ces hypothèses.
Il y a par
ailleurs un second sens à l’expression « the end of theory », qu’il
faut prendre au sérieux. Ce que dit aussi Chris Anderson, c’est que
de temps en temps, on n’a pas besoin d’une théorie juste pour agir juste. Quand
la ville de New-York, par exemple, décide d’utiliser un peu de datamining pour
mieux cibler les visites de prévention des pompiers, elle ne cherche pas à
produire une sociologie juste. Elle veut juste faire des contrôles efficaces.
Et si la théorie est fragile (et confond peut-être corrélation et causalité),
cela est corrigé par le fait que la ville vérifie toutes les semaines si le
score de visites positives continue à monter, qu’elle a prévu dans l’algorithme
assez de visites aléatoires pour vérifier en permanence la pertinence de
l’algorithme, bref, parce qu’elle a construit une logique de l’action qui tient
compte du fait qu’on travaille sur des probabilités et non pas sur des
connaissances.
Est-ce que l’on ne risque pas de
confondre la science avec l’informatique, l’internet et l’exploitation de
données ? Ne risque-t-on
pas d’oublier de réfléchir à la nature, à la physique, à la chimie, à la
biologie, pour ne penser plus qu’à des algorithmes qui risquent de masquer la
réalité des phénomènes ?
L’accumulation de nouvelles données et la maîtrise de nouvelles capacités
de traitement de ces données n’est pas un risque pour la communauté
scientifique. Quant à la peur du progrès, ce n’est pas la solution et ce serait
en outre une frilosité indigne de la culture scientifique.
Dans la société, en revanche, ces risques existent réellement. Mais ils
n’arrivent pas avec le numérique. Cela fait bien longtemps que le pire ennemi
de la science est l’effet de science que savent si bien produire un
certain nombre d’acteurs de la société du spectacle. Allumez un poste de
télévision, et vous ne passerez pas une heure sans en rencontrer un exemple de cette sorte de pseudo-science.
Je pense qu’aujourd’hui, effectivement, que nous sommes à un carrefour
intéressant. Non pas parce que les scientifiques seraient menacés par le déluge
de données, mais parce que les technologies dont nous parlons sont en train de
se banaliser, parce que des données dont la science n’osait pas rêver
deviennent accessible à un très grand nombre d’acteurs. Les technologies de
« machine learning » et de « deep learning », par exemple,
seront accessibles en ligne, « as a service » dans quelques années.
Ce qui veut dire que n’importe qui pourra envoyer une table de quelques dizaines
de millions d’items et demander des extractions statistiques pour quelques
euros. On aura donc à faire face au risque de mise en œuvre d’approches
statistiques par des non-scientifiques. A une généralisation de techniques qui étaient réservées aux scientifiques et qui seront manipulées par des apprentis-sorciers.
Cette démocratisation aura lieu, mais que doit faire la communauté
scientifique face à cela ? Se retirer sur son Aventin et se draper dans sa
dignité offensée ? Cela rappellerait probablement d'autres époques, où l'on s'inquiétait de la diffusion des livres imprimés et de la lecture. On avait d'ailleurs raison de s'en inquiéter, cela nous a valu les Lumières et pas mal de révolutions. Mais qui souhaiterait aujourd'hui revenir en arrière ?
Non. le seul choix raisonnable, il me semble, c'est d'entrer avec passion dans ce mouvement, de se réjouir que notre époque redécouvre le plaisir de chercher des réponses et de manipuler des données, et de contribuer de toutes nos forces à faire naître de nouvelles Lumières.
Non. le seul choix raisonnable, il me semble, c'est d'entrer avec passion dans ce mouvement, de se réjouir que notre époque redécouvre le plaisir de chercher des réponses et de manipuler des données, et de contribuer de toutes nos forces à faire naître de nouvelles Lumières.
L'exploitation du Big Data, de l'Internet, de l'Internet des objets et du croisement de ces données semble être une fuite en avant vers un contrôle plus poussé d'une société qui a vécu.
RépondreSupprimerCependant la valeur ajoutée de ce contrôle me semble annoncer l'avènement d'une dystopie au détriment des pays occidentaux.
Dans sa lutte pour la supprématie économique, l'occident semble capable de réduire ses propres populations en esclavage numérique. C'est peut être un réflexe du à ses habitudes destructives, prises sur la planète ses derniers siècles ?