Henri Verdier Blog: Sciences et big data : La fin de la théorie ?

En décembre dernier, la Revue L'Archicube m'a sollicité dans le cadre d'un numéro spécial intitulé "Responsabilité, intégrité et éthique dans la recherche". J'ai un peu hésité à répondre car je suis moins investi sur ces questions qu'il y a quelques années.
Mais le débat qui s'est noué m'a montré qu'il y avait beaucoup d'enjeux, de craintes, et d'incompréhensions à dissiper autour de cette question des big data dans la sciences. Il m'a confirmé aussi combien cette révolution bouleverse les habitudes et les organisations, bien au-delà des prouesses mathématiques qu'elle autorise.
J'ai donc réalisé cette interview, que je partage aujourd'hui avec vous, dans une version revue et améliorée.

La science expérimentale consiste à faire des mesures pour les confronter avec des prédictions de modèles théoriques.

Jusqu’au XXe siècle, les données étaient rares et chères : on montait des « manips » pour mettre en évidence (ou invalider) certaines de ces prédictions et l’on faisait des mesures sur ces montages. Ces montages coûtaient souvent très cher, les protocoles étaient complexes et coûteux, il fallait financer des laboratoires onéreux et un personnel nombreux et qualifié. Parfois, les mesures obtenues étaient aléatoires, et la tentation étaient forte de « solliciter » les données (en éliminant par exemple des « mesures aberrantes ») pour obtenir le résultat cherché. D’où l’importance des « cahiers de laboratoire » à la disposition des referee : il était très important de pouvoir reproduire les expériences dans d’autres laboratoires.

Aujourd'hui, les données ("Data") sont abondantes et bon marché. Est-ce que cela change la philosophie de leur exploitation ?

Je ne sais pas bien à quoi vous opposez la « science expérimentale ». Il me semble qu’il n’y a qu’une seule forme d'activité scientifique : l’activité de comprendre le réel à travers un savoir prédictif, reproductible et falsifiable, comme l’a souligné Karl Popper. Et toutes les disciplines scientifiques devraient être expérimentales, sauf, disait Kant, les mathématiques qui procèdent par construction de concept.

Il faut partir de ce point parce que c’est cela la science. Monter des « manips », comparer une prédiction à une expérience, tenir un cahier ou porter une blouse blanche, ce sont des méthodes, des organisations, des habitudes qui ont leur efficacité, mais qui pourront être remplacées un jour ou l’autre. Déjà, en astrophysique on monte des expériences entièrement virtuelles qui produisent des résultats scientifiques.

Et précisément, comme vous le dites, nous vivons avec la démultiplication des données numériques, une révolution considérable, qui bouleverse toutes les activités humaines et qui ne peut pas ne pas impacter l’activité scientifique.

Cette révolution provient de la conjonction de trois phénomènes :

- d’une part, en effet, on produit de plus en plus de données bon marché, grâce aux nouvelles technologies de capteurs légers, grâce à de nouveaux appareillages (aujourd’hui on sait faire un satellite à moins de 3000 euros et on séquence un génome humain pour moins de 200 dollars), grâce à la possibilité de créer de la contribution massive (comme le fait OpenStreetMap), grâce à l’informatisation d’un nombre croissant de processus, mais aussi du fait d'un profond changement de nos comportements et de notre rapport à l’intime qui fait qu’un nombre croissant d'entre nous partagent, plus ou moins délibérément, une quantité extraordinaire de données.

- D’autre part, on assiste à une révolution des méthodes et des techniques de traitement de ces données, qui en baisse le coût (grâce au « cloud computing », par exemple), qui permet de nouvelles aproches (les bases de données en flux, l’informatique massivement parallèle des big data, le machine learning, le deep learning, le regain de l'intelligence artificielle) ou qui ouvre de nouvelles approches pour interroger ces données (« machine learning » par exemple).

- Et il y a enfin une troisième révolution, consécutive des deux précédente, qui voit naître de très nombreuses nouvelles stratégies d’utilisation de ces données. Cette troisième dimension est à mon sens la plus frappante. On ne pose plus les même questions aux données, ou on les insère dans de nouveaux dispositifs d’action. On manipule des distributions complètes, au lieu de ne traiter que les moyennes statistiques, on « éduque des modèles de prévision », on recherche des signaux faibles, on apprend à raisonner sur des probabilités.

C’est la conjonction de ces trois dimensions de la révolution de la donnée qui bouleverse la science de nombreuses manières : on peut mesurer un nombre incalculable de phénomènes qu’il aurait été trop coûteux d’appareiller, on peut rechercher des signaux faibles à un coût qui diminue à toute allure, on peut mobiliser aisément une puissance de calcul considérable, on peut mobiliser des communautés extérieures au laboratoire – voir à la recherche, on peut rechercher des corrélations insoupçonnées sans hypothèses préalables (avec le « machine learning ») ce qui ne dispense pas de les vérifier ensuite dans de solides conditions expérimentales.
Je ne prends pas à mon compte les proclamations des chantres de la "fin de la théorie", puisque précisément la science reste toujours science et a le devoir de formuler des conclusions falsifiables, prédictives et reproductibles. Mais je constate que la science peut explorer un plus grand nombre de phénomènes, détecter des signaux de plus en plus ténus, et diversifier la stratégie d’identification des hypothèses à tester.

En revanche, c’est dans la sociologie du monde scientifique que les choses changent. Car effectivement on sort d’un monde où l’on reconnaissait le chercheur aguerri au fait qu’il avait appris, durement, sur le tas, à être économe en données, à réfléchir avant d’agir, à « ne pas se lancer à l’aventure ». Et il est vrai qu’aujourd’hui cette attitude est souvent moins efficace que la plongée dans une masse de données, même imprécises ou non structurées, en laissant germer les hypothèses à partir de premières questions posées aux données.

Ce qui est frappant, c’est surtout la difficulté à accepter cette transformation. On a parfois l’impression de revivre la Bataille d’Hernani, quand les Académiciens classiques disaient que Hugo ne faisait pas vraiment du théâtre parce qu’il ne respectait pas la règle des trois unités. Le Romantisme, c’est aussi du théâtre, mais ce n’est pas du théâtre classique.

La révolution du numérique a joué un rôle majeur dans le monde de la recherche ces dernières décennies. En quoi a-t-elle été bénéfique à la découverte et à l’innovation.

Comme toutes les activités humaines, la recherche va donc devoir se réorganiser en profondeur si elle veut saisir tout le potentiel de la révolution numérique, et ceux qui ne sauront pas le faire seront progressivement déqualifiés.

En théorie, elle devrait avoir beaucoup de facilités à saisir une révolution qui est née dans les laboratoires et les campus, qui emprunte de nombreux codes à l’activité scientifique (la transparence, la revue par les pairs, la coopération, la circulation du savoir) et qui lui libère de nombreuses ressources. En pratique, on voit quand même qu’une certaine manière de voir la recherche est aujourd’hui ébranlée : l’organisation, l’évaluation, le publication, le recrutement, la gestion budgétaire... Il y aura quand même une métamorphose à réussir. D’autant que de nombreux intérêts exogènes se penchent sur cette question, économiques en particulier, mais aussi industriels ou politiques.

Il serait difficile d’énumérer toutes les transformations numériques à l’œuvre. Il y a des capacités à observer des choses qui étaient invisibles, la capacité à partager des ressources (à commencer par la puissance de calcul) qui étaient par construction très concentrées, il y a les approches « big data » appliquées à la méthode hypothético-déductive, il y a les ressources du text-mining appliquées à la masse croissante d’articles scientifiques publiés chaque mois, il y a la capacité à mobiliser la science profane - et les forces de la contribution -, que les sciences naturelles connaissent depuis les lustres, il y a de nouvelles formes de coopération possibles entre la science, l’innovation, l’entreprise et la société civile.

Parmi ces transformations, je trouve qu’on tend en général à sous-estimer tout ce qui se joue autour des logiques de l’action que permet le numérique. On voit bien ce que produisent, dans l’ordre de l’action, l’open source (avec ses communautés de contributeurs), l’open data (et son potentiel d’innovation ouverte), l’open government (et sa capacité à engager des citoyens). L’open innovation, l’open access, l’open science portent un potentiel disruptif au moins équivalent au big data et à la révolution de la donnée, qui me semble aujourd’hui sous-employé. Vous savez comme moi que les joueurs de Foldit résolvent des problèmes de pliage de protéines qui échappent encore aux ordinateurs. Dans ce cas précis, on demande aux joueurs de traiter des problèmes assez simples et « mécaniques ». Mais demain, qu’est-ce qui empêche de les intégrer plus profondément encre dans l’activité scientifique ?

L’accès libre à de nombreuses informations et résultats permet-il de faciliter un certain nombre de « mauvaises conduites » qui pourraient être qualifiées de plagiat, fraude ou manquement à l’intégrité scientifique ? Quelles sont les possibilités de détecter ces manquements à l’intégrité scientifique et quels sont les recours possibles ?

On aborde là un deuxième chapitre, celui de l’open access, qui n’est plus celui de la révolution de la donnée.

Bien sûr, l’irruption de nouvelles technologies, et de surcroît de technologies cognitives, permet d’imaginer de nouveaux schémas de fraude. Il est probable qu’on peut aujourd’hui comprendre la roadmap d’une équipe à partir de signaux extrêmement faibles, on peut simuler des résultats en croisant de nombreuses données, etc.

Mais symétriquement, on peut penser que la publication du plus grand nombre possible de données d’expérience est aussi le meilleur moyen de lutter contre la fraude. La transparence et la mobilisation du plus grand nombre sont autant d'occasions de détecter la fraude.
Quiconque a déjà publié un article de recherche sait bien qu’on publie « presque » tout ce qui permet de reproduire l’expérience, mais qu’on se garde toujours un petit ingrédient secret pour garder une petite longueur d’avance. C’est même un problème connu en épistémologie : il est rare qu’une expérience significative soit réellement reproductible sans l’intervention d’un humain ayant participé à l’expérience initiale.

Par ailleurs, cette accessibilité croissante ne crée une vulnérabilité de la communauté scientifique que si elle reste sur les schémas d’organisation et de notation antérieurs. Si on regarde une perspective plus large, on a au contraire un immense territoire d’opportunités. Pourquoi mesurer l’impact d’un article au taux de citations alors qu’on pourrait mesurer directement l’impact du résultat dans un ensemble varié de productions ? Pourquoi se priver d’agréger des données scientifiques avec des données non scientifiques ? Pourquoi ne pas apprendre, comme les géants du numérique, à utiliser ses propres ressources pour devenir plateforme et attirer à soi l’innovation d’écosystèmes entiers ?

L’échange du savoir pour créer une intelligence collective est au cœur de la pratique scientifique depuis que la science est science. C’est cet échange qui permet à chaque génération de dépasser la précédente et qui nous permet d’être « des nains sur des épaules de géants »

Jadis, on savait ce que l’on cherchait : les expériences étaient construites en conséquence. Aujourd’hui, on cherche là où l’on a des données. Ne risque-t-on pas passer à côté d’évènements rares peu représentés (des « cygnes noirs ») ?

Votre question semble faire écho au célèbre article de Chris Anderson, dans Wired !, sur « la fin de la théorie ». Elle est également un peu pessimiste. Je me méfie toujours de la nostalgie d'anciens âges d'or.

Jadis aussi les « cygnes noirs » étaient difficiles à observer. Précisément, parce que, comme vous le dites, on « savait ce qu’on cherchait » : on restait prisonniers du paradigme dans lequel on raisonnait, qui empêchait de voir d’innombrables phénomènes. Dans la matière que je connais le mieux, la biologie, on a mis très longtemps à détecter le phénomène de transfert de gène via des virus, parce qu’on pensait que c’était une anomalie statistique non significative. Il faut lire les pages de Thomas Kuhn sur cette question, elles sont définitives.

Evidemment, si la science « pensée » était remplacée par une sorte d’empirisme mou, on y perdrait au change. Mais qu’est-ce qui empêche de desserrer un peu l’étau des paradigmes initiaux en acceptant de manipuler un peu plus de phénomènes, de considérer des distributions plus étendues, etc.

Avez-vous noté, par exemple, que l’épidémie de virus Ebola a été repérée 9 jours avant l’alerte par l’OMS par une entreprise qui menait une veille sur les réseaux sociaux ?

Au total, je pense quand même que plus nous baisserons les barrières à l'entrée dans l'activité scientifique, plus nous croiserons nos résultats et plus nous brasserons d'informations, et plus il y aura de chances de détecter les futurs "cygnes noirs". En effet, ce n’est pas parce qu’on ajoute les big data à la palette des méthodes permettant de générer des hypothèses qu’on est obligé de renoncer à une vérification méthodique de ces hypothèses.

Il y a par ailleurs un second sens à l’expression « the end of theory », qu’il faut prendre au sérieux. Ce que dit aussi Chris Anderson, c’est que de temps en temps, on n’a pas besoin d’une théorie juste pour agir juste. Quand la ville de New-York, par exemple, décide d’utiliser un peu de datamining pour mieux cibler les visites de prévention des pompiers, elle ne cherche pas à produire une sociologie juste. Elle veut juste faire des contrôles efficaces. Et si la théorie est fragile (et confond peut-être corrélation et causalité), cela est corrigé par le fait que la ville vérifie toutes les semaines si le score de visites positives continue à monter, qu’elle a prévu dans l’algorithme assez de visites aléatoires pour vérifier en permanence la pertinence de l’algorithme, bref, parce qu’elle a construit une logique de l’action qui tient compte du fait qu’on travaille sur des probabilités et non pas sur des connaissances.

Est-ce que l’on ne risque pas de confondre la science avec l’informatique, l’internet et l’exploitation de données ? Ne risque-t-on pas d’oublier de réfléchir à la nature, à la physique, à la chimie, à la biologie, pour ne penser plus qu’à des algorithmes qui risquent de masquer la réalité des phénomènes ?

L’accumulation de nouvelles données et la maîtrise de nouvelles capacités de traitement de ces données n’est pas un risque pour la communauté scientifique. Quant à la peur du progrès, ce n’est pas la solution et ce serait en outre une frilosité indigne de la culture scientifique.

Dans la société, en revanche, ces risques existent réellement. Mais ils n’arrivent pas avec le numérique. Cela fait bien longtemps que le pire ennemi de la science est l’effet de science que savent si bien produire un certain nombre d’acteurs de la société du spectacle. Allumez un poste de télévision, et vous ne passerez pas une heure sans en rencontrer un exemple de cette sorte de pseudo-science.

Je pense qu’aujourd’hui, effectivement, que nous sommes à un carrefour intéressant. Non pas parce que les scientifiques seraient menacés par le déluge de données, mais parce que les technologies dont nous parlons sont en train de se banaliser, parce que des données dont la science n’osait pas rêver deviennent accessible à un très grand nombre d’acteurs. Les technologies de « machine learning » et de « deep learning », par exemple, seront accessibles en ligne, « as a service » dans quelques années. Ce qui veut dire que n’importe qui pourra envoyer une table de quelques dizaines de millions d’items et demander des extractions statistiques pour quelques euros. On aura donc à faire face au risque de mise en œuvre d’approches statistiques par des non-scientifiques. A une généralisation de techniques qui étaient réservées aux scientifiques et qui seront manipulées par des apprentis-sorciers.

Cette démocratisation aura lieu, mais que doit faire la communauté scientifique face à cela ? Se retirer sur son Aventin et se draper dans sa dignité offensée ? Cela rappellerait probablement d'autres époques, où l'on s'inquiétait de la diffusion des livres imprimés et de la lecture. On avait d'ailleurs raison de s'en inquiéter, cela nous a valu les Lumières et pas mal de révolutions. Mais qui souhaiterait aujourd'hui revenir en arrière ?
Non. le seul choix raisonnable, il me semble, c'est d'entrer avec passion dans ce mouvement, de se réjouir que notre époque redécouvre le plaisir de chercher des réponses et de manipuler des données, et de contribuer de toutes nos forces à faire naître de nouvelles Lumières.

1 commentaire:

GUMP.FR GUADELOUPE28 avril 2016 à 10:36
L'exploitation du Big Data, de l'Internet, de l'Internet des objets et du croisement de ces données semble être une fuite en avant vers un contrôle plus poussé d'une société qui a vécu.
Cependant la valeur ajoutée de ce contrôle me semble annoncer l'avènement d'une dystopie au détriment des pays occidentaux.
Dans sa lutte pour la supprématie économique, l'occident semble capable de réduire ses propres populations en esclavage numérique. C'est peut être un réflexe du à ses habitudes destructives, prises sur la planète ses derniers siècles ?
RépondreSupprimer
Réponses

Ajouter un commentaire

Pages

lundi, mars 28, 2016

Sciences et big data : La fin de la théorie ?

1 commentaire: