mercredi, octobre 02, 2013

Quelle mesure pour les données publiques ? (Shannon, McLuhan et les BigData)

Le Premier ministre a récemment adressé au gouvernement, par voie de circulaire, un Vademecum de l'ouverture et du partage des données publiques, afin de faciliter l'appropriation de cette démarche en en rappelant les fondements et les enjeux, et en répondant aux questions que se posent bien des administrations confrontées à une démarche concrète d'ouverture...

Autant qu'on puisse en juger, la démarche a été bien accueillie, et le document circule, y compris par des voies imprévues, et diffuse auprès des administrations et des collectivités locales.

Tout naturellement, certains commentateurs se sont demandés, devant ce rappel des fondamentaux, ce qui s'était passé depuis la mise en place de la nouvelle organisation.

Et c'est là que l'on a vu fleurir, ici ou là, l'argument selon lequel l'ouverture se ralentirait, puisque Etalab  n'aurait "libéré" que 50.000 nouveaux fichiers en un an, contre 300.000 fichiers les deux années précédentes. Cet article de l'IFRAP, par exemple, est particulièrement éloquent.

La valeur des séries complètes

Alors certes, il nous faudra expliquer que le nombre de fichiers est un bien pauvre paramètre pour décrire l'impact d'une politique d'open data. Il nous faudra dire, par exemple, que sur les 300.000 fichiers recensés par www.data.gouv.fr en décembre 2012, presque 290.000 provenaient du découpage par communes (et intercommunalités) de 6 fichiers de l'INSEE (recensement de la population, etc.).

Il nous faudra expliquer que dans les nouveaux fichiers se cachent des documents extrêmement importants : réserve parlementaire, attributaires de marchés publics, aides à la presse, population carcérale, et d'autres, plus ésotériques, mais très importants pour les professionnels, comme ceux de France Agrimer ou de l'ARCEP, ou de l'ATIH, et d'autres enfin, qui marquent de nouvelles manières d'envisager l'action publique, comme les données ayant servi de base aux travaux de la mission Queyranne Desmaël Jürgensen  [J'espère que personne ne se sentira lésé de n'être pas mentionné : je ne prends ces exemples que pour les besoins de la démonstration...].


Ce n'est pas seulement une opposition entre qualité et quantité. C'est surtout la conviction que les données prennent de plus en plus de sens, et de valeur, à mesure qu'on les agrège. Et que le nombre de fichiers peut donc être aussi l'indicateur d'un émiettement qui perd de la valeur.
Exemple : si la statistique de faits constatés par la police au mois de mai 2013 dans le département de la Moselle est intéressante, la série des faits constatés par la police en Moselle tous les mois est beaucoup plus intéressante. Et les faits constatés par la police sur 100 département pendant 10 ans sont encore plus intéressants. Et l'agrégation des faits constatés par la police et la gendarmerie encore plus... Mieux vaux publier un tableau de 100 lignes et 240 colonnes que 24.000 fichiers...
 Les données, ça s'emboîte en séries de plus en plus longues. Il faut parfois savoir sortir de l'accumulation de fichiers bruts pour les rassembler en séries complètes et cohérentes, beaucoup plus riches de sens...

Il nous faudra donc annoncer que nous venons de consentir un énorme travail pour rassembler tous les fichiers non structurés en séries complètes et cohérentes, et que les 350.000 fichiers aujourd'hui accessibles sur data.gouv ont vocation à devenir, 2.800 séries, sans que nous n'ayons perdu aucune information, bien au contraire.

Nous porterons ces explications. Mais au-delà, la question me semble ouvrir sur un problème plus fondamental : comment mesurer l'intensité d'un effort d'ouverture ?


Quelle métrique pour les données ?

Un rapide parcours parmi les portails homologues à data.gouv montrera rapidement que les différents acteurs de l'open data hésitent entre les deux approches : les uns revendiquent fièrement le nombre de jeux de données, et passent allègrement les 300.000. Les autres s'attachent à lister les phénomènes qui sont décrits, et ont des chiffres bien différents. Nos amis britanniques, par exemples, recensent 10.291 fichiers sur http://data.gov.uk.

Il est donc légitime de se demander s'il est possible de définir une métrique permettant de "mesurer" l'intensité d'une politique d'ouverture. Ce ne sera pas facile. S'il est clair que cette intensité ne saurait être décrite par le nombre de fichier (comme on vient de le voir), le nombre de séries n'est pas non plus recevable : (plusieurs séries peuvent décrire le même fragment du réel avec des points de vue légèrement différents). Il dépend fondamentalement de l'organisation du recueil des données (et notamment de sa décentralisation).
On pourrait bien sûr essayer de mesurer le nombre d'informations (par exemple le nombre total de "cases" dans les tableurs, que CKAN appelle "statement"), mais on aurait de grandes difficultés du fait que ces données peuvent décrire des faits d'ordres très différents (faits matériels, indicateurs élaborés, estimations, statistiques, etc), parfois redondants et parfois contradictoires. Sans compter certaines informations qui ne se mettent pas en cases, comme l'information géographique.

Ces questions rappellent un peu les travaux du grand mathématicien Claude Shannon l'un des pères de la théorie de l'information. Ayant travaillé, pendant la guerre, dans les services de cryptographie de l'armée américaine, il se confronta à des messages dont il ignorait le contenu. Cette expérience allait par exemple le conduire à populariser le concept de bit, pour désigner une quantité élémentaire d'informations, ou à forger le concept que l'on appellera entropie de Shannonqui définit la capacité de la chaîne d'information à transporter des données comme la résultante du rapport Signal/bruit sur la bande passante disponible. [Pour faire court, dans un signal donné, l'information est d'autant moindre que la redondance est élevée. La série de lettres "aaaaaaaaaaaaaaaaaaaa" comprend moins d'informations que la série "azertyuiopqsdfghjklm"...]

Il y aura peut-être quelque chose à creuser dans cette direction. Mais je n'en suis pas certain, car ce que demandent les utilisateurs, au fond, ce ne sont pas des données, ce sont des connaissances. Ce qui introduit d'ailleurs une nouvelle complexité, car une même "connaissance " (indice de pollution, taux de chômage, etc.) peut être présentée avec plus ou moins de détails (de granularité), ce qui peut parfois tout changer (que l'on pense par exemple au budget de l'Etat). Bref, même si je ne la goûte pas trop, je pense que l'on devra réinterroger la distinction, très bien explicitée en par Nokana il y a une vingtaine d'années, entre "données, information et connaissance" (voir cet article, par exemple).


La donnée, l'information et la communication


Si quelque lecteur, ou quelque chercheur, me fait parvenir le projet d'une méthode permettant de mesurer l'intensité en "connaissances" d'une masse de séries, je m'en réjouirai grandement, et nous nous emploierons certainement à diffuser cette métrique parmi nos partenaires embarqués dans l'open data.

Il me semble cependant que la réponse ne viendra pas de la théorie de l'information. Les données publiques, en effet, ne sont pas seulement des données. L'ouverture des données, c'est aussi un acte politique qui vise à rendre des comptes, donc à assumer la responsabilité d'une prise de parole, qui porte un sens.

Cela rappelle cette fois-ci un grand théoricien de la communication, Marshall McLuhan, et son fameux "media is the message". La formule est si galvaudée que l'on a parfois perdu de vue sa signification première. "Media is the message" ne veut pas dire "dites n'importe quoi si vous voulez, l'important est de savoir si vous le dites à la télé ou sur Twitter". Ce que signifiait la formule était plutôt l'idée que les dispositifs techniques et sociaux qui entourent un moyen de communication contraignent profondément l'émission comme la réception. La télévision, par construction, se diffuse depuis un centre et parle à des individus isolés. Cette contrainte contraint le message et sa portée potentielle (peut-être est-ce que je tire un peu McLuhan dans le sens d'une sorte de "Code is Law" lessigien..., mais je pense qu'il accepterait cette lecture).
La portée d'un dispositif de diffusion des données publiques ne se mesure donc pas seulement aux données qu'il diffuse, mais aussi aux qualités du dispositif lui-même... un site qui publie des fichiers à sens unique (comme beaucoup de sites d'open data de première génération) peut servir des objectifs de transparence mais pas d'innovation/Co-création. Un média qui capte les avis, les réutilisations, les enrichissements de son public crée une relation inédite décloisonnant les services publics. L'organisation d'une réelle reddition des comptes, la liberté accordée aux interprétations, la logique plus ou moins aboutie de co-construction avec les utilisateurs... tout cela entre à plein, me semble-t-il, dans la mesure d'impact d'une politique d'ouverture.
C'est pourquoi, par exemple, parmi toutes les ouvertures obtenues cette année, je suis extrêmement fier de la décision d'Arnaud Montebourg de partager le modèle de données ayant fondé les travaux de la mission Queyranne Desmaël Jürgensen. En effet, derrière cette ouverture, il n'y a pas seulement un acte de transparence. Il y a l'idée, à laquelle je suis très attaché, que l'open data, c'est aussi un déplacement de la manière d'exercer le pouvoir. L'idée qu'une expertise doit être accompagnée des éléments qui ont fondé l'analyse, et autoriser ainsi la discussion, la critique, la contre-expertise. Au fond, il y a l'idée que si les institutions de la République fonctionnaient un peu plus comme la recherche, on ne s'en porterait pas si mal.


La valeur de la donnée, c'est la valeur d'utilisation

Mais au fond, je pense que même les raisonnements sur le contenu informationnel, voir sur la portée politique d'une information, ne suffiront pas à mesurer pleinement l'importance d'une ouverture de données par rapport à une autre. La valeur d'une information ne se mesure pas, elle se constate. Elle se constate quand les utilisateurs s'en sont emparés, et en ont fait quelque chose. Ca me rappelle cette doctrine de cryptographie "une information est protégée quand elle coûte plus cher à obtenir qu'elle ne rapporte".
Ce que nous devrons apprendre, et que devraient rechercher les commentateurs, c'est à estimer l'importance des enjeux autour d'une information, et à ressentir, dans cette importance, non seulement le sens immédiat mais aussi toutes les potentialités. (cf, dans L'Age de la multitude, le développement sur la différence entre "réaliser du possible" et "actualiser du virtuel".)
Au fond, la valeur d'une ouverture de données, c'est l'importance de l'information elle-même, telle qu'elle se vérifiera après utilisation.
On ne peut pas savoir ce qu'apporte un jeu de données sans s'en emparer, sans jouer avec, sans tenter de s'en servir un peu. On ne devrait pas comparer deux portails sans avoir préalablement tenté de l'utiliser. Comme souvent dans le numérique, l'expérience réelle est plus importante que les concepts.

Alors, à nous de jouer... avec les données.

4 commentaires:

  1. "très bien explicitée par Nonaka"

    RépondreSupprimer
  2. Comme les données brutes sont complexes à utiliser, peut être serait-il utile d'ouvrir ces données - ou plutôt les méthodes d'accès à ces données - de la façon la plus simple possible, sous forme d'API, avec quelques exemples programmés montrant quelques enseignements ou tendances simples contenus dans ces données. Si cela était fait systématiquement, il y aurait sans doute possibilité de structurer ces API de façon similaire et élégante, de lier à ces API quelques modules statistiques (d'abord simples, puis plus complexes), le but étant de gagner en savoir faire et en simplicité sur les méthodes d'analyse elle-mêmes. Car à données égales, les meilleures sont celles qui se prêtent le plus à l'analyse. Si de telles API existent et tendent à s'integrer, elles peuvent sans doute aussi permettre d'améliorer la structuration de données futures. Peut être avez vous déjà pensé à tout ça.

    RépondreSupprimer
  3. La valeur de la donnée pourrait etre vue comme celle qui répond a un besoin perçu (voire émis?!) par le public. Le couple 'demande | taux d'adoption' pourrait être une piste de réflexion. De même, on peut peut etre mesurer la coherence entre les objectifs fixés (ex la transparence ) et les résultats. Il me semble alors que la réponse se trouve plutôt dans le champ de la gestion (je pense aux business model et aux mesure des chaînes de valeur ainsi qu'en stratégie) qu'aux théories de l'information.

    RépondreSupprimer
  4. John Wilbanks (http://del-fi.org/) a fait une présentation (http://www.slideshare.net/wilbanks/rda-plenary) au colloque RDA(Research Data Alliance) où il propose un métrique pour mesurer la "générativité" des données ouvertes (voir slides 23-34). J'ai assisté à son talk et je trouve qu'il est sur une bonne piste - sa conclusion: "it is not about net present value, it's about net potential value".

    RépondreSupprimer