(Reprise et développement du billet initialement publié sur le blog MFG-Labs)
Je suis souvent frappé par la pauvreté des modèles implicites d'analyse de l'opinion. La plupart des commentateurs nous parlent des "influenceurs" et des "passeurs" d'opinion, comme s'ils commentaient la diffusion d'une circulaire ministérielle dans une administration...
Quelle pauvreté quand on compare ce discours au célèbre texte de Beaumarchais sur la calomnie :
C'est pourquoi nous cherchions, chez MFG-Labs, un modèle nous permettant d'analyser la propagation d'une information.
L'affaire #DSK nous a fourni le parfait modèle. C'est un scoop bien daté, facile à tracer, facile à monitorer, qui a enflammé la twittosphère en quelques heures. L'équipe de MFG a donc choisi d'extraire tous les tweets des 14 et 15 mai dernier traitant de cette affaire, et de regarder ce qu'on pouvait en apprendre concernant la diffusion d'une opinion.
Nous ne sommes certes ni les premiers ni les seuls. Mais il m'a semblé intéressant de partager avec vous quelques observations et quelques questions, qui montrent tout le chemin qui reste à faire pour réellement apprendre à interpréter cette masse de données désormais disponibles sur les réseaux.
Il n'est pas très difficile d'extraire tous les tweets sur un sujet donné, et éventuellement d'en retracer le graphe dynamique.
Reste à savoir comment les représenter.
Sur cette affaire, de propagation extrêmement virale, nous avons choisi de nous concentrer sur les interactions entre les twittonautes. Nous n'avons donc pas regardé la propagation du hashtag #DSK dans Twitter, mais la manière dont l'information propageait, de compte à compte, ce que nous avons repéré grâce aux mentions de type @j_pinet. Ces mentions, des conventions syntaxiques de Twitter, permettent de repérer un "retweet" (transfert d'un tweet d'une personne à un autre), une interpellation ou une réponse dirigée vers quelqu'un.
Nous nous sommes donc concentrés sur les trois premières heures de l' "affaire" (soit, en France, entre le 14 mai à 23 heures et le 15 mai à 02h00), et avons tracé le graphe des échanges entre twittonautes à partir de leurs citations respectives.
Première observation : on retrouve bien comme l'a dit la presse, le tweet initial d'un militant UMP, Jonathan Pinet, :
Le premier à lui répondre est NSEmpire (autre militant UMP), qui demande:
Immédiatement après, le "Club DSK" répond à Jonathan Pinet
C'est après ce tweet que la conversation explose. Très rapidement, Fabrice Pelosi devient un relai essentiel de la conversation (Fabrice Pelosi est l'un des animateurs du blog Warrant marrant sur Yahoo!). Puis le site Les News, l'un des premiers sites d'infos à reprendre l'information devient assez important dans le graphe. Ce qui est intéressant, c'est l'importance de Fabrice Pelosi (2.300 followers) ou de @clubDSK (5.000 followers à cette date), qui va perdurer pendant cette séquence, malgré l'arrivée du site Les News (57.000 followers), puis du New-York Times (3.400.000 followers). Cette importance s'explique en partie par notre parti-pris : nous retraçons ici des conversations et non pas la propagation d'une information. Tous les points qui apparaissent à la périphérie du graphe sont des démarrages de nouvelles conversations, non reliées à la première.
La lecture de la construction progressive de ce graphe montre bien la propagation en étoile de la conversation, avec des relais qui ré-explosent l'info à tous leurs followers tandis que d'autres se contentent de la faire passer à un ou deux amis.
Mais l'inconvénient de cette représentation, assez classique, est qu'elle montre comment la thématique propage de proche en proche, et non pas pas comment se structure la conversation au fil du temps. Autrement dit, une personne qui aurait passé l'information à une autre groupe, puis se serait tue, reste centrale dans ce graphe. C'est pourquoi nous avons réalisé une deuxième expérience. Nous avons tracé la même propagation en réorganisant le graphe à chaque étape, pour placer au centre, à tout moment, les acteurs les plus cités à ce moment là.
Ca donne à peu près ça :
Avec cette lecture, on voit notamment comment très bien comment les acteurs initiaux se font rapidement écarter de la conversation sur Twitter, et comment des hypercentres ( BenjaminPoulin, Fabrice Pelosi, puis Les News, Terminalose, puis enfin le New-York Post et le New-York Times) deviennent successivement centraux.
Il y a de nombreux enseignements à tirer de ces analyses. Nous y travaillons, et je suis certain que vous allez nous apporter d'autres contributions.
La première chose qui est frappante est de voir à quel point nous sommes proches de Beaumarchais, plus que du modèle hiérarchique : foin d'organigramme, l'information ne propage pas comme une circulaire ministérielle. On est vraiment dans ce torrent décrit par Baumarchais. Rien ne semble fixer la circulation de cette conversation dont le centre ne cesse de changer.
Dans ce contexte ultra mouvant, il reste quand même une prime aux premiers entrants, aux plus followés, aux plus cités (les plus crédibles, sans doute) et à ceux avec qui les internautes dialoguent le plus. Des comptes à 5.000 followers peuvent monopoliser la conversation pendant près de 2 heures. Sur cette séquence, les journaux traditionnels n'arrivent pas à se placer au centre de la conversation, même s'ils réussiront ensuite à s'installer.
Il est frappant, à ce titre, de constater que les équipes de campagne (ClubDSK et toutMontebourg - qui fait un passage rapide) peinent à se maintenir au contre de la conversation. Il va falloir s'organiser différemment, les gars. Ce n'est pas comme ça qu'on joue contre la rumeur.
Je suis souvent frappé par la pauvreté des modèles implicites d'analyse de l'opinion. La plupart des commentateurs nous parlent des "influenceurs" et des "passeurs" d'opinion, comme s'ils commentaient la diffusion d'une circulaire ministérielle dans une administration...
Quelle pauvreté quand on compare ce discours au célèbre texte de Beaumarchais sur la calomnie :
D'abord un bruit léger, rasant le sol comme une hirondelle avant l'orage.... telle bouche le recueille, et, piano, piano, vous le glisse en l'oreille adroitement ; le mal est fait : il germe, il rampe, il chemine, et, rinforzando, de bouche en bouche, il va le diable ; puis tout à coup, ne sais comment, vous voyez la calomnie se dresser, siffler, s'enfler, grandir à vue d'oeil ; elle s'élance, étend son vol, tourbillonne, enveloppe, arrache, entraîne, éclate et tonne, et devient un cri général, un crescendo public, un chorus universel de haine et de proscription...
C'est pourquoi nous cherchions, chez MFG-Labs, un modèle nous permettant d'analyser la propagation d'une information.
L'affaire #DSK nous a fourni le parfait modèle. C'est un scoop bien daté, facile à tracer, facile à monitorer, qui a enflammé la twittosphère en quelques heures. L'équipe de MFG a donc choisi d'extraire tous les tweets des 14 et 15 mai dernier traitant de cette affaire, et de regarder ce qu'on pouvait en apprendre concernant la diffusion d'une opinion.
Nous ne sommes certes ni les premiers ni les seuls. Mais il m'a semblé intéressant de partager avec vous quelques observations et quelques questions, qui montrent tout le chemin qui reste à faire pour réellement apprendre à interpréter cette masse de données désormais disponibles sur les réseaux.
Il n'est pas très difficile d'extraire tous les tweets sur un sujet donné, et éventuellement d'en retracer le graphe dynamique.
Reste à savoir comment les représenter.
Sur cette affaire, de propagation extrêmement virale, nous avons choisi de nous concentrer sur les interactions entre les twittonautes. Nous n'avons donc pas regardé la propagation du hashtag #DSK dans Twitter, mais la manière dont l'information propageait, de compte à compte, ce que nous avons repéré grâce aux mentions de type @j_pinet. Ces mentions, des conventions syntaxiques de Twitter, permettent de repérer un "retweet" (transfert d'un tweet d'une personne à un autre), une interpellation ou une réponse dirigée vers quelqu'un.
Nous nous sommes donc concentrés sur les trois premières heures de l' "affaire" (soit, en France, entre le 14 mai à 23 heures et le 15 mai à 02h00), et avons tracé le graphe des échanges entre twittonautes à partir de leurs citations respectives.
Première observation : on retrouve bien comme l'a dit la presse, le tweet initial d'un militant UMP, Jonathan Pinet, :
un pote aux Etats-Unis vient de me rapporter que #DSK aurait été arrêté par la police dans un hôtel à NYC il y a une heure.Ce tweet initial, retwitté 73 fois, sera suivi de 5 autres.
Le premier à lui répondre est NSEmpire (autre militant UMP), qui demande:
@j_pinet il est sûr que c'est DSK ou un mec du même physqiue (courant dans un grand hôtel aux US) ?#curieuxce à quoi Jonathan Pinet répond :
@NSEmpire non, il ne peut y avoir erreur sur la personne, après, je n'en sais pas plus. Wait and see")Le deuxième à répondre est RNL_education (un compte UMP spécialisé dans la réforme des lycées), qui répond :
@j_pinet hein ? #DSKPuis Arnaud Dassier, l'ex directeur de la web campagne campagne de Nicolas Sarkozy en 2007.
Immédiatement après, le "Club DSK" répond à Jonathan Pinet
@j_pinet Lol, un pote dans la police ?puis à Arnaud Dassier,
Quand il ne sait plus quoi twitter @arnauddassier twitte des rumeurs ... #DSK vs #SarkozyIl faut dire qu'une polémique montait depuis plusieurs jours entre @arnauddassier, @j_pinet et @clubDSK autour de la photo de la Porsche de Ramzi Khiroun.
C'est après ce tweet que la conversation explose. Très rapidement, Fabrice Pelosi devient un relai essentiel de la conversation (Fabrice Pelosi est l'un des animateurs du blog Warrant marrant sur Yahoo!). Puis le site Les News, l'un des premiers sites d'infos à reprendre l'information devient assez important dans le graphe. Ce qui est intéressant, c'est l'importance de Fabrice Pelosi (2.300 followers) ou de @clubDSK (5.000 followers à cette date), qui va perdurer pendant cette séquence, malgré l'arrivée du site Les News (57.000 followers), puis du New-York Times (3.400.000 followers). Cette importance s'explique en partie par notre parti-pris : nous retraçons ici des conversations et non pas la propagation d'une information. Tous les points qui apparaissent à la périphérie du graphe sont des démarrages de nouvelles conversations, non reliées à la première.
La lecture de la construction progressive de ce graphe montre bien la propagation en étoile de la conversation, avec des relais qui ré-explosent l'info à tous leurs followers tandis que d'autres se contentent de la faire passer à un ou deux amis.
Mais l'inconvénient de cette représentation, assez classique, est qu'elle montre comment la thématique propage de proche en proche, et non pas pas comment se structure la conversation au fil du temps. Autrement dit, une personne qui aurait passé l'information à une autre groupe, puis se serait tue, reste centrale dans ce graphe. C'est pourquoi nous avons réalisé une deuxième expérience. Nous avons tracé la même propagation en réorganisant le graphe à chaque étape, pour placer au centre, à tout moment, les acteurs les plus cités à ce moment là.
Ca donne à peu près ça :
Avec cette lecture, on voit notamment comment très bien comment les acteurs initiaux se font rapidement écarter de la conversation sur Twitter, et comment des hypercentres ( BenjaminPoulin, Fabrice Pelosi, puis Les News, Terminalose, puis enfin le New-York Post et le New-York Times) deviennent successivement centraux.
Il y a de nombreux enseignements à tirer de ces analyses. Nous y travaillons, et je suis certain que vous allez nous apporter d'autres contributions.
La première chose qui est frappante est de voir à quel point nous sommes proches de Beaumarchais, plus que du modèle hiérarchique : foin d'organigramme, l'information ne propage pas comme une circulaire ministérielle. On est vraiment dans ce torrent décrit par Baumarchais. Rien ne semble fixer la circulation de cette conversation dont le centre ne cesse de changer.
Dans ce contexte ultra mouvant, il reste quand même une prime aux premiers entrants, aux plus followés, aux plus cités (les plus crédibles, sans doute) et à ceux avec qui les internautes dialoguent le plus. Des comptes à 5.000 followers peuvent monopoliser la conversation pendant près de 2 heures. Sur cette séquence, les journaux traditionnels n'arrivent pas à se placer au centre de la conversation, même s'ils réussiront ensuite à s'installer.
Il est frappant, à ce titre, de constater que les équipes de campagne (ClubDSK et toutMontebourg - qui fait un passage rapide) peinent à se maintenir au contre de la conversation. Il va falloir s'organiser différemment, les gars. Ce n'est pas comme ça qu'on joue contre la rumeur.
Pour ma part, je milite pour que la propagation des rumeurs suive en fait le même modèle mathématique que la propagation d'une maladie. Je pense que les modèles de type SIS et SIRS sont de bons débuts (de l'équa diff classique en fait)
RépondreSupprimervoir :
- http://en.wikipedia.org/wiki/Epidemic_model
- http://www.math.rutgers.edu/~leenheer/hethcote.pdf
- http://bill.srnr.arizona.edu/classes/195b/195b.epmodels.htm
et arXiv où il y a pas mal de bons papiers.
Le principe de base de ce type de modèle est simple: des gens sont malades, la maladie se propage, des gens sont cependant immunisées, d'autres en meurent, d'autres propagent encore...
Il doit en être de même pour les rumeurs (changer blabla en virus et hop !). Certains ne sont pas au courant car trop loin, d'autres RT immédiatement, d'autres font le choix de ne pas propager...
A mon sens, pour démontrer cela, il faut regarder qui est initie, qui peut écouter, qui fait le choix de suivre / se taire / propager / etc...
Et la difficulté vient du fait que sur twitter par exemple, on ne peut pas savoir si untel a vu ce message (mais on peut essayer de voir s'il a twitté juste avant, juste après...).
Mes deux cents.
La diffusion du buzz est une question à surveiller de près, les outils numériques nous permettent de l'observer d'une manière passionnante.
RépondreSupprimerÀ part ça, certaines personnalités se prêtent plus facilement à être soupçonnées de ci ou de ça. Par exemple si on lance que Bernard Tapie est dans une affaire financière douteuse, vrai ou pas, ça prendra plus facilement que si on accuse Martine Aubry de la même chose. Et si on accuse Martine Aubry de viol dans un Sofitel, les gens y croiront infiniment moins encore.
Personnellement j'avais fait plusieurs dessins sur le sujet du rapport que le chef de file des Strauss-kahniens entretient vis à vis de la gent féminine (http://www.blogueurinfluent.com/?cat=97&paged=2), sans me rappeler avoir entendu parler de l'affaire Tristane Banon. Tout naturellement, quand l'affaire du Sofitel est sortie, j'étais tout prêt à y croire, peut-être moins par perméabilité à la rumeur, mais parce que c'est ce que me renvoie le bonhomme (notamment son "droit de réponse" à Stéphane Guyon qui m'avait étonné, rétrospectivement je le trouvais plus dominateur et agressif qu'autre chose -> ça aurait fait un bon chef pour les français, toujours amateurs de mâles dominants pour les diriger)