(#7) Le paradoxe de Simpson - YouTube
Bonjour à tous !
Aujourd'hui je voudrais vous parler d'un paradoxe de statistique
qu'on appelle le paradoxe de Simpson.
Si vous ne connaissez pas ce paradoxe,
je vous promets que vous allez le trouver vraiment perturbant.
Et une fois que vous aurez vu la vidéo,
je suis sûr que vous ne regarderez plus les chiffres de la même manière quand on vous montre des statistiques.
[Générique]
Voilà, maginons, vous êtes à l'hôpital et vous venez de passer des examens
et puis là, pas de bol, il s'avère que vous avez un truc bizarre qui se révèle être une tumeur.
Alors le médecin vous reçoit puis vous explique qu'il faut la soigner
et il vous dit que pour ça il existe deux types de traitements.
Le premier type de traitement, c'est d'utiliser des médicaments,
c'est ce qu'on appelle de la chimiothérapie
et puis l'autre type de traitement c'est de faire une chirurgie.
Et là, le médecin vous demande lequel des deux traitements vous voulez suivre.
Alors à priori vous n'y connaissez pas grand-chose donc vous lui posez la question
qu'on a tous envie de se poser dans ce genre de situation, c'est-à-dire,
c'est lequel des deux traitements qui marche le mieux ?
Alors là, le médecin vous sort les chiffres d'une étude statistique qui a été faite au niveau national
et qui recense les taux de guérison des mille derniers patients
qui ont été traités avec chacune des deux techniques.
Alors les chiffres les voici :
dans le cas des médicaments, le taux de guérison a été de 76 %
et dans le cas de la chirurgie, il a été un peu moins élevé, il a été de seulement 66 %.
Donc l'affaire paraît claire, les médicaments marchent un peu mieux
donc vous décidez de partir sur un traitement à base de médicaments.
Et puis quelques jours plus tard, vous rencontrez votre médecin traitant
et il n'a pas l'air tout à fait d'accord avec votre choix
et vous explique qu'en fait ça dépend de la taille de la tumeur.
Alors, il cherche dans ses papiers et il retrouve une étude
qui montre les taux de guérison, mais séparés par taille de tumeur.
Alors, voici les chiffres:
pour les grosses tumeurs, qu'on définit comme étant celles de plus de 2 cm,
le taux de guérison des médicaments est de 49% et celui de la chirurgie est de 63%
donc sur les grosses tumeurs, c'est la chirurgie qui marche le mieux.
Puis sur les petites tumeurs,
le taux de guérison des médicaments est de 82% et celui de la chirurgie de 90%.
Donc sur les petites tumeurs, c'est aussi la chirurgie qui marche le mieux.
Donc là, vous êtes complètement perdu,
vous avez une étude qui vous dit que les médicaments marchent mieux
et une autre étude qui vous dit que c'est toujours la chirurgie qui marche le mieux.
Alors vous prenez les deux études, vous les comparez, vous essayez de comprendre quelle est la différence
et puis soudain vous réalisez qu'en fait,
ces chiffres ne forment qu'une seule et même étude, ce sont exactement les mêmes chiffres.
Je vais vous montrer.
Ici je vous ai remis les chiffres de la deuxième étude donc on sépare par taille de tumeur
et vous voyez, je ne vous mets pas seulement les taux de guérison,
je vous mets aussi à chaque fois combien de patients ont été traités comme ça.
Si on fait le total du nombre de patients qui ont été traités par médicament
et bien on retrouve le chiffre que je vous ai donné tout à l'heure et le taux de guérison est de 76%.
Et si vous faites la somme des chiffres des patients qui ont été traités par chirurgie,
vous retrouvez aussi le chiffre que je vous ai donné et avec un taux de guérison de 66%.
Donc si vous ne me croyez pas, je vous conseille de revenir un petit peu en arrière
et vous pouvez vérifier mes calculs.
On voit bien que, au global les médicaments ont un taux de guérison meilleur
mais si on sépare par type de tumeur,
c'est la chirurgie qui a toujours un taux de guérison meilleur.
[Générique]
Là, normalement, vous vous demandez, comment c'est possible.
Comment est-ce qu'en partant des mêmes chiffres,
je peux, au global, conclure que les médicaments marchent le mieux
mais sur chaque type de tumeur prise individuellement,
conclure que c'est la chirurgie qui marche le mieux.
Alors, je vous rassure, il n'y a pas d'erreur, il n'y a pas de manipulation, il n'y a pas de truc.
Ce que vous voyez là, c'est juste les vrais chiffres
et vous êtes face à ce paradoxe de statistique qu'on appelle le paradoxe de Simpson.
C'est un paradoxe qui dit que, certaines données statistiques,
suivant la manière dont on les analyse, on peut aboutir à une conclusion
ou à la conclusion opposée.
Là, le problème, c'est que vous avez vraiment envie de savoir quel traitement marche le mieux.
Est-ce que c'est les médicaments ou est-ce que c'est la chirurgie ?
Est-ce qu'il faut croire la première manière de présenter les choses ou plutôt la deuxième ?
Je vous laisse vous faire votre opinion pendant une seconde puis je vais vous donner la réponse.
En fait la vérité, c'est que c'est la chirurgie qui marche le mieux.
Le fait que les médicaments aient l'air d'avoir des taux de guérison plus élevés en moyenne,
c'est juste une apparence.
Pour comprendre ça, il faut retourner dans le détail des chiffres.
Il y a deux observations importantes à faire.
La première c'est que les grosses tumeurs
ont des taux de guérison plus faibles que les petites tumeurs.
Ce n'est pas très surprenant, on imagine que les grosses tumeurs sont plus difficiles à guérir.
La deuxième observation importante, c'est que quand on a une grosse tumeur
on utilise beaucoup plus souvent la chirurgie que les médicaments.
Donc qu'est-ce qui se passe, en fait intrinsèquement la chirurgie fonctionne mieux,
sauf que, historiquement, dès qu'on a eu un cas difficile,
on a beaucoup plus souvent utilisé la chirurgie que les médicaments.
Donc sur les données statistiques, quand on regarde tout ça,
le score de la chirurgie est moins élevé parce qu'on lui a toujours filé les cas difficiles.
Pour comprendre comment ça peut se produire ce genre de situation, au niveau statistique,
il faut faire appel à une notion qu'on appelle le facteur de confusion.
Qu'est-ce qu'on essaie de faire ici ?
On essaie d'étudier un lien de cause à effet entre le choix du traitement et la guérison.
Alors, la probabilité de guérison dépend du choix du traitement
mais elle dépend bien sûr de tout un tas d'autres facteurs
et notamment de la taille de la tumeur.
Sauf que dans les données qu'on utilise,
la taille de la tumeur a aussi joué sur les choix des traitements qu'on a utilisés.
Vous vous souvenez, à chaque fois qu'on avait des grosses tumeurs
on avait plutôt tendance à utiliser la chirurgie que les médicaments.
Et donc on a un facteur externe, la taille de la tumeur, qui joue à la fois
sur la conséquence mais aussi sur la cause qu'on veut étudier.
Donc c'est ça qu'on appelle un facteur de confusion et c'est quand on est dans ce genre de situation
que le paradoxe de Simpson peut se produire.
Pour bien vous faire comprendre ça, je vais prendre un exemple
qui est peut-être un petit peu caricatural mais qui est intéressant.
Un jour, j'écoutait un débat à la radio sur les bienfaits, ou pas, du redoublement
et l'un des deux protagonistes disait la chose suivante, il disait :
Alors, je veux bien croire que la question des bienfaits du redoublement soit compliquée
mais ce dont je suis sûr, c'est que cet argument, il est stupide.
Je pense que vous voyez pourquoi, les élèves qu'on fait redoubler, en général,
c'est ceux qui sont en difficulté scolaire
donc ce n'est pas hyper surprenant de constater qu'à la fin,
ces élèves là ont des notes moins bonnes que les autres au bac.
Si vous regardez finement le truc, vous voyez qu'on est aussi dans une situation où on a un facteur de confusion.
Ce qu'on essaie de faire, c'est d'étudier le lien de cause à effet
entre le fait de redoubler ou pas et les notes au bac
et on a un facteur qui est le niveau scolaire de l'élève qui va jouer sur ses notes au bac
mais qui va aussi jouer sur le fait qu'on ait choisi de le faire redoubler ou pas.
Donc le niveau scolaire de l'élève est un facteur de confusion et si on l'oublie,
on aboutit à une conclusion qui est erronée au plan statistique
qui est que, faire redoubler les élèves ça fait baisser leurs notes au bac.
[Générique]
Pour bien montrer que les facteurs de confusion et donc le paradoxe de Simpson
peuvent se cacher un petit peu partout dans les statistiques, je vais prendre encore un autre exemple.
Imaginons que vous vouliez étudier le lien qui existe entre la consommation de bière des gens et leur libido.
Alors qu'est-ce que vous faites? Vous prenez un échantillon représentatif de la population
et vous leur soumettez un questionnaire où ils doivent évaluer leur consommation hebdomadaire de bière
puis noter leur libido sur une échelle de 1 à 10.
Très bien, vous distribuez le questionnaire, vous récupérez les réponses,
vous analysez les données
puis vous décidez de faire un graphique qui va montrer la libido en fonction la consommation de bière.
Donc sur ce graphique, chaque point représente une des personnes que vous avez interrogées
et montre sa consommation de bière et sa libido.
Donc qu'est-ce qu'on voit sur ce graphique ?
On voit qu'il semble y avoir une belle corrélation entre les deux, c'est-à-dire que
plus on boit de bière, plus on a une libido élevé.
Là, super vous vous préparez à faire un communiqué de presse avec Kronenbourg et soudain,
quelqu'un vous demande qu'est-ce qu'il se passe si on regarde
quels sont les hommes et quelles sont les femmes sur ce graphique.
Alors vous reprenez vos données et vous retracez le graphique
en coloriant différemment les hommes et les femmes.
Et là, voilà ce que vous obtenez.
En fait vous voyez que chez les femmes,
la consommation de bière n'a pas franchement d'influence sur la libido,
même plutôt une influence négative
et puis chez les hommes et bien il n'y a pas vraiment d'influence non plus.
Vous voyez que si on différencie par sexe,
en fait, il n'y a pas du tout de corrélation entre la consommation de bière et la libido
et pourtant si on oublie de regarder ça différencié par sexe, on a l'impression qu'il y a une corrélation.
Donc on est encore une fois dans exactement le même genre de situation,
c'est-à-dire qu'on essaie d'étudier le lien de cause à effet entre consommation de bière et libido
et on a un facteur de confusion qui est le sexe des gens
qui joue à la fois sur la consommation de bière (parce que les hommes ont tendance à boire plus de bière)
et sur leur libido (parce que les hommes ont tendance à avoir une libido plus élevée).
Alors, je vous rassure, ça c'est une étude fictive, c'est moi qui ai inventé les chiffres
mais des situations de ce genre là, je vous promets qu'il en existe partout.
Voilà, j'espère vous avoir convaincus que le paradoxe de Simpson peut se cacher un peu partout
et donc qu'il faut toujours être méfiant quand on regarde des statistiques
Maintenant la question c'est, qu'est-ce qu'il faut faire pour pouvoir se prémunir de ce paradoxe ?
Alors, il n'existe que deux solutions.
La première méthode c'est qu'il faut savoir qu'il y a un facteur de confusion
il faut y avoir pensé et il faut analyser les données en conséquence.
C'est ce qu'on a fait par exemple dans le cas de la tumeur, on a analysé les données par taille de tumeur
et c'est ce qu'on a fait aussi dans le cas de la bière et de la libido où on a différencié l'analyse par sexe.
Mais ça, ce n'est pas évident parce qu'il faut connaître le facteur de confusion.
Par exemple, dans mon cas du redoublement, c'était un petit peu évident,
je pense que tout le monde avait senti le piège.
Dans le cas de la bière et de la libido c'était beaucoup moins évident de penser au facteur de confusion
et puis dans le cas des tumeurs, si vous n'êtes pas un spécialiste du sujet,
il n'y a aucune chance que vous y pensiez.
Donc, qu'est-ce que ça nous montre ça ?
Ça nous montre que quand on regarde des statistiques, on ne peut pas se passer d'avoir quelqu'un
qui sait de quoi il parle, qui connaît le domaine dont il est question.
Ça, je pense que c'est une leçon importante parce que vous savez, à l'heure des big data, de l'open data,
on a l'impression qu'il y a plein de données disponibles partout
et que n'importe qui peut aller piocher des données, les analyser et puis tirer des conclusions.
Et bien en fait, non ce n'est pas vrai, on ne peut pas se passer de quelqu'un qui sait de quoi il parle.
L'autre option pour être sûr de ne pas tomber dans le paradoxe de Simpson, c'est de faire une expérience.
Dans tous les exemples dont je vous ai parlé, à chaque fois, on utilise des données qui existent déjà,
c'est ce qu'on appelle, une étude rétrospective.
Alors que si on crée de toutes pièces une expérience dont on va analyser les données,
on fait ce qu'on appelle, une étude prospective.
C'est quoi la différence ?
Je vous ai dit, un facteur de confusion pose problème parce qu'il influe
à la fois sur la cause et la conséquence qu'on souhaite étudier.
Donc la solution, c'est de casser le lien entre le facteur de confusion et la cause.
On va prendre un exemple.
Si je reviens sur le cas du redoublement, qu'est ce qu'il faudrait faire pour prouver à coup sûr
si le redoublement est efficace ou pas ?
Et bien, ce qu'il faudrait faire c'est prendre une classe, la couper en deux au hasard
et dire, la première moitié je la fait redoubler et la deuxième moitié je la fait passer.
Si on fait ça, dans chacun des deux groupes, on aura des élèves de tous les niveaux
et donc à la fin, en comparant les notes au bac de ces deux groupes,
on pourra savoir s'il y a vraiment un impact positif du redoublement sur les notes au bac.
Vous voyez que le problème de ce genre de chose,
c'est que faire une expérience comme ça, ça peut être très compliqué, ça peut être très long,
ça peut poser des problèmes d'éthique
mais pourtant, c'est le seul moyen de prouver à coup sûr un lien entre une cause et un effet.
D'ailleurs, c'est pour ça que quand on développe un nouveau médicament,
à un moment donné, pour prouver l'efficacité du médicament,
on doit toujours faire une étude prospective
et c'est pour ça que développer un nouveau médicament,
ça coûte cher et ça prend du temps parce qu'il y a toujours des tests très longs à faire
mais qui sont absolument nécessaires pour être sûr de se prémunir de tout les effets des facteurs de confusion.
[Générique]
Alors, j'espère vous avoir convaincus qu'il faut toujours se méfier des statistiques
mais qu'il faut s'en méfier de manière intelligente.
C'est-à-dire que quand on vous montre des chiffres,
il faut toujours que vous vous demandiez si ces chiffres viennent d'une étude rétrospective,
c'est-à-dire qu'on a analysé des chiffres existants
ou s'ils viennent d'une étude prospective, où on a fait une expérience.
S'ils viennent d'une étude rétrospective, il faut faire attention, il peut y avoir des facteurs de confusion.
On ne les connaît pas forcément et on peut conclure des choses qui sont complètement fausses.
par contre, si c'est une étude prospective alors là, il y a un peu plus de chances que ce soit du solide.
A titre d'exercice, on peut se demander ce que ça donnerait de faire une étude prospective
dans mon cas de la bière et de la libido.
Qu'est-ce qu'il faudrait faire ?
Il faudrait prendre un groupe de personnes, alors par exemple, vous
et puis il faudrait, pour chaque personne, lui attribuer au hasard un niveau de consommation de bière
dont par exemple, si ça vous intéresse vous vous inscrivez en commentaire.
Moi je vous donne au hasard un niveau de consommation de bière
compris entre, mettons, 0 et 20 bières par semaine.
Vous vous y tenez pendant un mois
et au bout d'un mois vous notez votre libido sur une échelle de 1 à 10.
Et comme ça, on aura éliminé tous les facteurs de confusion
et on saura vraiment si la consommation de bière a une influence sur la libido.
Merci d'avoir regardé cette vidéo,
si elle vous a plu, vous pouvez m'aider à faire connaître la chaîne en partageant la vidéo.
Vous pouvez aussi bien sûr vous abonner, me retrouver sur Facebook, sur Twitter
et aussi sur mon blog "Science étonnante".
Merci, à bientôt !