Des statistiques, nous en faisons tous comme Monsieur le Jourdain : sans le savoir. En sciences, l'usage des statistiques est fondamental et il s'accompagne également de calcul de probabilités. Ce qui est amusant, c'est que des probabilités nous en faisons aussi régulièrement dans la vie courante, toujours comme Monsieur Jourdain, sans savoir...
Le but de cet article n'est pas de faire un cours de statistique ou de probabilités. J'en serai tout d'abord incapable, et cela serait sans doute « rasoir ». Je souhaite simplement illustrer ici au travers d’exemples pris dans la vie courante ou au laboratoire l'importance qu'il y a à traiter des données de façon statistique et mettre en exergue quelques-uns des pièges auquel nous pouvons nous trouver parfois exposés.
Comme je l'écrivais en introduction, des statistiques nous en faisons tous. Parce que nous avons fait nos courses dans plusieurs boulangeries, nous savons tous que la baguette tradition coûte « en moyenne » 1,10 €. Ou, parce que nous avons beaucoup roulé avec votre véhicule, nous savons qu'il consomme en moyenne 6 litres et demi aux 100 km. Beaucoup d'entre nous savent aussi que le salaire moyen se monte à environ 2 400 € nets mensuels. Mais attention, ce dernier chiffre est quelque peu flatteur. Il est beaucoup moins lorsque l'on s'intéresse au salaire médian qui lui s'élève à un peu moins de 1800 € nets mensuels. La raison de cette différence tient au fait que la médiane est, dans une distribution, la valeur qui divise l'échantillon en 2 parts égales, 50 % des des éléments échantillonnés présentant des valeurs supérieures à la médiane, et 50 % des valeurs inférieures à la médiane. Dans le cas du salaire, la valeur du salaire moyen est tirée vers le haut par l'existence de très hauts salaires faussant ainsi la perception que l'on peut avoir de la distribution. En conclusion la moyenne c'est bien, la moyenne et la médiane c'est mieux. On utilise d’ailleurs souvent une représentation plus complexe en science dite « boite à moustaches », où figurent sur un graphe l’ensemble des points d’une mesure, leur moyenne ou médiane, ainsi que les premiers et denier quartiles, c’est à dire l’endroit ou se situent les 25 % des valeurs les plus hautes et les plus basses, permettant une meilleure visualisation de la distribution.
Cette notion de distribution des mesures dans un échantillons est importante. Ainsi, pour revenir à l’exemple précédent, on constate que la distribution des salaires est représentée par une courbe en cloche partielle, suivie d’une longue traîne... A l‘inverse, si on s’intéressait à la distribution des tailles disons des adultes de 25 ans, on aurait une courbe en cloche quasi symétrique, dite courbe de Gauss, représentative de ce que l’on appelle une distribution « normale ». Sans rentrer dans des détails compliqués, il est bon avant d’appliquer un test statistique de s’assurer du type de distribution que l’on rencontre, certains tests ne s’appliquant qu’à la distribution normale. Il n’est pas rare de voir que dans certains articles scientifiques, même écrit par des « pointures » y compris marseillaises, que les tests utilisés ne sont pas forcément les bons. Ceci peut, dans certains cas, conduire à des conclusions erronées.
Restons sur la moyenne pour aborder un point particulièrement important qui est la notion de représentativité de l'échantillon. Très intuitivement, on comprend qu'une valeur expérimentale, une moyenne par exemple, est d'autant plus représentative d'une réalité qu'elle a été calculée sur un grand nombre de points de mesure. Ainsi, si je dis que sans le traitement X, 80% des plantes sont affectées par la maladie M, et qu'après traitement ce sont seulement 40% des plantes qui sont malades, vous penserez que le traitement est efficace. Mais si je vous dis que sans traitement, ce sont 4 plantes sur 5 qui ont été notées malades et dans l'autre 2 sur 5, le résultat vous paraîtra plus douteux que si ce sont 400 plantes sur 500 dans un cas et 200 sur 500 dans l'autre, et vous aurez bien sur raison... Il n’est cependant pas toujours possible pour des raisons de coût de multiplier les expériences ou les « points » de mesure. Il est donc nécessaire de dire, en science, lorsque l’on donne le résultats d’un test statistique, quel test à été utilisé, combien de points ont été inclus dans l’analyse, et dans le cas d'une moyenne de dire quel est l’intervalle de confiance associé à cette moyenne, ou, si l’on compare deux moyennes, de dire à quel seuil de confiance on estime que ces moyennes diffèrent ou non. Je prends l’exemple d’un sondage politique : on voit souvent que celui-ci est réalisé sur 800 ou 900 personnes, que le candidat X est à 30 % d’intentions de vote et Y à 20 % dans le sondage mais on ne nous dit jamais (ou presque) quel est l’intervalle de confiance, en d’autres termes quelles sont les valeurs hautes et basses qui bornent la moyenne, le tout en étant sur à 95 % que ces valeurs hautes et basses sont bien exactes.
Comme je l'écrivais en introduction, des statistiques nous en faisons tous. Parce que nous avons fait nos courses dans plusieurs boulangeries, nous savons tous que la baguette tradition coûte « en moyenne » 1,10 €. Ou, parce que nous avons beaucoup roulé avec votre véhicule, nous savons qu'il consomme en moyenne 6 litres et demi aux 100 km. Beaucoup d'entre nous savent aussi que le salaire moyen se monte à environ 2 400 € nets mensuels. Mais attention, ce dernier chiffre est quelque peu flatteur. Il est beaucoup moins lorsque l'on s'intéresse au salaire médian qui lui s'élève à un peu moins de 1800 € nets mensuels. La raison de cette différence tient au fait que la médiane est, dans une distribution, la valeur qui divise l'échantillon en 2 parts égales, 50 % des des éléments échantillonnés présentant des valeurs supérieures à la médiane, et 50 % des valeurs inférieures à la médiane. Dans le cas du salaire, la valeur du salaire moyen est tirée vers le haut par l'existence de très hauts salaires faussant ainsi la perception que l'on peut avoir de la distribution. En conclusion la moyenne c'est bien, la moyenne et la médiane c'est mieux. On utilise d’ailleurs souvent une représentation plus complexe en science dite « boite à moustaches », où figurent sur un graphe l’ensemble des points d’une mesure, leur moyenne ou médiane, ainsi que les premiers et denier quartiles, c’est à dire l’endroit ou se situent les 25 % des valeurs les plus hautes et les plus basses, permettant une meilleure visualisation de la distribution.
Cette notion de distribution des mesures dans un échantillons est importante. Ainsi, pour revenir à l’exemple précédent, on constate que la distribution des salaires est représentée par une courbe en cloche partielle, suivie d’une longue traîne... A l‘inverse, si on s’intéressait à la distribution des tailles disons des adultes de 25 ans, on aurait une courbe en cloche quasi symétrique, dite courbe de Gauss, représentative de ce que l’on appelle une distribution « normale ». Sans rentrer dans des détails compliqués, il est bon avant d’appliquer un test statistique de s’assurer du type de distribution que l’on rencontre, certains tests ne s’appliquant qu’à la distribution normale. Il n’est pas rare de voir que dans certains articles scientifiques, même écrit par des « pointures » y compris marseillaises, que les tests utilisés ne sont pas forcément les bons. Ceci peut, dans certains cas, conduire à des conclusions erronées.
Restons sur la moyenne pour aborder un point particulièrement important qui est la notion de représentativité de l'échantillon. Très intuitivement, on comprend qu'une valeur expérimentale, une moyenne par exemple, est d'autant plus représentative d'une réalité qu'elle a été calculée sur un grand nombre de points de mesure. Ainsi, si je dis que sans le traitement X, 80% des plantes sont affectées par la maladie M, et qu'après traitement ce sont seulement 40% des plantes qui sont malades, vous penserez que le traitement est efficace. Mais si je vous dis que sans traitement, ce sont 4 plantes sur 5 qui ont été notées malades et dans l'autre 2 sur 5, le résultat vous paraîtra plus douteux que si ce sont 400 plantes sur 500 dans un cas et 200 sur 500 dans l'autre, et vous aurez bien sur raison... Il n’est cependant pas toujours possible pour des raisons de coût de multiplier les expériences ou les « points » de mesure. Il est donc nécessaire de dire, en science, lorsque l’on donne le résultats d’un test statistique, quel test à été utilisé, combien de points ont été inclus dans l’analyse, et dans le cas d'une moyenne de dire quel est l’intervalle de confiance associé à cette moyenne, ou, si l’on compare deux moyennes, de dire à quel seuil de confiance on estime que ces moyennes diffèrent ou non. Je prends l’exemple d’un sondage politique : on voit souvent que celui-ci est réalisé sur 800 ou 900 personnes, que le candidat X est à 30 % d’intentions de vote et Y à 20 % dans le sondage mais on ne nous dit jamais (ou presque) quel est l’intervalle de confiance, en d’autres termes quelles sont les valeurs hautes et basses qui bornent la moyenne, le tout en étant sur à 95 % que ces valeurs hautes et basses sont bien exactes.
Toujours en termes de représentativité des échantillons, il est important de comparer ce qui est comparable. Il faut donc s’assurer que d’autres facteurs que les facteurs expérimentaux ou à tester, n’entrent pas en ligne de compte dans l’analyse statistique. Exemple pris dans le dossier de l’hydroxychoroquine et de la CoViD-19. Si vous voulez analyser l’efficacité de ce traitement, vous allez comparer la sévérité des symptômes de personnes traitées ou non par ce médicament. Il faut cependant s’assurer que les cohortes comparées présentent des caractéristiques identiques, à savoir des nombres de personnes identiques dans une tranche d’âge donnée, par sexe, ou victimes de telle ou telle pathologie antérieure, etc. Ainsi, on comprend qu’il n’y aurait intuitivement aucun intérêt à comparer un groupe de 100 jeunes de 20 ans traités par ce médicament, avec un groupe de 100 personnes de plus de 75 ans non traitées, sauf à vouloir démontrer ainsi une redoutable efficacité du composé. C’est caricatural, mais pas tant que cela... Cette homogénéité est systématiquement recherchée dans les études dites randomisées contrôlées, dans lesquelles les individus recevant un traitement ou un placebo seront tirés au sort, selon différents protocoles, assurant la constitution de deux groupes (traités et non traités) aussi comparables que possible.
L’approche décrite ci-dessus, souvent coûteuse, est envisageable dans le cadre d’une étude clinique a priori, sur une nouvelle molécule ou un vaccin en essai thérapeutique sur des durées courtes. En revanche, sur des expériences de longue durée, ou sur la recherche d’effets secondaires de longs termes, ou de pathologies résultant d’expositions à des constituants particuliers de l’environnement, elle n’est pas envisageable. On recourt alors à des analyses épidémiologiques a posteriori, qui visent, en rassemblant le maximum de données (sexe, age, localisation géographique, exposition à X, Y ou Z, maladies associées, etc.) à tenter d’identifier le ou les facteurs les plus explicatifs des pathologies étudiées. Ces méthodes, telles que l’analyse en composantes principales, sont aussi utilisées en agronomie, en sociologie, en économie, etc. pour tenter d’identifier les facteurs les plus explicatifs des résultats obtenus lorsque de nombreux paramètres entrent en jeu.
Je n’ai fait qu’effleurer le sujet. Un dernier point sur les probabilités, pour montrer que, comme les statistiques, nous en faisons tous, avec la notion d’espérance mathématique. A l’origine, l’espérance mathématique correspondait à la somme des gains et pertes, chacun multiplié par la probabilité de gain ou de perte. Prenons l’exemple du jeu de roulette du casino, ou la chance de trouver le bon numéro est de 1 sur 37 (il y a 37 nombres du jeu), ce qui vous rapporterait 36 fois votre mise. Intuitivement, on conçoit que le jeu est en faveur du casino. Sans détailler le calcul, l’ordre de grandeur du gain est de 2 % sur les paris sur les seuls nombres. C’est à dire qu’à chaque lancé, le casino gagne autour de 2 % des mises, et les parieurs en perdent autant. Nous ne jouons pas tous au casino, mais certains jouent aux jeux de hasard de la Française des Jeux avec des probabilités de perte très supérieures aux probabilités de gain. Alors pourquoi jouer ? Tout simplement parce que l’espérance mathématique fait que même si la probabilité de gain est très faible, la somme promise en cas de gain est très élevée, augmentant la façon dont est perçue cette espérance mathématique pourtant très défavorable aux joueurs. Et plus concrètement, combien de personnes faisaient voila peu le calcul de ne pas payer le stationnement parce que cela était « rentable » . En effet la probabilité de se faire contrôler multipliée par le coût de l’amende de 11 euros était faible par rapport à la probabilité de ne pas se faire contrôler multipliée par la somme gagnée en esquivant le paiement. La donne a visiblement changée depuis que les contrôles ont été rendus plus efficaces par l’automatisation et depuis que les communes ont augmenté les amendes forfaitaires, pour certains à 40 ou 50 euros... Plus dramatique, l’augmentation de risque de cancer du poumon pour les fumeurs est de 10 fois environ. Le risque de développer un cancer du poumon pour un non fumeur est de l’ordre de 0,01 (1 %) et pour le fumeur de l’ordre de 0,10 (10 %). Le fumeur a donc 90 % de chances d’échapper à la maladie. Ceci explique donc - sans doute pas en totalité - pourquoi les fumeurs continuent de fumer. Leur décision serait elle la même si leur risque de développer un cancer passait à 99,9 % ? J’en doute. Mais cet exemple montre comment nous avons intégré dans notre vie de tous les jours les probabilités, et pas toujours de façon judicieuse...
Note ajoutée le 09/04/21
Note ajoutée le 09/04/21
Le même calcul d'espérance peut expliquer les réticences de certains à utiliser à se faire vacciner par le produit fourni par la société Astra Zeneca. Le risque de survenue de formes rares de caillots sanguins, de type coagulation intravasculaire disséminée est très faible, autour d'1 cas pour 1 000 000 de mémoire sur l'ensemble de l'Europe, mais il s'agit d'une affection gravissime pouvant entraîner la mort. Non vacciné, le risque d'attraper le coronavirus est de 2 pour mille environ, avec une probabilité de décès pour les populations qui ont accès à Astra Zeneca de l'ordre de 10% (contre 1 à 2 % pour la population générale)... Le risque de décès CoViD est donc de 2 pour 10 000 mais globalement, ce risque CoViD est perçu comme bien plus faible par les personnes refusant le vaccin Astra que le risque de décès lié à la vaccination...
Crédit illustration :
Jean Rouxel. Les devises Shadok.
Vu sur :
Vu sur :
Aucun commentaire:
Enregistrer un commentaire