
Des statistiques, nous en faisons tous comme Monsieur le Jourdain : sans le savoir. En sciences, l'usage des statistiques est fondamental et il s'accompagne également de calcul de probabilités. Ce qui est amusant, c'est que des probabilités nous en faisons aussi régulièrement dans la vie courante, toujours comme Monsieur Jourdain, sans savoir...
Comme je l'écrivais en introduction, des statistiques nous en faisons tous. Parce que nous avons fait nos courses dans plusieurs boulangeries, nous savons tous que la baguette tradition coûte « en moyenne » 1,10 €. Ou, parce que nous avons beaucoup roulé avec votre véhicule, nous savons qu'il consomme en moyenne 6 litres et demi aux 100 km. Beaucoup d'entre nous savent aussi que le salaire moyen se monte à environ 2 400 € nets mensuels. Mais attention, ce dernier chiffre est quelque peu flatteur. Il est beaucoup moins lorsque l'on s'intéresse au salaire médian qui lui s'élève à un peu moins de 1800 € nets mensuels. La raison de cette différence tient au fait que la médiane est, dans une distribution, la valeur qui divise l'échantillon en 2 parts égales, 50 % des des éléments échantillonnés présentant des valeurs supérieures à la médiane, et 50 % des valeurs inférieures à la médiane. Dans le cas du salaire, la valeur du salaire moyen est tirée vers le haut par l'existence de très hauts salaires faussant ainsi la perception que l'on peut avoir de la distribution. En conclusion la moyenne c'est bien, la moyenne et la médiane c'est mieux. On utilise d’ailleurs souvent une représentation plus complexe en science dite « boite à moustaches », où figurent sur un graphe l’ensemble des points d’une mesure, leur moyenne ou médiane, ainsi que les premiers et denier quartiles, c’est à dire l’endroit ou se situent les 25 % des valeurs les plus hautes et les plus basses, permettant une meilleure visualisation de la distribution.
Cette notion de distribution des mesures dans un échantillons est importante. Ainsi, pour revenir à l’exemple précédent, on constate que la distribution des salaires est représentée par une courbe en cloche partielle, suivie d’une longue traîne... A l‘inverse, si on s’intéressait à la distribution des tailles disons des adultes de 25 ans, on aurait une courbe en cloche quasi symétrique, dite courbe de Gauss, représentative de ce que l’on appelle une distribution « normale ». Sans rentrer dans des détails compliqués, il est bon avant d’appliquer un test statistique de s’assurer du type de distribution que l’on rencontre, certains tests ne s’appliquant qu’à la distribution normale. Il n’est pas rare de voir que dans certains articles scientifiques, même écrit par des « pointures » y compris marseillaises, que les tests utilisés ne sont pas forcément les bons. Ceci peut, dans certains cas, conduire à des conclusions erronées.
Restons sur la moyenne pour aborder un point particulièrement important qui est la notion de représentativité de l'échantillon. Très intuitivement, on comprend qu'une valeur expérimentale, une moyenne par exemple, est d'autant plus représentative d'une réalité qu'elle a été calculée sur un grand nombre de points de mesure. Ainsi, si je dis que sans le traitement X, 80% des plantes sont affectées par la maladie M, et qu'après traitement ce sont seulement 40% des plantes qui sont malades, vous penserez que le traitement est efficace. Mais si je vous dis que sans traitement, ce sont 4 plantes sur 5 qui ont été notées malades et dans l'autre 2 sur 5, le résultat vous paraîtra plus douteux que si ce sont 400 plantes sur 500 dans un cas et 200 sur 500 dans l'autre, et vous aurez bien sur raison... Il n’est cependant pas toujours possible pour des raisons de coût de multiplier les expériences ou les « points » de mesure. Il est donc nécessaire de dire, en science, lorsque l’on donne le résultats d’un test statistique, quel test à été utilisé, combien de points ont été inclus dans l’analyse, et dans le cas d'une moyenne de dire quel est l’intervalle de confiance associé à cette moyenne, ou, si l’on compare deux moyennes, de dire à quel seuil de confiance on estime que ces moyennes diffèrent ou non. Je prends l’exemple d’un sondage politique : on voit souvent que celui-ci est réalisé sur 800 ou 900 personnes, que le candidat X est à 30 % d’intentions de vote et Y à 20 % dans le sondage mais on ne nous dit jamais (ou presque) quel est l’intervalle de confiance, en d’autres termes quelles sont les valeurs hautes et basses qui bornent la moyenne, le tout en étant sur à 95 % que ces valeurs hautes et basses sont bien exactes.
Toujours en termes de représentativité des échantillons, il est important de comparer ce qui est comparable. Il faut donc s’assurer que d’autres facteurs que les facteurs expérimentaux ou à tester, n’entrent pas en ligne de compte dans l’analyse statistique. Exemple pris dans le dossier de l’hydroxychoroquine et de la CoViD-19. Si vous voulez analyser l’efficacité de ce traitement, vous allez comparer la sévérité des symptômes de personnes traitées ou non par ce médicament. Il faut cependant s’assurer que les cohortes comparées présentent des caractéristiques identiques, à savoir des nombres de personnes identiques dans une tranche d’âge donnée, par sexe, ou victimes de telle ou telle pathologie antérieure, etc. Ainsi, on comprend qu’il n’y aurait intuitivement aucun intérêt à comparer un groupe de 100 jeunes de 20 ans traités par ce médicament, avec un groupe de 100 personnes de plus de 75 ans non traitées, sauf à vouloir démontrer ainsi une redoutable efficacité du composé. C’est caricatural, mais pas tant que cela... Cette homogénéité est systématiquement recherchée dans les études dites randomisées contrôlées, dans lesquelles les individus recevant un traitement ou un placebo seront tirés au sort, selon différents protocoles, assurant la constitution de deux groupes (traités et non traités) aussi comparables que possible.
L’approche décrite ci-dessus, souvent coûteuse, est envisageable dans le cadre d’une étude clinique a priori, sur une nouvelle molécule ou un vaccin en essai thérapeutique sur des durées courtes. En revanche, sur des expériences de longue durée, ou sur la recherche d’effets secondaires de longs termes, ou de pathologies résultant d’expositions à des constituants particuliers de l’environnement, elle n’est pas envisageable. On recourt alors à des analyses épidémiologiques a posteriori, qui visent, en rassemblant le maximum de données (sexe, age, localisation géographique, exposition à X, Y ou Z, maladies associées, etc.) à tenter d’identifier le ou les facteurs les plus explicatifs des pathologies étudiées. Ces méthodes, telles que l’analyse en composantes principales, sont aussi utilisées en agronomie, en sociologie, en économie, etc. pour tenter d’identifier les facteurs les plus explicatifs des résultats obtenus lorsque de nombreux paramètres entrent en jeu.
Note ajoutée le 09/04/21
Crédit illustration :
Vu sur :