La vérité en sciences et en mathématique (deuxième partie)

Union rationaliste > Cahiers Rationalistes > La vérité en sciences et en mathématique (deuxième partie)

Michel Henry

Professeur de chaire supérieure en philosophie

Les Cahiers Rationalistes
n°663

Cahier Rationaliste N° 663 novembre-décembre 2019

La vérité en sciences et en mathématique

(deuxième partie)

Dans cette deuxième partie de « La vérité en sciences et en mathématiques », je présente des outils de base en statistique qui permettent d’énoncer rigoureusement des résultats d’observations, bien que tributaires de probabilités liées aux hasards des prélèvements de données. Ainsi la vérité des affirmations en statistique dépend non seulement des modèles théoriques sur lesquels se bâtissent les raisonnements, mais aussi des méthodes de prises d’informations sur la réalité, ce qui en fait une différence de fond avec la vérité des mathématiciens non probabilistes. Dans un deuxième temps, je présente quelques perversions de la vérité en sciences qui sont, n’en doutons pas, innombrables.

LA VÉRITÉ EN PROBABILITÉS ET EN STATISTIQUE

Dans la partie précédente, nous avons développé des considérations à propose de la vérité en sciences dans un contexte déterministe. Il en va tout autrement dans une situation où le hasard intervient pour valider un modèle probabiliste[1].

Initiée par la correspondance entre Blaise Pascal et Pierre de Fermat en 1654, la pensée probabiliste a fait en trois siècles des progrès impressionnants. Ce fut un changement radical dans le mode de pensée, hérité de la logique d’Aristote et des logiciens qui lui ont succédé. En effet, le principe du tiers exclu ne convient pas aux spéculations sur des événements quand toute décision est entachée d’une probabilité de ne pas se tromper en la prenant.

La pensée statistique

En statistique inférentielle (prise de décision à partir de l’observation d’un échantillon, théories de l’estimation et des tests d’hypothèses), la pensée diffère de la pensée logique dans la mesure où toute affirmation relative à une appréciation sur une réalité aléatoire, ne peut être considérée comme vraie ou fausse, mais est nécessairement associée à une probabilité d’être vraie. La pensée statistique considère que dans des situations aléatoires où l’observation du comportement d’un phénomène produit des résultats fluctuants, car déterminés par une certaine dose de hasard, celle d’un assez grand nombre de ces résultats permet cependant d’avoir des informations assez précises sur ce phénomène.

Sous-jacente à cette démarche de pensée, il y a bien évidemment une perception intuitive de la loi des grands nombres. Les enfants, par la pratique des jeux de hasard, ont déjà une idée des régularités engendrées par la répétition d’une même expérience aléatoire, comme le jet d’un dé, au point de pouvoir déceler une tricherie quand par exemple le 6 revient trop souvent, en moyenne plus d’une fois sur six jets.

Toute information sur la valeur d’un paramètre, obtenue à partir de données statistiques observées prélevées sur un échantillon, n’est qu’une estimation. Cela sous-entend que cette valeur ne peut être donnée qu’avec une « fourchette », un intervalle dit de confiance, et que la valeur cherchée appartient à cet intervalle avec une certaine probabilité. Par exemple, en France depuis quelques années, les prévisions météorologiques, sont données avec un indice de confiance de 1 à 5 : si une prévision est donnée avec un indice de confiance de 4, le taux de confiance est de 80 %. Autrement dit, dans un cas sur 5, la prévision s’avérera erronée.

Exemple des sondages

Origine : la loi des grands nombres et le théorème de Bernoulli

Le théorème de Bernoulli est un cas particulier de la loi faible des grands nombres appliqué à l’écart entre la fréquence Fn susceptible d’être observée d’une donnée dans un échantillon aléatoire de taille n et la proportion p inconnue de cette donnée dans l’ensemble de la population de laquelle l’échantillon est prélevé au hasard.

Mathématiquement, la probabilité P est telle que, pour tout e > 0, P(|Fn – p| < e) tend vers 1 quand n tend vers l’infini (on dit que Fn tend vers p en probabilités).
En langage moderne cela se traduit en disant que la probabilité de l’écart entre la fréquence observée Fn et la proportion inconnue p est aussi proche de 1 que l’on veut, pourvu que n soit assez grand.

Dans les cas où l’échantillon des observations est assez grand (n > 100) et si p n’est pas trop proche de 0 ou de 1, avec e = 1/√n , Fn étant la valeur observée de la fréquence Fn dans cet échantillon, on enseigne en classe de seconde que l’on peut donner comme intervalle de confiance pour l’estimation de p : ]Fn – 1/√n ; Fn + 1/√n[ au niveau de confiance 0,95 (i.e. on a 5 chances sur 100 de se tromper en affirmant que p est dans cet intervalle).

Avec n = 1000, on a √n = 31,6 et 1/√n = 0,032 : la demi fourchette vaut 3,2 %, on estime donc un pourcentage à 3,2 % près, au niveau de confiance 95%.

Avec n = 10 000, √n = 100, on estime un pourcentage à 1 % près, avec 5 chances sur 100 de se tromper.

Mais de nombreuses sources d’erreurs ou manipulations peuvent se présenter.

Biais techniques et méthodologiques

En pratique des sondages d’opinion par exemple, de nombreux « biais » se présentent.

Ils peuvent être techniques : population sondée mal définie, erreurs d’échantillonnages (aléas des prélèvements, choix des strates représentatives, traitements des informations, etc.), taille de l’échantillon insuffisante.

Ils peuvent être aussi méthodologiques : méthode des quotas (cette méthode, la plus utilisée pour les sondages d’opinions, ne permet pas d’obtenir des intervalles de confiance) plutôt qu’un échantillon aléatoire, redressements spécifiques (information auxiliaire, appréciation subjective du sondeur), post stratification (restructuration d’un échantillon stratifié a posteriori pour ajuster sa représentativité et réduire la dispersion du caractère dans chaque strate), traitements des non réponses (on leur attribue la réponse moyenne calculée sur le reste des réponses pour augmenter le nombre des réponses prises en compte et donc la précision de l’estimation sans changer cette moyenne…).

Manipulations médiatiques

Préparation de l’opinion avant sondage, population sondée non définie, questions ambiguës pour des réponses inadaptées, précision et risque dissimulés, interprétations tendancieuses (la cote du président subit un recul

important, elle a perdu 2 % en un mois !), choix de la publication ou non selon les résultats. Et tout ce que vous pouvez imaginer comme perversions, ils l’ont fait !

Un exemple « historique »

Concernant l’élection présidentielle de 2002 et qui a tant fait parler : personne n’avait réellement prévu l’éviction de Lionel Jospin, et pourtant… si on avait fourni les fourchettes (de sondage à 95 % de confiance, en gros à +/- 3,2 % près) qui sont cachées derrière les résultats annoncés, on aurait vu que la prudence s’imposait. En effet, lors du premier tour, le dernier sondage publié par BVA, effectué sur 1000 électeurs le vendredi 19 avril 2002, prévoyait :

Chirac : 19,6 %, ce qui signifie——————————————————– > Fourchette [15,84 ; 22,16]
Jospin : 18 %, ce qui signifie—————- > Fourchette [14,84 ; 21,16]
Le Pen : 14 %, ce qui signifie—————— > Fourchette [10,84 ; 17,16]

On sait tous que la surprise a été grande le dimanche 21 avril 2002 au vu des résultats :
Chirac : 19,88 %, Jospin :16,18 % , Le Pen :16,86 % .

Et pourtant, quand on regarde les fourchettes données par l’application de la formule enseignée en seconde, relativement fiables pour les sondages d’opinions, on ne peut pas considérer que le sondage BVA était faux. il fallait juste le décoder…

Les fourchettes se chevauchant, il était très difficile de prévoir l’ordre des candidats[2].

PERVERSIONS DE LA VÉRITÉ EN SCIENCES[3]

Conditions pour valider une recherche expérimentale

La recherche expérimentale s’appuie sur de petits collectifs de recherche (équipes ou collaborations) au sein desquels les faits et les méthodes sont soumis à des vérifications et à des contradictions collectives. La confiance accordée a priori aux faits rapportés dans des articles scientifiques repose essentiellement sur le travail collectif et la discussion ouverte à l’intérieur des laboratoires. Tout travail expérimental comporte, par nature, des incertitudes. Seul le débat interne, collaboratif, permet de fixer les limites de légitimité en échappant au carcan de normes externes, nécessairement grossières.

C’est aussi à l’échelle humaine de l’équipe que les apprentis chercheurs se forment à la pratique expérimentale dans leur champ disciplinaire. Le processus de publication passe par des revues publiques (sociétés savantes, presses universitaires, etc.), dont le processus éditorial est confié à des chercheurs en activité, reconnus par leur communauté. La disputatio et le contrôle externe de validité sont délégués à des rapporteurs (referees) anonymes, choisis par un éditeur qui engage, ce faisant, sa responsabilité scientifique. Ce régime probatoire de l’expérience scientifique est maintenant mis en crise depuis deux décennies.

Les liens et conflits d’intérêts

Une perversion de ce système de validation des recherches est actuellement l’objet de nombreux débats, c’est la question des liens d’intérêts. La règle la plus élémentaire en matière d’intégrité scientifique consiste à ne pas exprimer d’opinion ni intervenir dans des processus d’évaluation (recrutement, promotion, travail de referee, enquête scientifique) en étant en situation de liens d’intérêts, voire de conflits d’intérêts quand les expertises relèvent de choix contradictoires et intéressés. Un lien d’intérêts n’est pas une inconduite mais caractérise toute situation de fait empêchant la neutralité scientifique. S’il est d’usage de les déclarer spontanément, les conflits d’intérêts s’établissent par leur « notoriété », c’est-à-dire par le caractère objectivable des faits qui les constituent.

Selon Michel Foucault[4] :

Il faut plutôt admettre que le pouvoir produit du savoir (et pas simplement en le favorisant parce qu’il le sert ou en l’appliquant parce qu’il est utile) ; que pouvoir et savoir s’impliquent directement l’un l’autre ; qu’il n’y a pas de relation de pouvoir sans constitution corrélative d’un champ de savoir, ni de savoir qui ne suppose et ne constitue en même temps des relations de pouvoir… Le savoir n’est au contraire pas l’apanage de la science, mais produit par toute une série de gens, de lieux, d’institutions, qui de par leur position, leur ton, leur notoriété, prétendent à la vérité et font résonner cette vérité dans la tête de milliers de gens.

Biais méthodologiques et fraudes scientifiques[5]

Copie, contrefaçon, plagiat dans les arts, les lettres et les sciences

Citons l’intervention de Michèle Leduc, directrice de recherches émérite au CNRS, membre du COMETS, le comité d’éthique du CNRS, sur France Culture le 28/10/2018[6] :

Je voudrais d’abord dire que le plagiat apparaît régulièrement maintenant dans les médias depuis une bonne dizaine d’années et il semble accompagner tous les métiers de la création, en particulier les arts, la littérature, la peinture. Et donc c’est une notion mouvante qu’on peut qualifier comme des emprunts non déclarés, qui diffèrent d’ailleurs de la copie, parce qu’il y a une intention de tromper, ce qu’il n’y a en général pas – enfin pas toujours – dans la copie.

Michèle Leduc ajoute :

On a vu quelques cas vraiment très médiatisés, apparaître dans les années récentes de plagiats dans l’Université. Je pourrais citer celui qui est bien connu de Karl-Theodor zu Guttenberg en Allemagne qui a été un baron, qui était ministre du gouvernement, et qui en 2011 a été démissionné immédiatement de son titre de docteur de l’université de Bayreuth, parce qu’il a été prouvé qu’il avait entièrement plagié une autre thèse.

Mais cette perversion ne date pas de notre siècle :

En sciences par exemple, le plagiat a toujours existé. Il existait déjà à l’époque de l’Antiquité, On cite souvent un plagiat célèbre de Ptolémée qui aurait plagié Hipparque en s’attribuant ses résultats. Les historiens actuels pensent que cette anecdote est controuvée.
À l’époque Romaine, le public était supposé suffisamment érudit pour qu’il n’y ait pas besoin de citer ses sources. On retrouve cette forme de plagiat en sciences et en littérature, on l’appelle le plagiat d’érudition.

Concernant les fraudes, Michèle Leduc explique :

Comme vous le savez, il y a des fraudes, des grosses fraudes qui falsifient la science, qui sont la fabrication de résultats ou simplement la falsification de résultats. Le plagiat est mis dans le même sac par ceux qui s’intéressent au niveau international, aux États-Unis et dans les pays nordiques de l’Europe par exemple, à l’intégrité scientifique, aux fabrications, falsifications et plagiats. Le plagiat, à mon avis, est moins grave pour la science, puisqu’il ne falsifie pas les données de la recherche et ne l’empêche pas de progresser. Mais cela crée beaucoup de perturbations à l’intérieur du milieu scientifique, crée des troubles, crée des tensions, entraîne des questions de publications. C’est un sujet très sensible dans la recherche, voilà pourquoi on s’est intéressés à cette question.[7]

Comment expliquer ces comportements ?

Il faudrait déjà en comprendre les origines. On y a bien réfléchi. En sciences, on a vu que les origines bien sûr, sont d’une part – parce qu’il y a de plus en plus de facilités avec Internet – qu’on peut copier et c’est un peu paradoxal, parce que les moyens de le détecter, en tout cas la copie des textes, sont facilités par les détecteurs de similarités qui sont employés dans toutes les universités maintenant.

La deuxième raison c’est qu’il y a tout de même – du moins en recherche, mais je pense que c’est vrai dans d’autres disciplines aussi – une forte pression quand même, une pression croissante sur les producteurs de science pour publier beaucoup. Et puis c’est la culture de l’évaluation sur les publications qui doivent être multipliées, donc pousse à l’auto plagiat et même parfois à la copie des résultats des autres.

CONCLUSION

Ces réflexions sur la vérité en mathématiques et en statistique, et sur les conditions des expertises en sciences, ont montré différentes approches de la notion de vérité – quand elle n’est pas pervertie – en mathématiques. Il y en aurait d’autres, notamment dans le domaine du numérique. Ainsi, toute vérité est une affirmation humaine et une approximation à propos d’une réalité inaccessible dans sa totalité.

Nous avons insisté sur la nécessité de la modélisation pour accéder à une représentation rationnelle des phénomènes soumis à une investigation scientifique. Les conclusions tirées logiquement d’un modèle sont donc relatives aux hypothèses de modélisation[8].

On peut d’ailleurs distinguer des hypothèses de travail formulées dans les termes idéalisés issus d’une description de la réalité (ce que j’ai désigné comme « modèle pseudo-concret »), et des hypothèses de modèle formulées en langage mathématique ou dans celui de la discipline de référence, et dans la symbolique propre à cette discipline.

Le passage des hypothèses de travail aux hypothèses de modèle ne va pas de soi. Il suppose une solide maîtrise des concepts en jeu, une aisance dans les langages et symboles utilisés, mais surtout une bonne intégration de ces hypothèses de modèle dans une théorie déjà là ou en construction. Sans ce cadre théorique, et sans les connaissances qui y sont installées, la recherche de conséquences du modèle serait vaine et stérile.

Nous retiendrons que la vérité en sciences est relative aux hypothèses du modèle duquel elle découle, ainsi que du cadre théorique dans lequel elle s’inscrit.

Par exemple, en géométrie euclidienne, considérée comme modèle théorique de notre représentation de l’espace, l’espace est infini sans courbure, les objets sont formés de lignes dont les points forment des ensembles continus, les droites sont bien droites, les plans bien plats sans épaisseur et les figures sont déplaçables et reproductibles en tout point de l’espace. Ces hypothèses de travail (et bien d’autres) sont implicites dans la modélisation euclidienne et peuvent être conséquences des axiomes et postulats introduits comme hypothèses de modèle par Euclide dans sa construction, réalisant une prouesse inconcevable, 300 ans avant notre ère.

Michel Henry

Lire la première partie …

~~~~

NDLR. Nous soulignons l’importance pour les débats scientifiques du livre dirigé par Guillaume Lecointre et Sarah Proust (dir.) : Le Fait en question, Paris, Éditions de l’Aube, 2019 – ouvrage co-édité en partenariat avec la Fondation Jean Jaurès et le Muséum national d’histoire naturelle. https:// editionsdelaube.fr/catalogue_de_livres/le-fait-en-question-copy/
Les Cahiers Rationalistes publieront dans le prochain numéro, le n° 664, une recension de cet ouvrage, lu par Michel Henry.

~~~~

[1] Voir la première partie de cet article, « La vérité en sciences et en mathématiques », parue dans Les Cahiers Rationalistes, n° 660-661, mai-août 2019, p. 56-67.
[2] Ce niveau de confiance de 95 %, est donné en général aux élèves. Il est arbitraire et ne convient pas aux études impliquant des risques financiers. Une valeur plus fine donnerait un commentaire différent, mais l’exemple est probant sur la prudence nécessaire dans les analyses de résultats de sondages.
[3] Voir l’étude du groupe Jean-Pierre Vernant : « Fraudes scientifiques, post-vérité et techno-bureaucratie », en ligne : http://www.groupejeanpierrevernant.info/#QueFaire3
[4] Michel Foucault, Surveiller et punir, chap. I : Le corps des condamnés, p.32, éd. Gallimard, 1975.
[5] Sur le plagiat, voir Raison présente n°207, 2018 et sur les fraudes, voir Raison présente n°208, 2019.
[6] http://www.union-rationaliste.org/index.php/radio/714-copie-contrefacon-plagiat-dansles-arts-les-lettres-et-les-sciences
[7] Voir le numéro 34 des avis du COMETS.
[8] Voir Autour de la modélisation, ouvrage collectif coordonné par Michel Henry aux presses universitaires de Franche-Comté (2001).