Pseudo-scepticisme.com

Un site sur le pseudo-scepticisme, la science et l’étude des phénomènes réputés paranormaux.

>>Statistiques : méfiez-vous de Nicolas Gauvrit ! Quelques remarques concernant ses critiques des études de Bem

Nicolas Gauvrit a publié en janvier deux critiques de la recherche de Daryl Bem sur « les influences rétroactives sur la cognition et l’affect » paru dans le Journal of Personality and Social Psychology (Bem, 2011). La première critique sur son blog s’intitule : « La précognition enfin démontrée ? » ; et la seconde sur le site de l’Association Française pour l’Information Scientifique, titrée « Daryl Bem et l’astuce des analyses multiples : vessies, lanternes et statistiques ». Une troisième critique de Nicolas Gauvrit est une version anglaise, intitulée « Precognition or Pathological Science ? An analysis of Daryl Bem’s controversial "Feeling the Future" Paper », publié dans The Skeptic (et disponible ici). Nous allons analyser ces trois critiques en une seule fois, même si elles diffèrent sur plusieurs points.

Nous avons auparavant déjà analysé comment Nicolas Gauvrit semblait faire preuve d’une grande légèreté concernant certaines recherches (ici et ici) : mensonges, déformations, incompréhension de principes statistiques basiques. De telles erreurs seraient sans importance dans la bouche du premier charlatan venu. Elles sont en revanche beaucoup plus inquiétantes dans celle d’un universitaire formant des étudiants à l’usage de l’outil mathématique.

Les tests multiples

La principale critique de Nicolas Gauvrit porte sur l’usage de multiples tests statistiques sans qu’une correction adéquate ne soit apportée au seuil de significativité. Cette critique a déjà été énoncée par d’autres, en particulier par Alcock (2010), comme le mentionne Gauvrit. Cependant, notons, ce qui est bien ennuyeux, que Bem (2010) avait déjà répondu à cette critique et que Gauvrit ne mentionne pas la réponse de Bem.

Notons tout d’abord que nous sommes tout-à-fait d’accord sur le principe de la critique des tests multiples. Il est vrai que certains tests utilisés par Bem peuvent être discutés (comme dans la plupart des publications scientifiques), mais nous allons voir que les critiques de Nicolas Gauvrit sont au mieux exagérées et au pire mensongères.

Que dit donc Nicolas Gauvrit à propos des tests statistiques ? Il prétend que Bem effectue « l’équivalent de 16 tests » (sur son blog) pour l’expérience 1, et « 12 tests » (sur le site de l’AFIS) , puis « 24 tests » (dans l’article du Skeptic) pour l’expérience 5. Tous ces tests ne seraient pas justifiés mais, pire, certains auraient été dissimulés. Si on les prend tous en compte, les résultats doivent être revus à la baisse. Dans l’article en anglais, cet argument – sur lequel repose en grande partie la critique de Gauvrit – est généralisé à l’ensemble des 9 expériences pour un total porté à 176 tests !

Il est vrai qu’on peut toujours se demander si les résultats rapportés par l’auteur sont le fruit d’exploration des données, ou proviennent des hypothèses énoncées a priori. Cela rejoint certaines critiques de Wagenmakers et al. (2011) qui prétendent que les effets significatifs ont été trouvés a posteriori. De la même manière, Nicolas Gauvrit prétend que Daryl Bem a fait plus de tests que ce qu’il a énoncé a priori. Mais cette critique vaut pour n’importe quelle recherche ! On peut en effet toujours envisager que les chercheurs ont « pioché » dans les données, mais un tel argument permet, a priori justement, de mettre en doute n’importe quel résultat de recherche !

Plus grave, pour arriver au nombre de tests que compte Nicolas Gauvrit, il faut multiplier des assertions non-vérifiées, et aussi inventer des conditions expérimentales (nous avons déjà vu dans cet article que Nicolas Gauvrit n’hésite pas à inventer des détails expérimentaux pour étayer ses conclusions).

Par exemple, pour l’expérience 5 d’habituation rétroactive, Gauvrit ignore le fait que Bem teste uniquement l’hypothèse de l’impact des images négatives sur la précognition, suivant en cela plusieurs publications dans la littérature qu’il cite. Plutôt que de tenir compte de ce fait, Gauvrit prétend (a) que Bem a testé trois types d’images en termes d’impact sur la précognition (1 test x 3), (b) qu’il a essayé deux méthodes statistiques différentes (3 tests x 2), (c) qu’il a tronqué la bilatéralité de ces tests en faveur d’une pseudo-unilatéralité (6 tests x 2 = 12), (d) et qu’il teste également le genre (12 tests x 2 = 24 tests). Gauvrit pense démontrer qu’en appliquant une correction d’erreur prenant en compte cette multiplication des tests, plus aucun des résultats de Bem n’est significatif (sauf un dans l’article du Skeptic). Il est assez amusant de voir que Gauvrit, après avoir multiplié lui-même les tests, constate que son argument tient même en retirant les assertions (c) et (d) sur la pseudo-unilatéralité et le genre – comme s’il se rendait compte de son exagération.

Ainsi, à la lecture de l’article, il apparaît que la démonstration de Gauvrit n’est pas justifiée :

- (a) Bem tire ses hypothèses de la littérature existante, et non pas a posteriori avec les données sous les yeux. De plus, seuls deux types d’images sont utilisés dans l’expérience 5, et non trois comme le prétend Gauvrit. Les paires d’images positives ne sont introduites que dans l’expérience 6.
- (b) Bem présente systématiquement ses résultats selon deux méthodes statistiques (l’une paramétrique, et l’autre non-paramétrique) dans une visée confirmatoire et jamais exploratoire, afin de montrer que les résultats ne sont pas dépendants de la méthode utilisée, répondant en cela à une critique courante.
- (c) Rien ne justifie la réintroduction de tests bilatéraux qui ne correspondent pas aux hypothèses de Bem.

Gauvrit critique donc Bem parce qu’il multiplierait les tests statistiques sans les ajuster. Il invente des tests que Bem n’a pas fait, met au même plan les tests exploratoires et confirmatoires, ainsi que les tests a priori (ceux testant l’hypothèse principale) et les tests secondaires. Ce type d’argumentation pseudo-scientifique a de l’avenir : même si les méthodes statistiques sont pertinentes et explicites, on peut décider de ne pas faire confiance au chercheur et de suspecter – sans preuves ! – qu’il a exploré statistiquement d’autres hypothèses. Sans le dire directement, Gauvrit n’a d’autre argument que d’affirmer, au fond, que Bem est un tricheur...

Débat sur les images non-érotiques

Gauvrit reproche à Bem, à la suite d’Alcock (2010), de multiplier les tests dans l’étude 1 en jouant sur plusieurs hypothèses concernant des images érotiques et non-érotiques. Bem (2010) s’en est largement expliqué dans sa réponse à Alcock. Son hypothèse principale, qu’il a vérifiée, est que les sujets percevaient en avance les images érotiques. Bem admet avoir exploré après-coup si certains aspects dans les images non-érotiques justifiaient la différence d’effet d’avec les images érotiques. Il a défini 4 catégories d’images non-érotiques en suivant les descriptions standards de l’IAPS. Chacune des catégories a fait l’objet de nombreux essais : 600 essais avec des images positives, et 480 essais avec des images négatives, neutres, et romantiques non-érotiques. Mais aucun des tests statistiques n’a montré un effet avec les images non-érotiques. Dans ce cas-là, comme l’explique Bem, il n’y a pas de correction du niveau de significativité à faire puisque, de toute façon, aucun effet n’est assez important pour nécessiter une correction !

Des tests statistiques unilatéraux

Bem a choisi de ne prendre en compte qu’un seul type de phénomène : quand le sujet donne plus de bonnes réponses à un test que ce qu’on est en droit d’attendre du hasard. Son test est donc unilatéral et le seuil de significativité est donc plus bas. Gauvrit critique ce choix, en prétendant qu’on pourrait très bien montrer « l’existence du psi » si les sujets produisent un taux d’erreur très inférieur au hasard. Une explication serait que les gens répugnent à choisir l’image érotique qu’ils doivent deviner, et donc l’évitent de façon prémonitoire. C’est une hypothèse intéressante, mais ce n’est pas celle que fait Bem. L’utilisation d’un test unilatéral, bien que moins prudent, est tout à fait pertinent tant que ce choix est fait a priori, ce qui est le cas de la recherche de Bem, jusqu’à preuve du contraire.

L’absence de mention de la cohérence globale des résultats

D’éventuels problèmes de méthodologie statistique seraient probables si l’article ne contenait pas un ensemble de neuf expériences, dont la plupart des résultats confirment les hypothèses a priori, à la suite d’expériences classiques (c’est-à-dire à la temporalité non-inversée), dont quatre des neufs expériences sont une reproduction de l’expérience précédente (expériences 4, 6, 7 et 9), et l’effet psi a également été corrélé positivement avec une composante d’un trait de personnalité dans cinq des expériences. Nicolas Gauvrit ne mentionne aucun de ces faits, qui, pris ensemble, donnent énormément de poids aux résultats énoncés par Bem. Si « le diable se trouve dans les détails », il ne faut tout de même pas oublier de prendre du recul pour regarder la cohérence globale des résultats entre eux et avec la littérature existante.

Un manque de théorie ?

Gauvrit reproche à Bem de ne pas avoir d’explication pour ce phénomène. Mais même sans une explication sur les mécanismes physiques et biologiques d’un éventuel effet de retro-priming, la mise en évidence du phénomène serait déjà en soit une grande découverte ! Gauvrit suppose alors que l’existence d’un effet de pressentiment ruinerait les casinos. Il existe déjà des articles sur ce sujet qui montrent de quelle manière cette question n’est pas si simple (Radin & Rebman, 1998). En outre, critiquer un effet faible obtenu en laboratoire en faisant référence à son éventuelle application à large échelle dans des conditions réelles est bien loin des pratiques scientifiques.

Un article accepté pour des raisons non-scientifiques

Gauvrit suggère que le choix de publier l’article de Bem « ne peut pas être seulement dû... à la rigueur scientifique du texte ». Il appuie cette idée par le témoignage anonyme d’un des éditeurs de la revue qui aurait déploré ce choix et par le fait qu’une réponse critique sera également publiée dans le même numéro. Mais c’est oublier que l’article de Bem a été validé par 2 éditeurs et 4 reviewers, certains étant spécialisés dans les statistiques et les expériences de priming. Lorsqu’ils ont été interrogés par divers médias, aucun des éditeurs n’a remis en cause ce choix, et ils ont tous soutenu la scientificité du travail de Bem (voir par exemple ici). Ils ont en outre indiqué qu’ils reconnaissaient que le sujet était controversé, d’où la pratique, très courante, de la publication d’un contre-avis dans le même numéro.

Un usage impropre des statistiques

Gauvrit pense que ce contre-avis critique de Wagenmakers et al. (2011) montre « l’ineptie des statistiques développées dans le papier de Bem » (on notera une nouvelle fois la retenue des propos de Gauvrit !), alors que ces chercheurs reconnaissent que Bem a fait comme les autres psychologues en sciences sociales, sans inepties particulières. En réalité, Wagenmakers et al. remettent en cause la manière dont TOUS les psychologues emploient une certaine méthodologie statistique standard qui pourrait favoriser des effets faussement positifs. Or, les statisticiens ne sont pas d’accord entre eux sur la nécessité de renoncer à ce standard. Ainsi, le professeur de statistiques Andrew Gelman (2011), même s’il désapprouve certains aspects des études de Bem, conteste cet usage de statistiques bayésiennes qui s’appuieraient sur des probabilités extérieures à l’étude, assignant une valeur a priori de 10^-20 à la précognition, ce qui rend nécessairement les résultats de Bem non significatifs. En effet, cette méthode donne beaucoup de poids aux préjugés et favorise, à l’inverse, des effets faussement négatifs.
Bem, accompagné par les professeurs de statistiques Jesscia Utts et Wesley Johnson, spécialistes de la méthode bayésienne, publient d’ailleurs dans la même revue une réponse à Wagenmakers et al. (Bem et al., 2011, disponible en ligne ici) dans laquelle ils montrent qu’en utilisant une valeur a priori sceptique mais plus réaliste – en se basant sur les tailles d’effet relatées en psychologie et en parapsychologie – les résultats de Bem (2011) demeurent significatifs avec une analyse bayésienne.

Des expérimentateurs inexpérimentés

Bem remercie dans son article la quarantaine d’étudiants qui l’ont aidé à faire passer ces expériences. Gauvrit y voit un problème car les étudiants ne seraient pas « irréprochables », surtout s’ils ne sont pas « aveugles » aux objectifs de l’expérience. Cette critique est surprenante, car les études de Bem sont automatisées, avec une collecte directe des données par un ordinateur. Même si un étudiant fait office d’expérimentateur, il ne peut pas influencer les réponses du participant, car les réponses sont automatiquement rentrées dans le logiciel ! L’expérimentateur n’est là que pour s’assurer que le sujet comprend les consignes. On peut d’ailleurs imaginer que si Bem avait été le seul expérimentateur, cela aurait encore posé davantage de problèmes !

De façon plus globale, cette pratique qui consiste à travailler avec des étudiants est la norme dans l’ensemble des laboratoires universitaires. Le travail de laboratoire est le plus souvent laissé aux post-docs et aux étudiants. Le travail de Bem ne constitue donc pas du tout une exception, et s’inscrit au contraire dans des pratiques standardisées, contrairement à ce qu’affirme Gauvrit.

Conclusion

Nicolas Gauvrit accumule dans cet article un ensemble de procédés pseudo-scientifiques dangereux. Sous couvert d’une argumentation qui pourrait avoir l’apparence d’un discours scientifique, Gauvrit déforme certaines données, ne cite que les publications étayant son point de vue, et critique des pratiques tout à fait classiques dans le champ scientifique - en les faisant passer pour des inepties propres aux parapsychologues. Gauvrit fournit ainsi à un lecteur inexpérimenté de « bonnes raisons » pour rejeter les recherches de Bem. Mais cela n’est en rien une démarche scientifique et l’on ne peut que constater l’écart criant qu’il existe entre la recherche menée par Bem, les différents articles scientifiques discutant ses résultats, et les remarques de Gauvrit.

Ainsi, que les effets d’influences rétroactives soient une réalité ou non, on ne peut qu’espérer que les pratiques telles que celles utilisées par Nicolas Gauvrit disparaîtront au plus vite. Elles sont très inquiétantes de la part d’un universitaire et nous ne pouvons une nouvelle fois qu’attirer l’attention des chercheurs, des médias et du grand public face à de telles dérives. Il existe, à l’opposé de telles pratiques, des scientifiques qui tentent, au-delà de leurs préjugés, de comprendre dans quelles mesures ces recherches peuvent s’avérer pertinentes ou non. On remarquera par exemple la mise en place d’une méta-analyse prospective visant à confirmer ou a infirmer ces premiers résultats, ainsi que l’ensemble des commentaires d’universitaires dans les médias américains concernant une réflexion plus globale sur l’usage des statistiques (voir ici). Espérons que Nicolas Gauvrit et l’AFIS sauront un jour élever le niveau de leur contribution (pourquoi pas en publiant leurs arguments dans des revues à comité de lecture) et quitter le champ des pseudo-sciences qu’ils prétendent pourtant combattre.

Références

Alcock, J. (2010). Back from the future : Comments on Bem.

Bem, D.J. (2010). Response to Alcock.

Bem, D.J. (2011). Feeling the future : Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407-425.

Bem, D.J., Utts, J., & Johnson, W.O. (2011). Must Psychologists Change the Way They Analyze Their Data ? A Response to Wagenmakers, Wetzels, Borsboom, & Van der Maas. Journal of Personality and Social Psychology, in press.

Gelman, A. (2011). That silly ESP paper and some silliness in a rebuttal as well.

Radin, D.I., & Rebman, J.M. (1998). Seeking psi in the casino. Journal of the Society for Psychical Research, 62, 193-219.

Wagenmakers, E.J., Wetzels, R., Borsboom, D., & Van der Maas, H. (2011). Why psychologists must change the way they analyze their data : The case of psi. Journal of Personality and Social Psychology, 100(3), 426-432.



site realise avec spip 1.9.2d
RSS