Note de lecture


The Why Axis
Uri Gneezy & John List (2015)

En 2016, Pierre Cahuc et André Zylberberg ont réussi une jolie performance médiatique avec leur livre Le négationnisme économique. Du jour au lendemain, dans un pugilat méthodologique et humain, un bon nombre de lecteurs de la presse grand public ont pu se rappeler que les économistes n’étaient pas toujours d’accord entre eux et découvrir que l’économie se voulait une science expérimentale. Ceux qui ont raté l’épisode peuvent lire, entre autres, la (longue) chronique du livre que j’avais publiée à l’époque. Alors que, durant des années, sur des sujets relativement peu conflictuels en France, c’était Esther Duflo qui avait sobrement vanté les mérites d’une méthode expérimentale en économie dans la presse et quelques ouvrages grand public, Cahuc et Zylberberg (devenus CZ depuis pour les “initiés”) ont pondu un brûlot qui n’a probablement pas fait beaucoup de bien à l’image scientifique de la discipline, étant récupéré par certains, et combattu par d’autres, de façon toute sauf académique. De ce point de vue, il est beaucoup plus relaxant de commenter l’ouvrage d’Uri Gneezy et John List qui porte précisément sur la recherche expérimentale en économie et dont l’approche est bien plus paisible que celle de CZ…

Pour être tout à fait précis, List et Gneezy, deux pointures de ce domaine de recherche, s’intéressent principalement (tout comme Esther Duflo) à ce que l’on appelle généralement “expériences aléatoires” ou “expériences contrôlées”, Randomized controled trials (RCT) en anglais. Pour que le lecteur peu au fait de ce type de travaux y voit un peu plus clair, j’opère un petit détour par une classification des travaux expérimentaux en économie avant de présenter le livre.

De façon générale, la méthode expérimentale consiste en économie à détecter des effets de cause à effet en s’appuyant sur des observations directes du comportement des agents économiques. On fait subir un “traitement” à un groupe plus ou moins large d’individus et on observe comment ils réagissent à ce traitement. Pour pouvoir tirer des conclusions de cette observation, on regarde ce qui se passe pour un groupe comparable qui, lui, n’a pas subi le traitement. Idéalement, on répète l’expérience, pour améliorer la robustesse des résultats.

Cette méthode est celle de que la médecine utilise par exemple pour tester l’efficacité d’un nouveau médicament. Les sciences sociales, et l’économie en particulier, ont investi cette méthode il y a des années maintenant. Vernon Smith et Daniel Kanheman ont obtenu le prix Nobel d’économie en 2002 pour leurs travaux expérimentaux. Leur particularité est de tester le comportement des individus dans des laboratoires. Aussi intéressante soit-elle, cette approche expérimentale soulèvent parfois des doutes sur la validité des expériences menées : n’a-t-on pas mis des gens ordinaires dans des situations extraordinaires, de sorte que leur comportement est éloigné de celui qu’il serait dans “la vraie vie” ? Un autre Prix Nobel d’économie, Richard Thaler (en 2017), souligne (notamment dans son excellent Misbehaving, que je chroniquerai peut-être un de ces quatre) que cet argument est souvent exagéré. La reproduction des expériences de laboratoire sous des formes différentes, avec des protocoles soigneusement mis au point, conduit à trouver certaines régularités des comportements qui peuvent difficilement être contestées et mises sur le compte d’une situation de laboratoire biaisant les comportements. Après tout, si vous voulez tester le comportement rationnel des individus, vous pouvez leur proposer des petits tests de décision, avec à la clé du vrai argent (en quantité correcte). En présentant le même problème sous des formes différentes, vous aurez une idée assez éclairante de ce que vous cherchez à vérifier. Ceci ne clôt pas le débat, mais justifie de ne pas condamner la méthode.

Néanmoins, il est exact que certaines expériences sociales ne peuvent tout simplement pas être conduites dans un laboratoire. On a besoin du “terrain”, de la “vraie vie”. Lorsque vous voulez évaluer une l’efficacité potentielle d’une politique de prévention du VIH chez les jeunes, les petits tests en laboratoire sont vite assez inutiles. Dans ce cas, il faut aller sur le terrain et tester le “traitement” (distribution gratuite de préservatifs, information, etc.) grandeur nature, c’est-à-dire sur un groupe suffisamment large. Dans leur ouvrage, Gneezy et List relatent principalement ce type d’expériences, qu’on peut nommer “field experiments” (“expérience de terrain” étant une traduction commode et parlante) et font parfois référence à des expériences de laboratoire.

Enfin, la dernière variante de la méthode expérimentale utilisée par les économistes renvoie à des “expériences naturelles”. En résumé, il s’agit des expérimentations que le chercheur ne peut tout simplement pas organiser, soit qu’elles nécessitent une échelle bien trop vaste, soit qu’elles posent de sérieux problèmes éthiques. Si vous voulez évaluer l’impact d’une famine sur le devenir d’une région, il est difficile d’envisager d’affamer une région, d’assurer à la région voisine un approvisionnement régulier et de comparer cinq ans après le devenir des deux régions… Pour autant, ce genre d’évènements, hélas, arrivent ; sans que personne ne demande à une équipe d’économiste de les organiser. Les économistes (et autres spécialistes de sciences sociales) peuvent alors tirer des conclusions de cette expérience “naturelle”. C’est ainsi qu’on a pu évaluer l’impact de grandes vagues migratoires sur les marchés du travail ou l’effet de la mobilisation militaire sur les comportements civiques ou l’insertion professionnelle de cohortes mobilisées. Dans tous ces cas, l’Histoire crée un groupe test – par exemple, les régions qui voient affluer de nombreux migrants – et un groupe témoin – celles qui, comparables économiquement et sociologiquement – ne sont pas concernées au même moment par la vague migratoire. Le livre de Gneezy et List ne traite pas de ce type d’expériences.

Pour les auteurs, le but de ces travaux est tout simplement de comprendre pourquoi les gens font ce qu’ils font, en observant dans la réalité leur comportement, alors qu’ils ne savent pas qu’ils sont en fait des cobayes (d’emblée, et pour la suite, vous devez oublier l’interprétation péjorative de ce terme dans le langage courant). Il s’agit, ni plus ni moins, à en croire les auteurs de changer “la façon dont vous voyez l’humanité et vous-même”. Pour cela, Gneezy et List s’appuient sur des recherches conduites aux quatre coins du globe, du Kilimanjaro aux caves viticoles californiennes, en passant par la campagne de l’Inde ou les rues de Chicago, sur des problématiques très diverses, tournant le plus souvent autour du fonctionnement de marchés qu’on pourrait appeler “concrets”, contrairement aux modélisations qu’on peut en faire ou même à leur analyse quantitative à partir de méthodes économétriques (dont les auteurs rappellent qu’elles ne peuvent pas toujours établir des causalités indiscutables).

L’approche repose sur l’idée que les motifs humains sont divers. L’intérêt personnel est le principal, mais il n’est pas synonyme d’égoïsme et n’exclut pas pour autant l’altruisme, l’échange (humain), etc. Il est essentiel de comprendre comment ces valeurs sont stimulées dans diverses situations. Pour cela, la seule méthode possible est d’expérimenter, aucune approche purement théorique ne peut donner satisfaction et prévoir le comportement humain. L’ambition des auteurs est non seulement d’établir des liens de cause à effet, mais également de comprendre les mécanismes sous-jacents, les “motifs cachés” (hidden motives) de l’action humaine.

Pour explorer cette méthodologie, The Why Axis aborde des thèmes aussi distincts que la discrimination dans le cadre des relations économiques (hommes-femmes, blancs-noirs, etc.), l’efficacité des politiques éducatives, la motivation au travail ou les ressorts de la charité.

Il serait trop long d’aborder en détail tous les thèmes traités dans l’ouvrage. Je me limiterai à quelques-uns qui me semblent représentatifs de la méthode utilisée et de ce qu’elle peut générer éventuellement comme résultats plus ou moins surprenants ; signe que ces résultats ne peuvent pas être déduits du simple bon sens ou facilement tirés d’une théorie pure relativement complexe (et donc assez coûteuse à développer). Je ne reviendrai pas non plus sur certains résultats plus connus des auteurs. C’est par exemple le cas des expériences menées par Gneezy dans des crèches israéliennes, relaté dans l’ouvrage et qui montre deux choses : les incitations monétaires peuvent évincer les autres formes d’incitations (sociales, morales) et une amende est un prix (si vous fixez le prix trop bas, la demande est élevée).

Le premier thème envisagé par les auteurs est celui des écarts de salaires entre hommes et femmes et, plus spécifiquement, l’idée qu’ils existeraient en partie parce que les femmes sont moins enclines à la compétition que les hommes. Si cette hypothèse est exacte, les femmes auront tendance à moins rechercher la performance relative (et les postes qui y correspondent) et à moins revendiquer d’augmentations de salaires. Ce qui, en définitive, conduira à des écarts de salaires défavorables par rapport aux hommes. Gneezy et List considèrent que cette hypothèse est exacte. Mais ils ont cherché à montrer qu’elle ne reposait pas de façon rédhibitoire sur une explication biologique. L’environnement culturel l’explique largement. Une première expérience relatée consiste à montrer que lorsqu’on propose deux types d’emplois, l’un rémunéré de façon fixe et l’autre en partie selon la performance, via une petite annonce, les candidats au premier sont surtout des femmes, alors que les hommes sont majoritaires pour le second. Des expériences en laboratoire montrent la même chose de manière assez convaincante : les femmes sont moins performantes que les hommes quand la récompense est fonction de leurs résultats relatifs. Mais cela est-il inné ou socialement inculqué ? Pour y répondre, les auteurs mobilisent d’abord une expérience menée en Tanzanie, dans une tribu patriarcale, les Maasaï. Dans cette tribu, la femme est de fait considérée comme inférieure à l’homme. Ils ont proposé aux hommes et aux femmes deux formes de jeux simples, avec à la clé une conséquente rémunération (selon les standards locaux) pour les vainqueurs. Chaque participant pouvait choisir une variante où la rémunération dépendait ou non des résultats des autres. Ils ont constaté qu’hommes et femmes s’engageaient dans l’une ou l’autre variante dans des proportions identiques à celles constatées dans des pays occidentaux. Fort de ce constat, les auteurs ont conduit de nouvelles expériences en Inde, dans la communauté Khasi, un peuple matrilinéaire, caractérisé par une forme de “sexisme inversé” (les hommes y sont en position d’infériorité). Proposant les mêmes jeux qu’en Tanzanie, Gneezy et List ont constaté que la proportion de femmes qui choisissaient la variante concurrentielle du jeu était le double de celle constatée chez les Maasaï et proche du double de celle enregistrée aux États-Unis. Chez les hommes, elle était inférieure à celle des femmes (mais pas aussi faible que chez les femmes maasaï ou américaines). Pour confirmer le diagnostic selon lequel l’aptitude concurrentielle des femmes étaient influencée par l’environnement culturel, les auteurs ont conduit une autre expérience sur place. Sur un marché fréquenté par des Khasi et des “non-Khasi” voisins, ils ont recruté des hommes et des femmes des deux communautés et leur ont demandé de négocier les prix pour l’achat de tomates. La rémunération versée par les expérimentateurs dépendait du prix obtenu par les acheteurs. Plus le prix était bas, plus la rémunération était importante. Les femmes Khasi étaient très performantes lorsqu’il s’agissait de négocier les prix. L’idée selon laquelle les femmes ne savent pas négocier, par nature, n’est donc pas conforme à ces observations. Mais ce n’est pas tout. Les marchands, marchandes en l’occurrence, sur la partie Khasi du marché avaient tendance à davantage fixer les prix sans possibilités de négociations, créant ainsi un marché moins concurrentiel et moins agressif. Et, de fait, il y avait moins de marchandage de la part des femmes Khasi. De retour aux États-Unis, les auteurs ont alors monté une expérience. Ils ont publiés deux offres d’emplois : l’une où il était mentionné que le salaire était négociable ; l’autre sans information à ce sujet. Les résultats sont clairs : dans le premier cas, les femmes négocient autant que les hommes, mais pas dans le second cas. Ces expériences tendent à montrer que le comportement des hommes et des femmes est culturellement déterminé. De manière connexe, cependant, une société dominée par les femmes a semble-t-il tendance à être moins concurrentielle.

Un autre thème longuement abordé dans l’ouvrage est celui de l’éducation (publique) aux États-Unis. Les auteurs ont travaillé avec la municipalité de Chicago et des philanthropes locaux sur des programmes impliquant un certain nombre d’expérimentations. Toutes tournent autour de dispositifs visant à améliorer les résultats scolaires des enfants. Une difficulté pour inciter les jeunes à travailler à l’école est qu’ils sont impatients : ils ont du mal à renoncer à un plaisir immédiat (jouer à la console plus longtemps) pour un gain futur (une meilleure situation socio-économique dans la vie). Gneezy et List ont mis en place des dispositifs d’incitation monétaire. En d’autres termes, payer les élèves de lycée pour étudier. Conditionner le versement d’une prime mensuelle (pas annuelle, l’échéance est trop lointaine pour des jeunes impatients) aux résultats obtenus a donné dans leur cas de bons, voire très bons résultats. Au passage, on peut citer quelques protocoles intéressants utilisés dans ce cadre. Le premier est de fonctionner sur la base d’une loterie (on tire au sort quelques élèves ayant atteint les objectifs), avec des prix élevés. Il s’agit là de s’appuyer sur la tendance des individus à surestimer les probabilités faibles pour se concentrer sur le montant des gains possibles (ce qui explique que tant de gens jouent à disons Euromillions). Le deuxième est de donner à un élève un billet de 20 dollars juste avant un test et de lui expliquer que si les résultats au test (informatisé, avec correction immédiate) sont bons, il gardera le billet ; sinon, il devra le rendre en sortant de la salle. D’autres études ont d’ailleurs montré que cette méthode fonctionne bien pour les primes versées aux enseignants en début d’année, leur conservation en fin d’année étant conditionnée à la réussite de leurs élèves. S’appuyant sur le concept d’aversion à la perte de Kahneman et Tversky, les travaux cités montrent que cette façon de procéder a une certaine efficacité.

À la suite de la description de ces expérimentations, les auteurs décrivent longuement un projet impliquant des enfants de maternelle. Deux groupes d’enfants issus de milieux défavorisés sont formés de façon aléatoire. Dans le premier groupe, on met en place une pédagogie spécifique, avec des moyens renforcés, une implication des parents (un intéressement monétaire, notamment) ; rien de tel dans le second. À l’issue d’une certaine période, on évalue les compétences acquises par les enfants des deux groupes et on en déduit l’efficacité du dispositif. Ce type de dispositifs n’est pas une nouveauté en soi. Mais le chapitre qu’y consacrent les auteurs est intéressant parce qu’il montre toutes les étapes de la construction du projet, avec parfois des moments très drôles (les auteurs expliquent par exemple comme John List a enrôlé son gendre pour aller chercher certains gamins dans des cités où l’accueil n’a pas toujours été très cordial et comment sont gendre a fini par considérer que son beau père était un “cinglé” (sic) ). Les auteurs dressent un bilan très positif de ce dispositif, notant que les scores atteints par les enfants aussi bien sur les compétences cognitives que non cognitives sont au bout de quelques mois au dessus de la moyenne nationale. Ils concluent que “en résumé : quand les bons types d’incitations sont appliquées via une méthode scientifique, les enfants pauvres peuvent faire aussi bien que les enfants riches en l’espace de dix mois”.

Une autre gamme d’expériences que relatent l’ouvrage porte sur les incitations à donner pour les œuvres caritatives. C’est John List qui, il y a des années, s’est penché sur le sujet lorsqu’il avait dû collecter des fonds pour développer l’activité de recherche de son laboratoire fraîchement créé. Doté d’un budget très limité pour démarrer, il devait l’utiliser pour l’augmenter significativement via des dons. Ne souhaitant pas partir au hasard, il a cherché à développer une méthode rigoureuse. Constatant que même les spécialistes, c’est-à-dire des gens travaillant de longue date pour des organisations collectant des dons, n’avaient pas une approche scientifique de leur activité, il a mis en place des expériences, poursuivies plus tard, aux résultats intéressants.

Maximiser les dons pour une œuvre demande une stratégie. Un certain nombre de méthodes existent pour inciter les gens à donner (de leur plein gré, évidemment). On peut par exemple leur dire que s’ils donnent un euro, une autre personne s’est engagée à donner un ou plusieurs autres euros (logique de la subvention ou don “jumelé”, “matching grant“). On peut les faire participer à une loterie. On peut varier la communication : porte à porte, brochures ornées d’images spécifiques ou leur indiquer à quel point l’objectif visé a déjà été atteint (par exemple, “30% des montants visés ont déjà été collectés”). List et ses coauteurs ont testé un bon nombre de ces méthodes alternatives. Toutes ne donnent pas les mêmes résultats. Par exemple, annoncer que 0% des fonds ont été levés ramènera peu de dons. Le seuil de 1/3 apporte de meilleurs résultats, mais celui de 2/3 d’encore meilleures recettes. Il peut paraître paradoxal que les gens donnent plus facilement à une œuvre qui visiblement se porte déjà bien. Néanmoins, si on part du principe que ceux qui donnent n’ont pas le temps d’analyser en détail la “qualité” des campagnes de dons, donner pour une campagne qui a déjà rassemblé beaucoup de monde semble rationnel : le niveau élevé de dons signale que des gens forcément bien informés ont jugé qu’elle en valait la peine. À l’inverse, proposer un remboursement si l’objectif de collecte n’est pas atteint ne conduit pas, comme on pourrait l’attendre, à des dons plus élevés.

Prenons le cas du don jumelé. L’intuition est que si donner un euro permet d’en collecter deux, le donneur est dans la même situation que le consommateur à qui on annonce que pour chaque produit acheté, le second sera gratuit. Est-ce que cela accroîtra les dons ? Est-ce que jumeler le don dans un rapport de 1 à 2 ou de 1 à 3 est encore plus efficace ? Dans une expérience créant quatre groupes (3 groupes test et un groupe de contrôle sans jumelage), List et un de ses coauteurs (Karlan) montrèrent que le jumelage engendrait un taux de réponse de 20% supérieur, mais indépendant de l’ampleur du jumelage (1 pour 1 équivalait 1 pour 2 ou 3). Donner ne s’apparente pas à acheter une barre chocolatée : la sensation d’être important compte significativement. En fonction de la sociologie politique locale, par exemple, les dons diffèrent, en tant qu’acte militant mené à plusieurs (ce que le don jumelé inspire). Tout autant, d’ailleurs, que le physique de la personne qui vous démarche en porte à porte. L’impact de ce facteur s’avère étonnamment significatif, pouvant accroître de 50% le nombre de donneurs. Mais il ne fidélise pas les donneurs ; ce que fait en revanche la participation à une tombola à la suite du don. La conclusion notable tirée par les auteurs de ces diverses expériences est que les gens ne donnent pas pour une cause, mais pour eux-mêmes. Ne pas en tenir compte quand on collecte des fonds serait une erreur. Gneezy et List rejoignent alors la logique du nudging popularisée par Richard Thaler et Cass Sunstein, qui ont notamment montré que les salariés abondaient davantage leurs fonds de retraite lorsque leur employeur le faisait également pour eux. Une autre expérience relatée par les auteurs va dans le même sens. Proposez deux formulaires de don. Sur le premier, précisez qu’il est possible de ne plus jamais être contacté par l’organisme. Sur le second, ne mentionnez rien. En d’autres termes, prenez le risque dans le premier de vous condamner à ne plus recevoir de dons de la part de cette personne. Un risque gagnant : dans l’expérience menée par Gneezy et List, cette formule a reçu deux fois plus de réponses que la formule classique sans, qui plus est, que le montant moyen du don soit inférieur. Et moins de la moitié des donneurs choisissaient de cocher la case “laissez moi tranquille maintenant”. Comment l’expliquer ? Pour les auteurs, c’est une logique de don et de contre-don qui est à l’œuvre. En proposant aux personnes démarchées d’être laissées en paix à l’avenir, on leur montre du respect. En retour, elles donnent plus volontiers, pour remercier l’organisation de ces bonnes manières.

L’ouvrage achève son exposé sur les expérimentations en se penchant sur le cas des entreprises, qu’il s’agisse du lancement d’un nouveau produit, d’un changement de tarification ou des méthodes de rémunération incitatives du personnel. Reprenant par exemple le célèbre couac de Netflix en 2011, un changement de politique tarifaire très mal perçu par les clients, qui faillit lui coûter extrêmement cher, ils montrent que les entreprises n’ont pas assez intégré les bénéfices qu’elles peuvent tirer de l’expérimentation. Ils expliquent cela de diverses manières : la perte de pouvoir ou une image de compétence limitée que cela peut occasionner pour certains managers (destitués de leurs supposés super pouvoirs d’omniscience) ou l’organisation bureaucratique de nombreuses grandes firmes, dans lesquelles l’expérimentation n’entre pas dans une case prévue à cet effet (même quand les personnes semblent sensibles aux arguments présentés).

L’ouvrage de Gneezy et List se veut un plaidoyer pour la méthode expérimentale, efficace pour comprendre le monde et le rendre meilleur, dans des cadres très différents : du consommateur qui ne veut pas se faire avoir par un vendeur qui le discriminera selon un critère quelconque jusqu’aux décideurs publics soucieux de favoriser la réussite scolaire des enfants des quartiers défavorisés. Le tour d’horizon des domaines dans lesquels les expériences aléatoires sont un outil à prendre en considération, sans être exhaustif, est large et convaincant. Le livre est une introduction vivante aux expériences aléatoires. Un certain nombre d’expériences sont résumées avec efficacité. Certaines sont décrites avec un degré de détail méthodologique adéquat pour montrer les étapes de la mise en place et de la réalisation d’une expérience aléatoire.

On pourra néanmoins reprocher plusieurs choses à l’ouvrage. Sur le fond, c’est un plaidoyer sans nuances. Les difficultés méthodologiques des RCT sont nombreuses et font l’objet d’une littérature fournie. Les auteurs n’en touchent pas mot, ou presque. Tout au plus, mentionnent-ils à une ou deux reprises quelques risques, laissant penser qu’il s’agit de détails simples à résoudre (ce qui n’est pas forcément le cas). On pourra arguer qu’il s’agit ici de mettre en avant les vertus de leurs travaux, mais cela n’enlève rien au fait que le lecteur reste notoirement sous-informé. Des lectures complémentaires s’imposent. L’autre problème est que la volonté de faire du texte une vulgarisation agréable à lire finit par tourner court aussi. Il y a certes des passages vivants bien menés, qui facilitent la lecture pour un public non économiste et emmènent le lecteur dans une vulgarisation agréable. La volonté d’incarner les personnages atypiques et intéressants que les auteurs ont croisé dans leurs projets part d’une bonne intention. Mais le livre va trop loin dans cette voie. Les longues descriptions de gens sympathiques aux qualités multiples finissent par occuper une place disproportionnée dans le texte. Les petites anecdotes prennent trop souvent le pas sur la présentation des recherches, finissant à de nombreuses reprises par réellement parasiter la lecture, sans la rendre plus distrayante pour autant. Dans ce genre d’ouvrages de vulgarisation, il est de coutume de réserver ces passages à l’introduction des chapitres. Dans The Why Axis, on va bien au delà. Au final, on est donc partagé. L’aperçu grand public des RCT que donne le livre n’est pas forcément disponible dans un autre ouvrage ; ce qui fait son intérêt. Mais on espérait mieux encore en l’ouvrant.

Stéphane Ménia
24/12/2018

Uri Gneezy & John List, The Why Axis. Hidden Motives and the Undiscovered Economics of Everyday Life, Random House Books, 2015 (7,41 €)

Acheter le livre Google en parle Twitter en parle

Share Button