Un jour ordinaire dans le monde merveilleux des faux nombres

Je n’aurai pas dû lire Proofiness. cet excellent livre, sur la façon dont les chiffres sont torturés, manipulés, par journalistes, politiques, militants, magistrats, a un gros défaut : il n’est plus possible ensuite de lire le journal sans sauter au plafond d’énervement. Trois exemples du jour.

Commençons par un sondage, présenté dans un article titré “les français souhaitent la fin des grèves“. Un magnifique concentré, que ce soit l’article, ou le sondage.

Pour le sondage, d’abord, ça ne rigole pas. On nous colle partout des sigles “ISO”, sans doute pour bien nous persuader que nous sommes face à de la science rigoureuse. La méthodologie, indiquée page 3, est comique de précision : ce sont mille et une personnes qui ont été interrogées. Vous vous demandez sans doute “pourquoi ce nombre”. Il y a deux réponses. Premièrement, sur un sondage effectué aléatoirement, le nombre de personnes interrogées détermine la marge d’erreur. Or la marge d’erreur est indiquée plus loin sur la page, ce qui nous indique que ce nombre de personnes interrogées est redondant.

Mais il ne l’est pas. Tenez, un petit test. Laquelle de ces deux phrases vous semble la plus convaincante : “les français sont majoritairement hostiles au bouclier fiscal” et “65% des français sont hostiles au bouclier fiscal”. Si vous êtes comme tout le monde, la seconde phrase vous paraît bien plus convaincante. Pourtant les deux disent la même chose. Mais la présence d’un nombre dans la seconde donne l’impression qu’il y a eu mesure, et que cela rend la phrase plus “scientifique”. Pourtant, nulle part n’est indiqué comment ce chiffre a été déterminé (je viens de l’inventer, en fait). Ce phénomène par lequel la simple présence de nombres persuade est renforcé par la précision apparente du nombre. Par exemple, si j’écris à la place de la phrase “64.93% des français sont contre le bouclier fiscal” cela semble plus convaincant que 65%, qui semble arrondi. Pourtant, ce nombre n’est pas moins inventé que le précédent.

Dans un sondage, le nombre de personnes interrogées ne sert qu’à une chose : déterminer la marge d’erreur. Celle-ci est à peine modifiée par le fait d’interroger 1000 ou 1001 personnes. la précision exacte du nombre de personnes interrogées, ici, sert donc beaucoup plus à établir la conviction de scientificité qu’à informer réellement.

– Parlons-en, d’ailleurs, de la marge d’erreur. Elle correspond, dans un sondage, au premier type d’erreur, l’erreur statistique. Celle-ci provient du phénomène suivant. Supposez une urne remplie de 10000 boules, 6000 rouges et 4000 jaunes. Vous prélevez un échantillon aléatoire de 10 boules dans cette urne. Votre échantillon peut reproduire la répartition de la population (6 boules rouges et 4 jaunes). Mais il y a de fortes chances de tomber sur un échantillon différent de la population (par exemple, 7 rouges et 3 jaunes, ou même 10 rouges et zéro jaunes). Par contre, plus votre échantillon est grand, plus le risque d’obtenir un échantillon très différent de la population diminue. Cela vous donne donc de fortes chances, lorsque vous prélevez un échantillon suffisamment grand, d’obtenir un échantillon proche de la population. Cette proximité est la marge d’erreur, vous en avez quelques exemples en suivant ce lien.

Mais la marge d’erreur ne correspond qu’à l’erreur statistique. Elle ne prend pas en compte l’autre erreur, la plus courante : l’erreur structurelle. L’erreur structurelle vient de ce qu’en pratique, les sondages ne correspondent jamais au cas théorique de boules de couleur prélevées dans une urne, comme dans les exercices de mathématiques. En pratique, les sondages sont effectués par des personnes réelles, qui peuvent se tromper en collectant leurs données; surtout, particulièrement dans les sondages réalisés auprès de personnes réelles, il y a des biais de collecte d’information. Il est par exemple impossible de sonder une personne qui refuse de répondre aux sondages. Lorsque vous lisez “x% des français pensent que” il faut lire “x% des français qui répondent aux sondages pensent que”. Les gens peuvent mentir. Les gens peuvent vouloir être “bien vu” de la personne qui les sonde (et quand on est interrogé par une jeune voix féminine, on est tenté de lui faire plaisir). Les réponses peuvent être orientées par la façon dont les questions sont posées, voire même par l’ordre dans lequel elles sont posées : si par exemple on vous demande d’indiquer vos opinions politiques avant de vous poser des questions de société, vous aurez beaucoup plus tendance à vous conformer aux opinions-type de votre camp.

Les sondeurs déclarent toujours l’erreur statistique, sous forme de marge d’erreur. Mais ils ont une fâcheuse tendance à laisser croire que la marge d’erreur mesure tous les risques d’erreur, y compris l’erreur structurelle. Ce n’est pas le cas. Pour une raison simple : si l’erreur statistique est connue et limitée, l’erreur structurelle peut potentiellement rendre le sondage totalement faux. Avec trop d’erreur structurelle, la “marge d’erreur” peut devenir 100%.

Dans cet exemple (voir toujours page 3), il y a un biais énorme : le mode d’interrogation, en ligne. Là encore, la “scientificité” est assise sur la dénomination du système d’interrogation, désignée par un sigle en anglais. Ca fait tout de suite plus sérieux. Mais cela a une implication claire : les personnes qui ont servi à ce sondage correspondent à un sous-groupe particulier de la population, les gens qui ont un ordinateur et un accès internet, et qui acceptent de répondre à un sondage en ligne. Il y a très peu de chances qu’ils représentent la population française. L’application là-dessus de la “méthode des quotas”, au passage, loin d’améliorer le résultat, ne fait qu’introduire de nouveaux biais.

A partir de ce monument de scientificité, la façon dont l’article est présentée peut elle aussi totalement en modifier la perception. En s’appuyant sur la page 5 du document, on aurait très bien pu titrer “61% des français approuvent le mouvement contre la réforme des retraites”. Etrangement, ce sont les questions page 8 et 10 qui servent pour faire le titre : “les français souhaitent la fin des grèves”. Parce que, comme on peut toujours s’y attendre avec un sondage, poser la même question avec des formulations et des informations différentes modifie le résultat obtenu. Un esprit raisonnable, face à ces contradictions, en conclurait que ce sondage ne nous apprend rien d’intéressant. C’est oublier les talents d’exegese que l’on peut déployer pour donner du sens à une série de nombres qui n’en a aucun.

L’article nous indique donc que “l’opinion a un point de vue complexe et nuancé”. qu’en termes galants… C’est que le sondage ne donne pas les mêmes résultats selon qu’on demande aux gens s’ils “comprennent” ou “soutiennent” les manifestations. On aurait pu essayer d’autres verbes : “approuvez-vous”? “Appréciez-vous”? “vous intéressez-vous”? et à chaque fois, on aurait eu un nombre différent. Du commentaire sur du bruit.

Deuxième article : “Panini retire du marché le jeu polémique des Skyzos“. On y apprend que suite à des plaintes d’associations, Panini retire un jeu de la vente. Mais comme il est dans la rubrique “santé”, l’article se doit de nous apprendre autre chose que cette anecdote sans grand intérêt. Le dernier paragraphe nous instruit donc sur la schizophrénie de la façon suivante : Si l’hérédité est une composante importante dans son apparition, d’autres facteurs environnementaux, comme l’isolement social ou la consommation de cannabis, peuvent également peser.

Voici un second exemple de chiffres torturés : la corrélation prise pour une causalité. Il existe en effet de nombreuses études médicales montrant l’existence d’une corrélation entre différentes variables, ici, l’apparition de la schizophrénie et l’isolement social ou la consommation de cannabis. Voici ce que ces études montrent : les schizophrènes ont plus tendance que le reste de la population à consommer du cannabis ou à être isolés socialement. Et c’est tout. Vous voyez que la causalité peut être interprétée dans tous les sens. Il est fort probable, par exemple, qu’une personne commençant à manifester des signes de schizophrénie va avoir tendance à s’isoler socialement. On pourrait supposer également que face à l’angoisse que causent les premiers symptomes de cette maladie, les gens soient incités à consommer du cannabis pour les calmer. Dès lors, c’est la schizophrénie qui cause isolement et toxicomanie. Ou alors, comme indiqué dans l’article, la causalité va dans l’autre sens. Comment savoir?

En pratique, il y a des moyens pour essayer de mieux distinguer le sens de la causalité. Mais ils sont difficiles à mettre en oeuvre, et eux-mêmes sujets à des erreurs. Surtout, ils ne sont que très rarement utilisés pour les études médicales. C’est ce qui fait qu’une quantité invraisemblable d’études médicales est fausse. Mais l’article n’est pas là pour instiller le doute, mais pour instiller discrètement une morale : le cannabis, ça rend fou.

Enfin, à tout seigneur tout honneur, l’Equipe nous gratifie d’un monument hilarant au dénombrement bidon, dans cette fine analyse consacrée aux équipes de foot de Lorient et Nancy. Les deux équipes, cette année, sont en effet passées au gazon synthétique. Et malheur : les résultats ne suivent pas. A l’appui de cette démonstration, un schéma avec plein de jolies couleurs mais parfaitement illisible, d’où il semble ressortir que les deux équipes ont cette année de bien mauvaises performances, en particulier à domicile. Pourtant, une connaissance même minimale du football indique qu’il y a des tas de facteurs qui font qu’une équipe, d’une année sur l’autre, voit ses résultats se dégrader après 9 journées : changements de joueurs, chance, adversaires rencontrés, progrès relatif des autres équipes, etc. cette même connaissance minimale indique qu’il peut y avoir des tas de raisons d’adopter un terrain synthétique, autres que la volonté d’obtenir de meilleurs résultats : coût, climat local (il gèle souvent à Nancy, il pleut souvent à Lorient). Enfin, je me demande même pourquoi j’explique à quel point nous sommes là dans le grand n’importe quoi.

A bientôt, dans le monde merveilleux des copies laborieuses à partir de chiffres inutiles.

Share Button

Alexandre Delaigue

Pour en savoir plus sur moi, cliquez ici.

27 Commentaires

  1. En réalité, la marge d’erreur des sondages ne dépend pas du nombre de personnes interrogées. La taille de l’échantillon détermine l’erreur standard, mais les marges erreurs doivent être calculées sur chaque question, à cause des observations manquantes, des personnes ne sachant pas répondre à la question, et des refus de réponse. Les questions ont quasi-systématiquement une marge d’erreur plus large que celle affichée, sans même évoquer les autres biais qui s’appliquent à la méthode d’échantillonage, à la forme de la question et aux options de réponse.

    Le comic de xcd reste la meilleure blague sur la correlation-causation fallacy : xkcd.com/552/

    Sur le gazon synthétique, ça me rappelle l’anecdote souvent utilisée en statistiques : un instructeur militaire avait remarqué que les performances de ses soldats se dégradaient quand il reconnaissait leur excellence, ou qu’elles s’amélioraient quand il reconnaissait leur médiocrité.

    Sinon, sur le fond, le jeu des Skyzos me paraît d’une stupidité rarement égalée.

  2. Sur la marge d’erreur des sondages, une façon de l’estimer serait de refaire le même sondage plusieurs fois à la suite et de voir comment varie le résultat. D’ailleurs, n’a-t-on pas eu un exemple récent où deux sondages consécutifs aux questions semblables avaient eu un résultat opposé ? La stabilité des sondages présidentiels en 2007 m’avait assez frappé de ce point de vue là (trop peu variable pour être honnête).

  3. @Tom Roud: je suis sur que les instituts de sondages adorerais voire se généraliser la pratique du Monte-Carlo de sondage, ce serais bon pour leurs affaires. Le problème est que si le biais est systématique (ex: l’échantillon sondé n’est pas représentatif de la population) il ne disparaîtras pas par la magie de la loi des grands nombres.

    N’est il pas possible d’estimer la marge d’erreur (et le biais) des sondages en comparant les prédiction sur un échantillon (sondage) et le résultat sur la population, dans le cas d’une élection par exemple?

    Réponse de Alexandre Delaigue
    Ce n’est pas toujours possible: si dans une élection le % final sera connu (ce qui incite les sondeurs, dans ces cas, a faire plus attention) le plus souvent on ne peut pas. Par ailleurs les biais changent. Pensez a la sous déclaration fn, sous évaluée en 2002, surestimée en 2007.

  4. Tom Roud a raison, il faudrait faire du MCMC, mais bon…

    Juste un exemple : selon ce sondage, 7% des sympathisants d’extrême-gauche déclarent qu’ils ne comprennent pas vraiment ou pas du tout les manifestations et les mouvements de grève contre la réforme des retraites.

    Pour moi, cela signifie que le sondage a une marge d’erreur bien supérieure à 3% sur cette question — que signifie "comprendre" pour les enquêté(e)s ? — et/ou sur la question permettant de définir les affiliations politiques des enquêté(e)s.

    La question suivante sur le soutien indique toujours 7% de sympathisants d’extrême-gauche n’affichant pas vraiment ou pas du tout de soutien au mouvement : sans explication des sondeurs, je prends peu de risque en disant qu’ils manipulent des concepts sans les maîtriser, vu que la catégorie de sympathisants d’extrême-gauche opposés aux réformes actuelles n’a pas plus de sens que la catégorie de “gaucho-lepéniste”.

    Les observations manquantes (NSP) sont faibles (ce qui est logique dans du déclaratif réalisé en ligne), mais les biais ont l’air d’être importants pour d’autres raisons, liées à un aveuglement à peu près complet (si l’on s’en tient au document diffusé) sur les catégories et les termes utilisés. Je me demande d’ailleurs quelle méthode aboutit à un échantillon représentatif de l’extrême-gauche dans un sondage pour Le Figaro. Enfin…

  5. M. Delaigue, vous avez des accents de Ronald Fisher par moments: http://www.york.ac.uk/depts/math... "I think you will agree that a slight cause of irritation – a slight disappointment, an unexpected delay, some sort of a mild rebuff, a frustration – are commonly accompanied by pulling out a cigarette and getting a little compensation for life’s minor ills in that way. And so, anyone suffering from a chronic inflammation in part of the body (something that does not give rise to conscious pain) is not unlikely to be associated with smoking more frequently, or smoking rather than not smoking."

    Ne me faites pas dire que je vous fais dire ce que vous ne dites pas…

  6. Je serai tenté de conclure de votre post qu’il ne faut pas lire le figaro (ce qui me va très bien puisque je ne le lis pas)

    Très bon post sinon

    Réponse de Alexandre Delaigue
    Je précise que si c’est tombe sur le Figaro aujourd’hui, c’est au hasard de mes lectures. La torture numérique est une pratique hélas bien générale.

  7. Vous êtes bientôt prêt pour animer le "more or less" français que vous appeliez de vos voeux. D’ailleurs il me semble que l’animateur de la bbc est un économiste.

    Dans le même ordre d’idée et la confusion entre corrélation et causalité, l’article récent du monde sur la moindre productivité des obèses était tout à fait typique: http://www.lemonde.fr/ameriques/...

    L’article implique que l’obésité est la cause d’une moindre productivité alors que les données collectées ne font que montrer une corrélation et dans ce cas on peut très largement penser que d’autres facteurs (éducation, troubles psychologiques…) peuvent être à la fois des facteurs de moindre productivité et d’obésité.

  8. Mouahahaha j’imagine bien quelqu’un expliquer l’ANOVA ou le khi-deux à des journalistes, on risque de bien se poiler…

  9. Question sur le "corrélation et causalité".

    Quand A et B sont corrélés, A n’est pas forcément la cause de B. Mais est-il possible qu’ils n’aient vraiment aucun rapport ? Je veux dire par là que généralement, l’erreur est d’oublier que cela peut aussi signifier "A et B sont tous les deux causés par C". Est-il exact de dire qu’une corrélation implique une relation causale au moins indirecte ?

    Note : en bas, je lis : "Pour éviter les robots spammeurs, nous vous demandons de répondre (en chiffres) à cette question très complexe : Combien font deux plus deux ?"

    Vu le sujet de l’article, et en hommage à Orwell, je meurs d’envie de taper 5…

    Réponse de Alexandre Delaigue
    Non : une corrélation peut tout aussi bien être une coincidence, le fruit du hasard, sans la moindre causalité, ni même un facteur tiers explicatif.

  10. Bonjour,

    Juste pour vous éclairer sur un point qui sort de l’économie et des statistiques mais vous l’avez abordé.

    Concernant la schizophrénie et le cannabis, il y a vraiment une causalité, en plus d’une corrélation que vous soulevez avec raison.

    Tous les fumeurs de cannabis ne deviennent pas schizophrènes mais la proportion de fumeurs qui génétiquement est "fragile" (ils n’existe pas de gène de la schizophrénie, c’est une combinaison d’"erreurs génétiques" sur plusieurs gènes qui provoque la schizophrénie) et possède la disposition à déclarer une schizophrénie déclenchera plus tôt une schizophrénie. S’ils n’avaient pas fumé, ces personnes ne seraient pas devenues schizophrènes ou le seraient devenu plus tard (la schizophrénie se déclare toujours quand le cerveau est fini, à la fin de l’adolescence, entre 15 et 25 ans).

    Une vidéo sur la schizophrénie et le cannabis :
    http://www.youtube.com/watch?v=h...

    Vous avez raison aussi de souligner qu’il y a aussi une corrélation entre cannabis et schizophrénie. Beaucoup de malades fument du cannabis pour se soulager. Ou aussi car ils sont désocialisés (on estime qu’1/3 des SDF est schizophrène).

    On sort de l’économie mais vous avez eu raison de soulever ce point. La journaliste du Figaro avait globalement raison de pointer causalité mais elle aurait dû/pu ajouter la corrélation.

    Je peux rechercher si vous voulez des études médicales qui prouvent la causalité mais je vous confirme que celle-ci est réelle.

    Réponse de Alexandre Delaigue
    Les éléments que vous indiquez décrivent bien le problème : la grande difficulté à identifier la causalité et son sens dans une corrélation constatée. Je ne doute pas qu’il existe des études médicales concluant à (et non prouvant…) la causalité; je doute que l’on puisse en conclure grand chose. Merci de ce commentaire en tout cas.

  11. @webmaster de Schizophrenies.fr : Existe, mais à quelle hauteur ? Puisque c’est un article sur les chiffres, quelques statistiques (même fausses 😉 ) ou le détail de l’étude (du coup) seraient intéressants.
    Quels sont les risques pour une personne avec une schizophrénie latente ?
    Pour l’article de l’équipe, ça me rappel une citation :
    "Quatre hommes visitent l’Australie pour la première fois. En voyageant par train, ils aperçoivent le profil d’un mouton noir qui broute.
    Le premier homme en conclut que les moutons australiens sont noirs.
    Le second prétend que tout ce que l’on peut conclure est que certains moutons australiens sont noirs.
    Le troisième objecte que la seule conclusion possible est qu’en Australie, au moins un mouton est noir.
    Le quatrième homme, un sceptique, conclut : il existe en Australie au moins un mouton dont au moins un des côté est noir". Raymond Chevalier

  12. je conseille pour ma part la lecture de "L’opinion publique n’existe pas" de Pierre Bourdieu et les travaux de P. Champagne sur ces questions.
    extraits choisis du premier texte:
    "Toute enquête d’opinion suppose que tout le monde peut avoir une opinion ; ou, autrement dit, que la production d’une opinion est à la portée de tous. Quitte à heurter un sentiment naïvement démocratique, je contesterai ce premier postulat.

    Deuxième postulat : on suppose que toutes les opinions se valent. Je pense que l’on peut démontrer qu’il n’en est rien et que le fait de cumuler des opinions qui n’ont pas du tout la même force réelle conduit à produire des artefacts dépourvus de sens.

    Troisième postulat implicite : dans le simple fait de poser la même question à tout le monde se trouve impliquée l’hypothèse qu’il y a un consensus sur les problèmes, autrement dit qu’il y a un accord sur les questions qui méritent d’être posées."

    et le rêve est réalité, on trouve le texte sur internet: lmsi.net/L-opinion-publiq…
    et la justification de sa problématique ici:
    http://www.homme-moderne.org/soc...

  13. Sur la différence entre "cause" et "corrélation", je voudrais ajouter quelque chose. Dans un très grand nombre de domaines, on répète inlassablement la question des problèmes "multi-factoriels". La santé en fait partie. La schizophrénie peut être un exemple.
    Puisque l’on est sorti d’une médecine anatomo-pathologique pour rentrer dans une médecine "des risques" (je caricature), on ne voit plus de cause, mais des "corrélations significatives".
    Ce n’est pas tant le terme de corrélation qui est important que le terme "significatif". Cela veut dire que l’on fixe des seuils selon lesquels on a une réponse qui va pouvoir être caricaturée comme positive ou négative. Prenons l’exemple du cancer des poumons et la cigarette: La corrélation significative est très élevée et permet de parler de cause, bien que scientifiquement, il n’y ait nulle "cause directe", mono-factorielle et exclusive. Ou alors on a des causalités molles qui affaiblissent les sciences…
    La question de la "signification" est donc celle de l’interprétation des statistiques et du seuil de "signification". Cette question renvoie donc au travail d’interprétation des chercheurs, à certains schémas sociaux intériorisés, certaines préférences idéologiques (ce qui est manifeste dans le cas du cannabis [et de la schizophrénie], où les résultats scientifiques varient selon la couleur du gouvernement, cf. rapport Roques, puis les rapports de la Mildt), etc.

  14. > L’application là-dessus de la "méthode des
    > quotas", au passage, loin d’améliorer le
    > résultat, ne fait qu’introduire de nouveaux
    > biais.

    🙁 C’est bien la peine de critiquer les journalistes et de balancer une telle affirmation qui est digne de leurs pires manipulations.

    Sans la méthodes des quota, impossible de faire un sondage significatif sur seulement 1000 personnes. Un peu d’histoire des sondages : au début du siècle les journaux organisaient des sondages volontaires, or même avec des millions de réponses, la précision était très faible, bien inférieure à ce que l’on obtient aujourd’hui. La différence : les quotas, et les techniques sophistiquées pour éviter les biais qui les accompagnent.

    La limite, c’est qu’on essaie d’obtenir des miracles à partir des techniques de quota, de faire totalement disparaitre les biais, c’est là que ça coince. De temps en temps, les biais réapparaissent, et faussent sérieusement le résultat.
    Le deuxième limite est que quelquefois celui qui commande le sondage ne souhaite pas avoir la vraie réponse, donc sur la base d’un mécanisme conçu pour éviter les erreurs, on ajoute le genre de manipulation dénoncées ici.

    Mais à partir de là, se permettre de déclarer, que ça n’améliore pas les résultats, que ça ne fait que introduire des biais supplémentaires, euh … bravo, ya plus qu’à envoyer votre CV aux journaux, ça devrait le faire. Et puis j’adore les guillemets autour de "méthode des quota", si on a un peu conscience à quel point ça améliore ce qu’on aurait sinon.

  15. @Rhizome

    La critique bourdieusienne de l’opinion publique n’est pas inintéressante (quoi qu’il n’ait rien inventé, les termes du débat sont plus ou moins les mêmes depuis les années 20, avant même l’invention du sondage d’opinion) mais elle pose certains problèmes.

    Dans son exposé (un peu trop) célèbre, il met certes en lumière des éléments pertinents, comme la distinction entre réponse politique et réponse éthique, les questions imposées aux répondants ou le fait d’interroger les individus hors de leurs groupes d’appartenances.

    Le problème, c’est que l’élection démocratique est basé sur les mêmes postulats que les sondages (tout le monde a le droit de voter, les votes ne sont pas pondérés, des nombreuses problématiques sont agrégées en une seule réponse, les enjeux de l’élection sont imposés aux candidats etc). Du coup, soit on critique la démocratie en elle même plutôt que les sondages, soit on met en évidence les différences méthodologiques entre une élection et un sondage (ce que fait Alexandre dans l’article). Le raisonnement de Bourdieu se perd dans une critique méthodologique des sondages qui ne sert à rien une fois qu’on a postulé la "naïveté" de leurs postulats.

  16. @Schizophrenies.fr, sans vouloir relancer un débat qui n’a pas sa place ici, je voudrai rectifier ce qui me semble être une erreur. Ou plutôt deux erreurs.
    Aucune étude actuelle ne permet d’établir que la consommation de cannabis est, à elle seule, un facteur causal de la schizophrénie.
    On peut même aller au delà en disant que le pourcentage de la population française diagnostiqué comme "schizophrène" est stable depuis 30 ans (environ 0,8% de la population, je n’ai pas de chiffre plus exact, désolé), tandis que la consommation de cannabis a elle connue une forte augmentation (je n’ai pas les chiffres sur 30 ans mais je pense que cette augmentation n’est un secret pour personne).

    Ou encore selon l’Inserm "l’usage de cannabis apparaît donc comme l’un des très nombreux facteurs de causalité (ni nécessaire, ni suffisant) qui accompagne la survenue de la schizophrénie sans en affecter l’évolution de façon favorable, bien au contraire ces produits aggravent certains symptômes."

    Mon est objet n’est pas, bien entendu, de faire l’apologie du cannabis, loin de là. Mais simplement de ne pas laisser se propager des contres vérités ou des conclusion hatives.

    De même que réduire l’étiologie de cette pathologie à la génétique est abusif et scientifiquement inexact.

    Veuillez m’excuser pour cet aparté, je sais que je suis à côté du sujet de cet article (très intéressant par ailleurs), mais ces précisions me paraissaient importantes.

    Pour ceux que ça intéresse, sur la schizophrénie l’article Wiki est plutôt bien fait, et surtout avec des sources fiables

  17. Article de J.M. Charpin (ancien commissaire au plan et ancien DG de l’insee) sur la statistique dans la Revue Economique, mai 2010.

  18. Pour les questions sur les sondages (notamment les méthodes des quotas), je suggère la très bonne chronique :
    http://www.rue89.com/en-faire-un...

    Enfin prendre le figaro comme exemple pour la manip de sondages c’est du velours. Le Figaro fait le coup à chaque fois (voire les controverses sur les sondages sur les annonces sécuritaires). A chaque fois on a droit à de la manip de résultats à des extractions partielles de questions….. le tout pour que la une soit le plus favorables aux opinions de son actionnaire.

  19. L’usage de la marge d’erreur statistique n’a aucun sens en France, où tous les sondages se font à partir d’échantillons "représentatifs" -autrement dit, à partir d’un modèle sociologique frustre des comportements politiques, qui relie à quelques variables (sexe, âge, CSP (qui sont elles-mêmes des approximations sociologiques), taille de l’agglomération) les réponses des personnes interrogées.

    On n’est donc plus dans le cas d’un tirage aléatoire de 1000 personnes où l’on essaye de déterminer la marge d’erreur à partir de la loi normale.

    La loi normale ne vaut que pour chacune des variables : on peut estimer la marge d’erreur dans la mesure de l’opinion des cadres habitant une ville de plus de 100 000 habitants et de sexe masculin, etc. en sachant que l’on en a interrogé 20, par exemple, dans le cadre du sondage.

    Mais on ne sait rien sur la valeur globale du résultat du sondage qui part du principe que ces variables sont pertinentes et prédictives.

    Bref, cela illustre votre post : c’est une façon de mimer la scientificité qui n’est fondée sur rien.

  20. Sur quel sondage vous pouvez affirmer :
    "il pleut souvent à Lorient".
    Merci de precisez vos sources..

  21. Assez d’accord, sur l’épidémiologie, avec … le débat en commentaires. Oui, les épidémiologues essayent d’établir des causalités, et ce n’est pas si difficile techniquement ; mais c’est difficile matériellement – en particulier, un outil très utile est le suivi de cohortes de personnes dans le temps (le fait que A précède ou au contraire suit B est l’un des indices quant au sens de la causalité éventuelle entre A et B).

    Assez d’accord avec le billet et le débat sur les sondages (et très d’accord avec Tom Roud). Le seul passage qui m’a fait tiquer est

    "L’application là-dessus de la "méthode des quotas", au passage, loin d’améliorer le résultat, ne fait qu’introduire de nouveaux biais." Non, c’est excessif.

    Cependant je suis aussi en désaccord avec jmdesp. Contrairement à une légende répandue, ce n’est pas l’application de quotas qui a permis à Gallup de "battre", avec 4000 répondants, les millions de répondants du "Literary Digest" dans l’enquête préélectorale Roosevelt/Landon. C’est le fait que la méthode de tirage des répondants par Gallup était moins biaisée que l’autosélection des répondants par le LD (autosélection par le fait 1. d’être abonné à cette revue (ou de l’acheter ?), et 2. de répondre à son enquête).

    La vertu essentielle des quotas est de rendre le tirage "moins biaisé" quand il risquerait de l’être.

    Ainsi, dans les enquêtes sur "access panels en ligne" (des publics auto-sélectionnés par le fait d’accepter de répondre fréquemment à ce genre d’enquête, et très biaisés par rapport à la population générale) certains quotas PEUVENT réduire le biais démographique inhérent à la méthode.

    En revanche ils ne réduisent pas – exemple trivial – le biais lié au fait d’être un usager régulier d’internet : tous les répondants à ces enquêtes le sont, quels que soient les quotas utilisés.

    Enfin, ils PEUVENT accroître l’erreur, soit en contraignant à réduire la taille d’échantillon (refuser des répondants déjà en surnombre par rapport aux quotas) ; soit, de façon équivalente, en augmentant la variance des poids individuels à l’étape du redressement, si on redresse sur les quotas, ce qui est fréquent.

    En fait, ces trois phénomènes se produisent à chaque fois ; difficile de savoir lequel l’emporte.

    Quant à une comparaison entre données de multiples "access panels" sur une même questions, elle existe : Cf. présentation http://www.esomar.org/index.php/... (l’abstract ne mentionne pas les données, pas le temps de retrouver la source ce matin, désolé).

  22. Une question me taraude, qui est sondé ? Un jour de 2007 en pleine élection présidentielle, devant l’improbabilité des sondages, j’ai demandé à tout mes amis entre 20 et 30 ans, qui ont majoritairement des téléphones mobiles et pas de téléphone fixe, si ils avaient déjà été sondés. Personne dans mon entourage entre 20 et 30 ans n’a jamais été sondé, pour aucun sujet que ce soit depuis leur age adulte. Depuis j’ai refait le test souvent avec des gens que je rencontre, c’est bizarre, personne n’ai jamais sondé…

Commentaires fermés.