Hier soir, Ceteris Paribus s’énervait sur twitter à propos de cet article du Point consacré à l’élection brésilienne expliquant que :
Un sondage de l’institut Sensus diffusé jeudi crédite Mme Rousseff, 62 ans, de 46,8% des intentions de vote et José Serra, 68 ans, de 42,7%. Cela « montre une grande probabilité que les deux candidats soient à égalité » car la marge d’erreur du sondage est de 2,2%, a expliqué un responsable de l’enquête.
Un coup classique du commentaire de sondage. Lorsque l’écart entre deux candidats devient plus petit que la marge d’erreur, on trouvera toujours quelqu’un pour dire que « la course est devenue très serrée ». Imaginez par exemple qu’un sondage pour l’élection présidentielle donne 51% pour le candidat A, 49% pour le candidat B, mais avec une « marge d’erreur » de 3% pour le sondage. Considérant implicitement que cette marge d’erreur signifie que le résultat du candidat A peut se trouver n’importe où entre 48% et 54%, et le candidat B n’importe où entre 46% et 52%, un spécialiste en politologie (option tiercé) vous dira qu’il est devenu très probable que le candidat B l’emporte malgré son retard dans les sondages.
C’est évidemment faux. Mais comment l’expliquer rigoureusement? J’ai alors fait appel à Arthur Charpentier pour qu’il concocte un de ces posts dont il a le secret sur le sujet. Arthur trouve que la « grande probabilité » en question est de… 2,6% de chances que Serra l’emporte. Effectivement, c’est énorme, la course Bresilienne est très serrée…
D’un côté, je comprends le « responsable de l’enquête » brésilien : plus la course à la présidentielle apparaîtra comme serrée, plus il aura l’occasion de vendre des enquêtes. On pourrait dire aussi que l’article nous indique que l’avance de Roussef dans les sondages diminue, étant passée de 6 à 4 points. C’est énorme! Cela signifie que les chances de victoire de Roussef sont passées de 99,8% à 97,4%. Un effondrement total, effectivement…
Ironiquement, cette erreur des commentateurs correspond à une incompréhension de la signification de la marge d’erreur. Lorsqu’on dit que « le sondage donne 48% d’intentions de vote au candidat, avec une marge d’erreur de 2% » cela signifie la chose suivante : « il y a 95% de chances qu’un autre sondage donne un résultat compris entre 46 et 50% si les intentions de vote restent inchangées à 48% ».
En somme, supposez un candidat dont les intentions de vote restent obstinément à 48%. Il est extrêmement probable que, de sondage en sondage, on observe du « bruit », c’est à dire qu’un sondage donnera un peu plus de 48%, un autre un peu moins; il est même tout à fait possible d’observer une séquence de sondages en dessous de cette valeur de 48%. Et cela n’a aucune signification.
Ce qui est très embêtant : si le seul commentaire de faibles variations dans les sondages était « ça n’a aucune signification » on se demande bien ce que pourraient raconter nos commentateurs politiques, capables de remplir des pages et des heures d’émissions d’analyses de haut vol à base de fluctuations infinitésimales d’un sondage à l’autre. S’ils n’avaient pas cela, ils seraient obligés de s’informer pour avoir des choses à raconter à leurs lecteurs. Faut pas déconner, non plus.
Cela ne veut il pas plutôt dire que la vraie valeur des intentions de vote est à comprise à 95% de chances entre 46 et 50%?
Réponse de Alexandre Delaigue
Les 2. La valeur exacte de la proportion est exacte, elle n’est pas aléatoire. Ce qui est aléatoire, c’est la valeur obtenue lors du sondage. Ce que nous dit le sondage, c’est que si la valeur exacte n’est pas dans cet intervalle, il y avait une proba de 5% de trouver la valeur obtenue dans le sondage.
Arghhhh, un sondage, horreur !
Bon, depuis que je me suis lancé dans la lecture des Desrosières, Armatte, Blondiaux, Hacking et tous les membres du groupe de Bielefeld, j’avoue que la scientificité des sondages en a pris un sérieux coup dans le buffet !
Parce que c’est bien beau tout ça, mais :
méthode utilisée : aléatoire ou par quotas ?
Comment le sondage a t-il été redressé (car un sondage est toujours redressé en fonction…des élections précédentes principalement).
Brûler les écrits de Bayes. Nan je déconne.
Bon pour ceux qui n’auraient pas compris l’article d’Alexandre très bien fait, il reste Gilles Dowek et son "Peut-on croire les sondages ?". La lecture du tout petit opuscule ne prend guère plus d’une demi-heure. Et tout y est expliqué.
N’empêche, je n’aime pas les sondages. Autant pour les sondages pré électoraux, on peut juger sur pièce. Autant pour tous les autres sondages d’opinion (slip ou caleçon ? Rom ou pas Rom ? Camembert ou chèvre ? Levrette ou missionnaire ? Et toute autre question extrêmement sérieuse), nous n’avons guère de moyen de juger de la pertinence du résultat. On ne peut donc que se reporter sur la méthodologie.
Enfin bon, j’aurais plutôt vu Alexandre commenter le sondage CSA suivant :
<a href="http://www.csa-fr.com/dataset/da...
J’avoue que la question est vraiment marrante.
Ca rappelle la stat. Intéressant et merci de nous permettre de réviser un peu ce cours.
En fait, sur la discussion de la marge d’erreur,
je peux renvoyer ici
freakonometrics.blog.free…
En fait, la marge d’erreur de 2.2% n’a pas trop de sens ici…. C’est ce qu’on a pour un estimation d’une proportion unique…. Autrement dit, dans "Mme Rousseff, 62 ans, de 46,8% des intentions de vote" le 46,8% signifie qu’on a 95 chances sur 100 pour qu’entre 44,6% et 49% des gens votent pour Mme Rousseff. Mais ici on s’intéresse à la différence entre les proportions….
Or quand les deux candidats sont proches de 50%, ça signifie qu’un vote qui ne va pas à l’un a de très grandes chances d’aller à l’autre, ce qui se traduit par une corrélation de -1… Autrement dit, la variance de la différence devient la somme des variances… ou pour l’écart-type (car c’est ça qu’on prend en compte pour la marge d’erreur), 1,4 fois l’écart-type (à la louche) 3,1%…. Il faut donc faire attention à l’interprétation de ce 2,2%….. Maintenant si on ne raisonne pas à la louche, mais plus finement, c’est encore pire…. en fait, on serait plutôt à une marge d’erreur de l’ordre de 4 points. Je vous renvoie à la lecture du billet en anglais,
freakonometrics.blog.free…
Oui, sauf que la véritable valeur des sondages est rarement comprise. La question n’est pas de savoir s’il y’a un pouillème de point ou une marge d’erreur, la question est de voir la dynamique: les candidats montent-ils ou descendent ils? Ce n’est jamais lu qu’en statique. Ajoutons qu’il y a trois phases dans une campagne: avant (les sondés connaissent vaguement les candidats), pendant (les sondés regardent vaguement les polémiques) et les deux dernières semaines (les sondés se préparent à voter et se font donc une opinion sur les idées et les compétences). Les sondages de départ ne préjugent donc absolument pas de la fin, car robustesse mise à part ils mesurent un état différent de l’opinion.
Et si les sondés avaient juste envie de rigoler un bon coup quand ils sont sondés, et répondaient en dépit du bon sens? Peut-être aurais-je l’idée de céder à cette envie, si j’étais sondé…
Réponse de Alexandre Delaigue
Il y a deux types d’erreur dans un sondage: l’erreur statistique et l’erreur structurelle. Ici, on ne s’intéresse qu’à l’interprétation de l’erreur statistique.