15 Commentaires

  1. Votre article est très intéressant, comme d’habitude.

    Mais il me semble contenir une très légère erreur, qui n’affecte cependant pas du tout l’argument d’ensemble, et pourrait même en fait lui donner une saveur particulière.

    Vous écrivez:

    Voici une autre version d’un problème de probabilités conditionnelles : un test pour une maladie est fiable à 99% (si une personne est malade, elle le dira dans 99% des cas ; si elle ne l’est pas, elle le dira dans 99% des cas). Dans la population, cette maladie touche une personne sur 10 000. Vous faites ce test et vous êtes positif. Quelle est la probabilité que vous soyez effectivement malade ? Si vous répondez « 99% », vous avez faux. Sur 10 000 personnes de la population, il y a en moyenne 1 malade (1 sur 10 000) et, puisque le test est fiable à 99%, 1% de « faux positifs » : des gens positifs au test sans être malades. 1% de 10 000 faisant 100, cela signifie qu’il y aura dans cette population de 10 000 personnes 101 personnes positives au test : une vraiment malade et 100 faux positifs. Si vous avez été positif au test, vous avez donc une probabilité de 1 sur 101, soit un peu moins de 1%, de risques d’être vraiment malade, et plus de 99% de chances de ne pas l’être.

    En réalité, la probabilité n’est pas de 1/101, mais de 99/10098, soit effectivement un peu moins de 1%.

    Là où votre raisonnement est à mon avis erroné, c’est lorsque vous estimez que sur 10’000 personne 101 seront positives. En réalité, il y aura (9999×0.01 + 1×0.99) personnes qui seront positives. Et pour savoir si une personne qui est positive est vraiment malade, il faut diviser la probabilité qu’une personne soit malade et positive, soit 1×0.99, par ce montant, ce qui donne 99/10098.

    Comme quoi, vous avez raison, on se trompe facilement lorsqu’on calcule des probabilités 

  2. Très perturbant!

    Est-ce que cela peut tenir au fait qu’au fond nous ne pouvons vivre que dans un monde de régularités. Régularités dans les événements de la nature, régularités dans les réactions de nos semblables, régularités dans les causalités.

    Ou bien que nous vivons dans un monde où existent ces régularités et que l’évolution nous a "précablés" pour rechercher des régularités plutôt que de réagir correctement à l’aléatoire, qu’il a été plus efficace pour nos ancêtres de bien utiliser des régularités que de faire face au hasard.

    S’il en est ainsi on rejoint la difficulté de l’acquis face à l’inné.

  3. Bonjour

    A propos de l’affaire du test de maladie, une des causes des mauvaises réponses est peut-être également une mauvaise compréhension de ce que signifie la fiabilité d’un test : si on ne s’est jamais demandé ce qu’était un bon dépistage, il n’est pas absurde de penser que la fiabilité puisse être définie dans l’autre sens : non pas "p(positif si malade) = 99%", mais "p(malade si positif) = 99%". Auquel cas, la réponse est triviale. Certes, vous précisez bien dans l’énoncé quelle est l’implication désignée, mais on sait qu’on confond souvent "p implique q" et "q implique p". Auquel cas, le problème relèverait moins de la compréhension intuitive du hasard que de celle de la logique.

  4. Pour l’exemple des cancers, vous écrivez:
    "Si l’on simule cela sur un ordinateur, on verra immanquablement apparaître des « taches », des zones avec un nombre significativement plus grand de cancéreux que d’autres"

    le mot "significativement" me fait tiquer ! Si un nombre significativement plus grand apparait immanquablement, c’est que le test de significativité est mal conçu. Logiquement, cela devrait se produire dans 5% des cas (ou 1%, ou 1 pour mille, suivant le choix du risque alpha)

  5. @bof: le probleme est aussi un probleme de vocabulaire, je pense. Par exemple, en assimilant aleatoire et absence de regularite, vous faites un rapprochement qui peut induire en erreur selon les situations. La definition meme de hasard est compliquee: est-ce lie a l’absence d’ordre, a l’absence de predictabilite (ce n’est pas la meme chose), ou une absence de connaissance ? Un lance de des est l’exemple typique de phenomene aleatoire, et pourtant, l’on connait tres bien les lois physiques qui regissent son comportement. Un generateur de nombre aleatoire suit souvent une regle relativement simple, et pourtant, son comportement est pratiquement aleatoire.

    C’est la notion meme de hasard qui est complexe. D’un point de vue mathematique, la discipline des probabilites est d’ailleurs relativement jeune (l’axiomatisation date de 1933, par Kolmogorov, et les probabilities n’ont ete considerees comme discipline mathematique a part entiere qu’apres la 2e guerre mondiale, quand certains mathematiciens russes ont emigre vers les EU entre autre). Chung, professeur americain, affirme dans un de ses ouvrages de reference que pendant longtemps, les mathematiciens consideraient que les propositions en probabilites etaient soit indemontrables soit triviales.

  6. @Oukilé, non, justement, quelle que soit la limite de significativité, pour un échantillon assez grand, elle sera atteinte quelque part.

  7. "tant ces biais sont ancrés dans nos psychismes
    très juste
    rassurant d’un côté
    nous sommes bien adaptés aux régularités du monde
    us, coutumes, habitudes, règles marchent bien
    en gros

    inquiétant de l’autre

    hasard comme rencontre de deux finalités indépendantes
    définition insuffisante
    les finalités sont connues et non hasardeuses

    qu’en est-il de l’apparition inattendue d’événements encore inconnus?

    faire attention
    à ne pas prendre les régularités pour acquises
    à l’apparition de "cygnes noirs" (jérôme kerviel s’est trompé de signe)
    aux limites de l’induction, des généralisations, de l’intuition
    à la distinction entre risque (calculable) et incertitude

    le non linéaire introduit déjà le "chaos" dans un univers fermé déterministe
    nous vivons dans un univers ouvert et indéterministe

    les probabilités tentent de maîtriser l’apparition aléatoire d’événements connus
    nous ne sommes déjà pas bien équipés pour les probabilités et peu habitués à faire l’effort de raisonner dans leur langage

    nous le sommes encore moins pour le "hasard"

    très perturbant

  8. @david
    "est-ce lie a l’absence d’ordre, a l’absence de predictabilite (ce n’est pas la meme chose), ou une absence de connaissance ?"

    Vous avez raison de pointé ces nuances. D’ailleur l’absence de prédicabilité est en général plutôt dénommé "chaos".

  9. @hmmm: il doit y avoir un malentendu. Si vous testez des échantillons provenant de distributions différentes ou bien si vous etstez l’uniformité d’une distribution qui n’est pas uniforme, alors je suis d’accord. Même si vous placez votre seuil de significativité très bas, vous l’atteindrez tôt ou tard (ä moins que votre test soit inadapté).

    En revanche si vous avez une distribution uniforme (de cancers dans notre exemple) et que vous testez son uniformité avec un risque alpha de 1%, alors vous avez par définition une chance sur 100 de voir quelquechose de significatif (comme un patch avec significativement plus de cancers) apparaitre.

    Notons que même avec une distribution uniforme, vous allez en effet voir des patchs avec une hautre densité de cancers apparaître, MAIS aussi impressionnants qu’ils paraissent, ils ne seront pas statistiquement significatifs, puisque précisément on peut prédire qu’ils apparaissent sous l’hypothèse H0 d’une distribution uniforme.

    Cela dit, toutes ces considérations théoriques ne signifient pas que la pollution n’engendre pas de cancers 😉

  10. @l’ami du laissez-faire: je ne suis pas physicien, je vais eviter de m’aventurer trop dans le sujet, mais il me semble que l’on denomme comme chaotique un systeme dont les lois sont connues mais dont la sensibilite aux parametres est telle que son comportement est imprevisible (systemes non lineaires, etc…). Ce n’est qu’un cas d’absence de predicabilite. Les generateurs de nombres aleatoires bases sont egalement imprevisibles (random.org, base sur le bruit radio, par exemple), mais je ne pense pas que le terme chaotique s’y applique: l’imprevisible ici s’applique plus aux proprietes statistiques du generateur qu’autre chose. Plus perturbant: le nombre pi peut etre considere comme aleatoire (ou plutot pseudo aleatoire); un message crypte est aussi aleatoire pour celui qui n’a pas les cles correspondantes pour le decodage, mais ne l’est evidemment pas du tout pour celui qui possede les cles. Dans ce dernier cas, on peut entrevoir le lien entre le caractere (pseudo) aleatoire d’un phenomene et l’information qu’il transporte.

  11. A propos de l’exemple du couple qui a deux enfants : je trouve que votre formuation ne caractérise pas tout à fait assez précisément la situation.

    En effet "vous savez que l’un d’entre eux est une fille" ne dit pas comment, concrètement, on a obtenu cette information. Or, le fait d’obtenir cette information peut être lié à la composition de la fratrie (FF, FG, GF on GG). Exemple : je sais que mes nouveaux voisins ont deux enfants. J’en croise un par hasard. C’est une fille. Donc "je sais qu’un des deux enfants est une fille". Pourtant, la probabilité que l’autre soit un garçon est bien 1/2. En effet, 8 cas sont possibles a priori, à probabiltés égales :
    – FF et c’est l’aînée que j’ai croisé (donc une fille),
    – FF et c’est la cadette que j’ai croisée (donc une fille),
    – FG et c’est l’aînée que j’ai croisée (donc une fille),
    – FG et c’est le cadet que j’ai croisé (donc un garçon),
    – GF et c’est l’aîné que j’ai croisé (donc un garçon),
    – GF et c’est la cadette que j’ai croisée (donc une fille),
    – GG et c’est l’aîné que j’ai croisé (donc un garçon),
    – GG et c’est le cadet que j’ai croisé (donc un garçon).

    Or, j’ai croisé une fille. Donc seuls les cas 1,2,3 et 6 sont possibles. Parmi eux, deux cas FF, un cas FG et un cas GF : il y a bien une chance sur deux que l’autre enfant soit un garçon. Ici, le fait que j’ai croisé une fille "surpondère" la probabilité du cas FF dans votre raisonnement, puisque ce fait n’est pas statistiquement indépendant de la composition de la fratrie. Le fait, en croisant un enfant, de croiser une fille est plus probable (et même certain) dans le cas où les deux enfants sont des filles, alors qu’il n’a qu’une chance sur deux d’arriver si la composition est GF ou FG.

    En pratique, il est difficile d’imaginer une situation où l’information "l’un des deux enfants est une fille" soit obtenue INDÉPENDAMMENT du nombre de filles dans la fratrie. (Je suis enseignant en maths et ai essayé, pour formuler un exercice, de trouver une telle situation : je n’en ai pas trouvé de naturelle et courante. Il faut par exemple trouver un fait toujours vrai dès que le couple a au moins une fille. Ce n’est pas le cas de "Je croise un des enfants. C’est une fille". On peut imaginer, dans la famille des rois de France : "le trône a un héritier direct". Ce fait est vrai dès que l’un des enfants est un garçon.). C’est seulement dans une telle situation d’indépendance que la probabilité que l’autre enfant soit un garçon est 2/3. Par conséquent, l’intuition, dans ce cas précis, peut ne pas avoir tort.

  12. Concernant le problème du couple avec deux enfants je propose un raisonnement plus simple.

    Pour changer donnons de vrais noms à ces enfants : la fillette rencontrée est Agathe.

    Si elle est l’aînée alors le 2nd enfant, le cadet, est soit Julie soit Max.

    Si elle est la cadette alors le 2nd enfant, l’aîné, est soit Emilie soit Paul.

    Au final on a 4 possibilités avec en premier l’aîné :

    Agathe – Julie
    Agathe – Max
    Emilie – Agathe
    Paul – Agathe

    On s’aperçoit que sur ces 4 paires, hormis Agathe, il y a en deux avec une fille (Julie ou Emilie) et deux avec un garcon (Max ou Paul).

    On a donc 2 paires sur 4 où le deuxième enfant est un garcon donc dans ce couple il y a 1 chance sur 2 que le 2nd enfant soit un garcon.

    Je pense que la différence avec le résultat que vous citez vient de la "fusion" des deux paires constituées uniquement de filles sous la même appellation FF.

  13. Pour bien comprendre le problème du test pour une maladie, il
    faudrait introduire les notions supplémentaires de sensibilité,
    spécifité, valeurs prédictives positives et négatives d’un test,
    de prévalence d’une maladie.
    Le raisonnement avec les données extrêmement "concentrées" de
    l’article est très ardu (en fait, il est même pratiquement
    impossible à comprendre pour quelqu’un qui n’est pas familier
    avec le domaine.)

    Sur le sujet, ce texte didactique (en anglais) est très bien:
    michaelandjudystouffer.co…

  14. Je suis une quiche sidérale en maths, ne m’en voulez donc pas pour cette question…
    Il me semble que quand j’avais rencontré un énoncé sur les probas du sexe du 2e enfant, c’était plutôt formulé ainsi : "notre premier enfant est une fille, nous allons en avoir un deuxième dont nous ne connaissons pas encore le sexe, quelle est la probabilité que ce soit encore une fille ?".
    Souvenir d’il y a 5 ans, peut-être une aberration de ma part, auquel cas je pars me cacher derrière mon rideau de douche transparent.

    (PS. ‘tain, je galère même pour répondre aux questions anti-spam…)

Commentaires fermés.