petit jeu de probabilités

27 août 2008 Alexandre Delaigue De l'économie en général 36

1- Soit une série de 10^1000007 zéros et uns, générés consécutivement de façon aléatoire, avec une chance sur deux d’obtenir l’un ou l’autre (comme si l’on jetait une pièce équilibrée un très grand nombre de fois). Combien de séquences distinctes, ne se recouvrant pas, de un million de zéros consécutifs, devrait-on s’attendre à rencontrer au minimum?

2- en fonction de la réponse à la première question, que pensez-vous de cet article?

Postez vos réponses dans les commentaires, réponse à venir.

EDIT : réponses postées.

Bravo à tous les participants au jeu. Bravo notamment à Jean-Edouard, qui a bien compris dans quel sens il faut se poser le problème.

– Première question : La question et sa réponse se trouvent dans l’excellent the drunkard’s walk, de L. Mlodinow, un bon livre pour comprendre les probabilités, et surtout, pourquoi nous ne comprenons que difficilement les probabilités. Comme certains l’ont noté, le nombre minimal de séquences d’un million de zéros est égal à zéro; par contre, ce nombre minimal a très peu de chances de se produire. Dans une série aléatoire de 10^1000007 zéros et uns, on est pratiquement certains de rencontrer au moins 10 séquences distinctes d’un million de zéros. Et ce résultat est assez contre-intuitif : nous n’imaginons que difficilement que le hasard puisse produire ce genre de résultats, qui nous semble « trop ordonné » pour être plausible. Mettez-vous à la place d’un mathématicien qui achète un logiciel générateur de nombres aléatoires, le teste, et tombe sur une série d’une centaine de zéros consécutifs : sa réaction immédiate sera de penser que le logiciel a un problème. De la même façon, si un jour au loto tombe la série 1-2-3-4-5-6, on ne manquera pas de gens pour se dire que la loterie a un problème. C’est un principe de base : confrontés à de l’aléatoire, nous avons tendance à voir de l’ordre; confrontés à de l’ordre, nous avons tendance à voir du hasard. Nous sommes très mal outillés pour identifier réellement le hasard.

– Le rapport avec la seconde question? l’article cité évoque la série d’accidents aériens survenue récemment, et interroge un pilote. Immanquablement, celui-ci lie l’évolution des accidents avec des changements survenus dans l’aviation civile, notamment la prise du pouvoir par des « financiers », ceux-ci étant, bien entendu, rétifs vis à vis de la sécurité qui coûte trop cher pour satisfaire leur insatiable appétit de profits.

Mais le problème est le suivant : même si la probabilité de risque d’accidents aériens est inchangée depuis 10 ans, même d’ailleurs si elle diminue (n’oublions pas que le trafic aérien augmente régulièrement, ce qui veut dire que de toute façon, il y aura de plus en plus d’accidents, même si le risque d’accident diminue), il est normal que, de temps à autres, se produisent des séries d’accidents. Ce problème est le même que celui de la « main chaude » en sport : même si la probabilité qu’un joueur de basket atteigne le panier reste inchangée, il y aura des moments ou un joueur réussira une impressionnante série de paniers, donnant l’impression qu’il est temporairement capable de tout réussir, que ses performances ont pour un temps changé. Une série d’évènements rares ne nous apprend pas grand-chose sur l’évolution de leur probabilité d’occurence.

Après tout, même si le risque du transport aérien avait augmenté au cours des dernières années, cela ne changerait pas beaucoup la probabilité d’avoir une série d’accidents en quelques jours; cette probabilité resterait, de toute façon, faible mais non nulle. Il n’y a donc pas tellement d’interprétation à retirer de la série récente d’accidents sur l’évolution du danger à prendre l’avion. Mais ce n’est pas comme cela que nous raisonnons. Et non, nous ne raisonnons pas de façon Bayesienne, parce que le raisonnement Bayesien serait le suivant : sachant qu’une telle séquence d’accidents est survenue, quelle est la probabilité qu’elle soit liée à une augmentation du risque, plutôt qu’au hasard? comme une augmentation du risque n’a que peu de chances de produire beaucoup plus de séries par rapport au simple hasard, nous devons en conclure que le hasard a beaucoup plus de chances d’être à l’origine de cette série plutôt qu’une élévation du risque.

Il y a même une autre façon d’être Bayesien, qui consiste à partir du fait que nous avons tendance à voir de l’ordre et des causalités dans le hasard. Sachant qu’une séquence m’apparaissant comme « anormale » est survenue, quelle est la probabilité que je l’interprête à tort comme le fruit de causalités plutôt que comme du hasard? la connaissance de nos biais cognitifs nous permet de nous dire que, contrairement à ce que notre intuition nous crie, cette séquence est probablement due au hasard. Mais nous avons bien du mal à nous en convaincre.

myo
27 août 2008 á 03:37

Question 1:

1) probabilité qu’une séquence de un million de chiffre ne comporte que des 0: 1/2^1000000

2) nombre de séquences possibles: ça dépend de ce qu’on trouve. Si aucune séquence de un million de 0 consécutifs n’est trouvée, on aura testé 10^1000007-10^6 séquences. Au contraire si toute la série est constituée de 0, on aura 10^1000001 séquences distinctes.

1+2=> donc l’espérance est au minimum de 10*2^(3.33*1000000)/2^1000000=10^2, et au maximum de 10000000*2^(3.33*1000000)/2^1000000=10^8

Mon calcul implique que l’espérance et de 100 si et seulement si on a que des 0, donc si on a 10^1000001 séquences. Ce qui ne manque de sel.

De la même façon l’espérance est maximale de 10^8 si et seulement si aucune séquence n’existe. Ce qui montre bien que mon calcul est définitivement idiot. CQFD

question 2:

Rien du tout. Je ne vois pas le rapport entre un chiffre de l’ordre de 10^1000007 et une quelconque réalité physique mesurable… ça doit être une question économique 😉
GGPP
27 août 2008 á 06:27

Ouaip. J’l’aurais pas dit comme ça, mais je le pense aussi…
Oukilé
27 août 2008 á 09:23

Vous êtes assomant, avec vos exercices de proba le matin ! Je n’arrive pas à penser à autre chose.

Alors, je dirais en moyenne 10^698970 (c’est une approximation).
Précisément, ca devrait faire 10^(1000001*(1 – ln(2)/ln(10)))

C’est amusant: si on tirait des nombres de 1 à 10 au lieu de 1 et zeros, ca nous ferait 1 sequence en moyenne. Ou bien serait-ce 9 ? Bah, j’ai du boulot, je ne calculerais pas ça aujourd’hui !
Pierre M
27 août 2008 á 09:44

Faut il rajouter que depuis la publication de ce billet on a appris le dérapage d’un airbus d’Airfrance à l’atterrissage à Montréal ;-)))

Non décidément, le moyen de transport le plus sûr, c’est bel et bien l’ascenseur !

Bon sinon pour votre problème statistique, je crois qu’il faut vous adresser à Jacques Bernoulli… moi je suis une quiche en maths.
phil
27 août 2008 á 09:49

ça dépend
peck
27 août 2008 á 10:31

Ce n’est pas une histoire de probabilités ni de statistiques.
Au minimum 1 et au maximum 10^1000000
peck
27 août 2008 á 10:32

Oups, au maximum max(10^1000000, 1000000) donc 1 million.
Lo
27 août 2008 á 10:56

Une série de 10^1,000,007 chiffres peut être découpée en 10^1,000,001 sous séries distinctes de 1,000,000 de chiffres chacune. (1^1,000,007 = 1^1,000,0001 * 10^6)

Si effectivement on considère ces séries de chiffres comme distinctes, alors on a alors 10^1,000,001 tirages. A chaque tirage il y a une chance sur 1 million de n’avoir que des zéros.

En moyenne on aura donc 10^999,995 séries de zéros (1 série pour chaque million de série)

Ce calcul ne prend pas en compte le fait que 2 séries, l’une se terminant pas des zéro, et l’une commençant par des zéros misent bout à bout peuvent comporter 1 million de zéro… donc le chiffre est certainement bien plus élevé que ça. (Mais j’arrive au bout de mes connaissances en stats).
El Croco
27 août 2008 á 11:08

La série de 10^1000007 tirages à un (tout à un) a autant de chance de sortir que n’importe quelle autre série. Donc, AU MINIMUM, il faut s’attendre à n’avoir AUCUNE séquence de 1 million de zéro consécutifs.
simplet
27 août 2008 á 11:16

1) Pas besoin de calculs compliques…

La sequence etant purement aleatoire, il existe une probabilite non nulle pour que celle-ci soit composee d’une alternance parfaite de 1 et de 0. Dans cet exemple (et il y en a beaucoup d’autres !), il n’y a donc AUCUNE sequence de 1 million de zeros.

Conclusion : on rencontrera, AU MINIMUM, zero sequences distinctes de un million de zeros consecutifs. J’ai bon ?

2) ‘vois pas bien le rapport…
Thucydide
27 août 2008 á 11:34

Tout est écrit pour la question n°1 quand à la question n°2, je pense qu’il ne faut pas se moquer du taux d’inflation au Zimbawe…;))
J-E
27 août 2008 á 12:40

La plupart des réponses à la question 1 me semblent erronées, mais je ne vais pas courir le risque de me ridiculiser devant Emmeline en proposant la mienne.

Pour la 2 l’idée me semble être que si vous faites voler des milliers d’avions tous les jours, même s’ils ont chacun une chance sur un million d’avoir un problème vous finirez forcément par en avoir 3 qui se planteront le même jour. D’ici quelques milliards d’année on observera forcément un mois où par pur hasard tous les avions essayant d’atterrir sur Orly s’écraseront les jours pairs et pas les jours impairs, sans qu’il faille en déduire quoi que ce soit.

Ca me rappelle deux choses. D’abord le problème connu du singe immortel qui tape au hasard à la machine, et finira forcément un jour par écrire la recherche du temps perdu en verlan. Ensuite l’histoire (peut-être légendaire, on en raconte tellement sur nos amis matheux) de ce professeur de maths demandant à ses élèves d’écrire sur du papier des séries de nombre aléatoires tirées par un ordinateur mélangées à des séries de leur composition. Dans 80% des cas on reconnaît facilement les séries d’origine humaine (jamais deux mêmes chiffres de suite, trop de chiffres impairs etc.), signe que nous avons du mal à appréhender les événements aléatoires.

La conclusion à laquelle nous sommes invités est donc que ces histoires de problèmes d’aviation n’ont aucun intérêt et ne veulent rien dire. Je me permets de relativiser un tout petit peu :

-Une première possibilité, qui colle bien avec l’exemple 1, est de partir de la probabilité que survienne un problème donnée par les ingénieurs. Mettons une chance sur un million. On regarde ensuite les statistiques de crash des cinq dernières années par exemple et on teste l’hypothèse que la vraie probabilité soit différente de un sur un million. Il est évidemment tout à fait possible que surviennent plusieurs crashs dans un temps réduit, et on déduit que les "séries noires" ne veulent rien dire et ne sont que le fruit du hasard.

-Une deuxième possibilité consiste à faire remarquer que nous avons implicitement supposé que la vraie probabilité de crash était constante sur les cinq dernières années. Pour bien faire, il faudrait tester qu’il n’y a pas eu de "changement de régime" depuis deux ans, un an, six mois, trois semaines etc. Plus on remonte à un temps court et plus notre série noire acquiert un poids important, quoique probablement faible.

-Une troisième possibilité consiste à raisonner de manière bayésienne. Jusqu’à il y a une semaine je pensais que les avions avaient une chance sur un million de s’écraser. Je constate la présence d’une série noire et me tiens le raisonnement suivant : bien sûr il est tout à fait possible d’observer une telle série avec une probabilité de 1 sur un million. Néanmoins, c’est un peu plus de crashs que ce à quoi je me serais attendu avec une telle probabilité et c’est plutôt mauvais signe, aussi me semble-t-il plus probable que la probabilité de crash soit en fait de 1 sur 900.000, donc je vais prendre le train. Probablement que d’ici un mois une "série blanche" me fera revenir à 1 sur un million ; mais, en attendant, prendre en compte les derniers événements n’est pas irrationnel.

Les journalistes ont-ils raison d’être implicitement bayésiens ? J’emprunte une image à Y. Gilboa : supposons qu’un homme soit arrêté pour le meurtre de sa petite amie. Sur la base des pièces à conviction et des témoignages, le juge estime qu’il n’y a pas 95% de chances que l’homme en question soit coupable et ordonne sa relaxe. C’est un statisticien classique, qui cherche à déterminer un jugement objectif. Supposons maintenant que vous soyez le père d’une charmante enfant courtisée par le même homme. Sachant que tous les hommes ont 10% de chances d’être des maniaques pervers et dangereux, le fait que celui-ci ait en plus été arrêté vous conduit à penser qu’il a peut-être 60% de chances d’être dangereux, aussi préfèrerez-vous l’écarter de votre fille. Ou alors vous avez l’esprit perverti par la théorie des jeux et préférez un maniaque qui sait se surveillé par la police à un maniaque potentiel qui croit pouvoir agir impunément.

Bref en tant qu’économiste je suis d’accord pour dire que l’information du Monde n’a aucun intérêt. En tant qu’usager des transports aériens je la lis quand même 🙂
henriparisien
27 août 2008 á 13:55

La proba d’avoir une série d’un million de zéro est de 2^(10^6) c’est-à-dire grosso modo10^300 K.

Votre série de 10^(10^6+7) zéro comporte 10^(10^6+1) série distincte (merci pour le disctincte, sans cela devient super complexe  ) de 10^6 chiffre. Cela nous fait un nombre moyen de série de 10^(700 001). Mais le calcul de Myo est plus exact.

Pour le rapport avec l’article, je ne pense pas qu’on puisse invoquer la « loi » des séries. Il s’agit plus d’une loi médiatique : On a un grave accident d’avion. La presse s’intéresse au sujet, et transforme des événements banals en « exceptionnel ».
henriparisien
27 août 2008 á 14:04

@J-E

Dans l’histoire récente, il y a effectivement eu une journée ou plus de 3 (en l’occurrence 4) avions se sont écrasé le même jour. C’était le 11 septembre 2001.

Il y a une histoire un peu équivalente dans « Casino » avec De Niro. Il y a, le même jour 3 tirages du gros lot aux machines à sous. De Niro, super énervé demande à son chef de caisse pourquoi il n’a pas arrêté le jeu dès le deuxième. Et son chef de caisse lui répond ‘mais statistiquement cela peut arriver’, ce qui la empêcher de partir à la recherche des fraudeurs.

Notre approche intuitive des proba n’est pas fausse. Elle est même parfaitement adaptée à la vie de tous les jours. Quand deux événements très improbables se produisent à un intervalle de temps rapproché, c’est – avec une très forte probabilité – que les circonstances ont changées. Et il est donc extrêmement important de trouver en quoi.
Emmeline
27 août 2008 á 14:22

@henriparisien "Quand deux événements très improbables se produisent à un intervalle de temps rapproché, c’est – avec une très forte probabilité – que les circonstances ont changé. "

Ca, c’est la théorie derrière les variables à relation avec des chaînes de Markov cachées, qui ne sont pas franchement intuitives.

Mais si on ne suppose pas une telle relation et qu’on s’en tient à une bonne vieille loi géométrique telle que l’auteur de cette note nous la suggère, ca peut aussi tout à fait être l’effet du hasard : il y a exactement autant de chances que deux accidents se produisent le même jour qu’à 5 ans d’intervalle. Donc les circonstances n’ont pas forcément changé…

Exemple : il est extrêmement (bon, disons assez) improbable de se faire contrôler dans le métro. Si vous vous faites contrôler deux fois de suite le même jour, en déduirez-vous que toute la politique "commerciale" (oui, oui, ca relève de la politique commerciale) de la RATP a changé ?
Merlin
27 août 2008 á 14:56

Autant que je sache, l’avion Spanair était un vieux MD80, les autres sont des Boeing.

Il parait clair que nous avons affaire a un complot Germano-gaulois visant a démontrer la supériorité des productions Européennes.

Quand a la question 1, je n’ai pas bien compris quel était le prix offert au gagnant.
simplet
27 août 2008 á 15:10

Mmmmm, je crains que l’on ne procede ici a une fausse analogie. Comparer un evenement purement aleatoire a un crash aerien est un peu limitant, dans la mesure ou un accident d’avion ne se produit que rarement "par pur hasard", comme la rupture inopinee d’une piece mecanique par exemple.

En matiere de securite aerienne, l’immense majorite des accidents a une cause non aleatoire, souvent d’origine humaine. Ceci qui signifie qu’un evenement hautement improbable comme un crash designe un defaut dans la chaine, defaut qu’il est necessaire d’identifier pour eviter que cela ne se reproduise.

Si, d’un point de vue probabiliste, il est bien evidemment absurde de s’etonner de la survenue multiple d’un meme evenement improbable dans un court delai, il en va autrement lorsque l’on pose comme postulat que la serie n’est pas aleatoire.

Il ne me parait donc pas completement deconnant de s’interroger sur les causes de ces accidents, l’idee generale de fond (quoique non formulee dans l’article) etant que l’on soupconne que les economies realisees par les compagnies aeriennes se font au detriment de la securite des vols.

Réponse de Alexandre Delaigue
En quoi une erreur humaine est-elle moins aléatoire qu’une rupture mécanique?
Tom Roud
27 août 2008 á 15:13

Dans le même ordre d’idée, même les scientifiques se gourent en comparant les séquences d’ADN :
http://www.lemonde.fr/sciences-e...
Léna
27 août 2008 á 16:33

"En matiere de securite aerienne, l’immense majorite des accidents a une cause non aleatoire, souvent d’origine humaine."

In fine c’est forcément une erreur humaine : si une pièce casse, c’est qu’elle a été mal conçue / mal testée / mal entretenue / mal contrôlée.

Maintenant on oublie que tous les vols qui se passent bien et tous les accidents évités le sont grâce à des humains aussi.

Sinon, c’est totalement le moment de prendre l’avion, car on vient d’avoir plein de données sur ce qui ne va pas actuellement et qui va être corrigé.

Et pour le pilote qui se plaint des "financiers", il se plaint d’Air France qui a les plus gros profits (j’en doute, ce sont eux qui payent le plus les pilotes) ou des milliardaires lançant des lows costs et employant ses pilotes (hérésie suprême !) à faire le ménage dans l’avion ?

Je trouve par ailleurs que la question 1) fait une excellente question anti-spam.
henriparisien
27 août 2008 á 16:39

@emmeline,

J’aime bien votre exemple des contrôleurs de métro. Je l’ai mis en application quand j’étais jeune et j’ai beaucoup à dire dessus 🙂

Le modèle implicite que vous faites est j’ai x % (x étant de l’ordre de 4 ou 5 %) de rencontrer un contrôleur chaque fois que je prends un métro. J’ai donc x^2 % de chance de rencontrer deux fois un contrôleur, c’est-à-dire de l’ordre de 2 chances sur 10 000.

Mais la RATP ne contrôle pas aléatoirement ces lignes pas plus que vous n’empruntez une ligne au hasard. Elle a tendance au contraire à concentrer pendant une semaine ou deux ses équipes de contrôleurs sur une seule ligne. Donc si vous vous voyez un contrôleur le matin, vous avez intérêt à prendre votre billet le soir.

De même, les contrôleurs ne demandent pas leur billet à tous les passagers. En moyenne, ils contrôlent un voyageur sur 10 ou sur 5 qu’ils croisent. Vous pouvez donc vous dire ma proba de contrôle est de 5 % x 10 (ou 20 %) donc de l’ordre de 0,5 ou 1 %. Mais c’est là aussi un mauvais raisonnement : les contrôleurs arrêtent 1 voyageur sur 5 ou sur 10, mais ce choix n’est pas aléatoire. Et c’est ainsi que, fraudant pour la première fois, votre nervosité vous trahit et qu’on vous demande votre billet 🙂

Tout ce développement, pour dire qu’appliquer à des cas de vie courante, les calculs de proba ne servent pas à grand-chose. Parce qu’on essaye de modéliser des processus qui n’ont rien d’aléatoire mais qui fonctionne très fréquemment avec des variables cachées.

Réponse de Alexandre Delaigue
Pas d’accord. Le vrai problème que nous avons, c’est que nous passons notre temps à prendre des phénomènes aléatoires pour des phénomènes déterminés. Et c’est beaucoup plus nuisible.
Sam Hocevar
27 août 2008 á 17:44

1) L’énoncé est vraisemblablement faux. Un évènement qui a une chance sur N de se produire se produit en moyenne une fois sur N. Eh oui. Donc dans un tirage de 10^1000007 uns et zéros, on trouve (en moyenne) aux alentours de 10^699000 séquences d’un million de zéros, soit autant que chacune des autres séquences de un million, et certainement pas ce ridicule chiffre de 10. Peut-être vouliez-vous écrire 2^1000007.

2) Comment pouvez-vous affirmer que « même si le risque du transport aérien avait augmenté au cours des dernières années, cela ne changerait pas beaucoup la probabilité d’avoir une série d’accidents en quelques jours » sans la moindre justification mathématique ? La démonstration se base énormément sur cette simple phrase sortie de nulle part, on aurait aimé la voir expliquée.

3) De même, d’où sortez-vous que « le trafic aérien augmente régulièrement, ce qui veut dire que de toute façon, il y aura de plus en plus d’accidents, même si le risque d’accident diminue » ? Sans une étude du comportement de ces hausses et baisses, ce n’est qu’une phrase en l’air sans intérêt puisqu’elle peut être vraie, fausse, ou même changer à long terme.

Réponse de Alexandre Delaigue
sur le 1), j’ai donné le minimum (certes, c’est exprimé de façon peu claire) de telles séquences que l’on peut s’attendre à obtenir, pas la question du nombre moyen (les chiffres sont dans le bouquin cité, lui-même citant George Spencer-Brown, et indiquant que le nombre de 10 est une forte sous-estimation). Pour le 3), il est assez évident que si le trafic aérien augmente de 5% par an, même si le risque d’accident diminue de 1% par an, le nombre annuel total d’accidents va augmenter. Dans ces conditions, la hausse du nombre des accidents ne nous informe en rien sur le risque d’accident.
Oukilé
27 août 2008 á 18:28

Un autre exemple de ce genre de coincidences, ce sont les ‘messages’ que certains analystes ont trouvé dans la Torah (genre la date de l’assasinat d’Isaac Rabin). Ces analystes avaient omis quelques zeros de leurs calculs de probabilité histoire de dire que ces coincidences ne pouvaient pas être le fruit du hasard.

A propos de zeros omis, j’ai du mal à comprendre comment on peut n’obtenir ‘que’ 10 sequences d’un million de zeros dans notre problème initial. J’ai beau refaire les calculs, j’en prévois…. beaucoup plus que ca. Bizarre.
Thibaut
27 août 2008 á 21:20

Comment montre-t-on qu’on est presque certain de tomber sur au moins 10 séries de la sorte svp ?
Jules de chez smith en face
27 août 2008 á 22:15

J’avais fait un post sur le sujet des crash en série…
delendaportoalegre.blogsp…
Même conclusions…
henriparisien
27 août 2008 á 22:45

J’appuit Oukilé et Sam Hocevear. Il y a une erreur soit dans l’énoncé, soit dans la réponse. Le nombre que j’attends tourne autour de 10^700 000.

Sur les phénomènes aléatoires, il y a beaucoup à dire. Ils existent : le tirage du loto en est un. Un accident d’avion, non. Il résulte dans le cas du 11 septembre, de la volonté des terroristes, dans le cas de Madrid du défaillance ou n’importe quoi d’autres, l’enquête le dira.

On peut bien sûr faire des statistiques, et considérer qu’un avion de ligne d’une compagnie occidentale se crash tous les million de vols soit grosso modo tous les ans. On peut en tirer comme conclusion qu’on a une proba de survenance d’un crash de 1 / 10^6.

On ne peut pas du tout dire que la proba qu’il y est deux crash dans une journée est de 1 / (365 ^2). La preuve : le 11 septembre qui aurait une probabilité d’apparition de 1 / 17 milliards.

En clair, on a aucune information sur l’indépendance des événements.
J-E
28 août 2008 á 00:20

Si vous êtes bayésien et que vous voyez beaucoup d’accidents de suite, vous en déduirez qu’il y a peut-être 95% de chances que ce soit du pur hasard, mais avec les 5% de chances restant vous modifiez vos "priors" quand même, bien que probablement très peu. Je maintiens donc qu’il est tout à fait bayésiennement rationnel de suivre l’actualité des crashs. Je ne suis pas sûr qu’il y ait vraiment plusieurs façons d’être bayésiennement rationnel, et dans tous les cas l’approche bayésienne prend bien en compte le fait que la répétition d’un même événement peut parfaitement être aléatoire.
Oukilé
28 août 2008 á 08:35

@J-E: je dirais qu contraire qu’il y a une mulitiude de facon d’être Bayésiennement rationnel. En effet, la méthode Bayésienne n’est qu’un processus mathématique sur la base d’un modèle qui est censé décrire le monde aux alentours. Et il y a une multitude de manières de créer ce modèle.

Par exemple, l’occurence de deux accident peut vous amener à revoir à la hausse votre estimation de la probabilité du crash. Certes, mais comment allez vous recalculer cette probabilité ? Allez vous considérer qu’il y a un million de vols par semaines, donc deux crashs dans une semaine donnent une probabilité de 1/500 000 ? Mais alors, les semaines oû il n’y a pas de crashs, la probabilité serait de zero ?
Allez vous, au contraire, vous baser sur une probablité calculée à partir de dix années de statistiques – en excluant ces deux derniers crashs, puis calculer la probablité que cette probabilité aie changé recemment ? Mais alors il vous faut un a priori sur la probabilité de changement de la probabilité.
Allez vous chercher à voir si une loi de poisson unique peux expliquer les crashs sur les 10 dernières années ?
Etc etc…

Il n’existe pas de ‘modèle Bayésien’ universel et mathématiquement parfait du monde. En effet, la mise en place d’un modèle ne relève pas des mathématiques. C’est le travail d’un économiste, ou d’un physicien, ou d’un assureur, et il comporte nécessairement des hypothèses sur la manière dont fonctionne le monde. Le travail du mathématicien se limite à ‘faire tourner’ le modèle. Le modèle peut tourner de manière rigoureusement exacte, mais cela ne veut pas dire qu’il aie la moindre capacité à représenter le monde qui nous entoure.
Sam Hocevar
28 août 2008 á 10:51

"j’ai donné le minimum (certes, c’est exprimé de façon peu claire) de telles séquences que l’on peut s’attendre à obtenir"

Navré, mais "le nombre que l’on peut s’attendre à obtenir" ça ne veut vraiment rien dire : soit c’est le nombre minimum qu’on est certain d’obtenir (dans ce cas, zéro), soit c’est le nombre moyen (dans ce cas, dans les 10^700000), soit c’est le nombre minimum qu’on est sûr d’obtenir avec une certaine probabilité, et dans ce cas, il faut expliciter la probabilité, parce que sans me mouiller je suis sûr à 99.9999999% d’obtenir 10^60000 séquences de 1 million de zéros. Je pense que votre bouquin se plante, ou que vous en paraphrasez maladroitement les conclusions. "Forte sous-estimation", c’est peu de le dire : c’est comme si on lançait un milliard de milliards de milliards (répétez "milliards" environ 50 000 fois) de dés à six faces en annonçant fièrement s’attendre à obtenir un minimum de 10 "six".

"il est assez évident que si le trafic aérien augmente de 5% par an, même si le risque d’accident diminue de 1% par an, le nombre annuel total d’accidents va augmenter"

Il est tout aussi évident que si le trafic aérien augmente de 1% par an et le risque d’accident diminue de 5% par an, le nombre total d’accidents va baisser. Je réitère donc ma question : qu’est-ce qui vous amène à conclure que "de toute façon, il y aura de plus en plus d’accidents" ?
david
28 août 2008 á 11:10

@henri parisien: le caractere aleatoire n’a en theorie rien a voir avec l’absence de cause. Lorsque vous dites que le loto est purement aleatoire, et un crash ne l’est pas, vous associez plus ou mois causalite et caractere aleatoire (pourquoi le lote serait aleatoire ? On comprend tres bien toutes les lois gouvernant les boules). Il y a aussi le melange aleatoire / uniforme, et causalite/correlation qui s’imisce la dedans.

La notion d’aleatoire est tres perturbante: c’est a ma connaissance la seule discipline mathematique dont les fondamentaux sont tres mal compris, y compris parmi la majorite des scientifiques.

Le but du post, si je comprends bien, c’est de denoncer les explications et rationalisations (souvent vaseuses) d’un phenomene purement aleatoire. Mais finalement, le vrai probleme est ce que l’on entend par aleatoire; dire qu’un evenement est probablte (presque sur) a une signification mathematique tres precise, mais son association au reel est tres difficile a faire. Par exemple, la notion de nombre normal est tres perturbante:

en.wikipedia.org/wiki/Nor…

On peut prouver que presque tous les nombres sont normaux (i.e on a probabilite 1 en tirant uniformement), mais il est tres difficile d’en construire un (on n’en connait que quelques uns).

Personellement, je me mefie de plus en plus des statistiques, car c’est un outil que l’on ne comprend encore que tres mal; c’est aussi la seule discipline mathematique tres utilisee et qui a deux axiomatique tres differentes (et incompatibles). C’est une premiere dans l’histoire scientifique moderne, non ?
Elias
28 août 2008 á 13:51

@henri parisien
comme David je pense que votre erreur est de traiter le hasard comme une sorte de facteur causal alternatif susceptible de faire tomber les avions comme le font les défauts d’entretien les erreurs de pilotage ou les attentats.

Si dans une même semaine un avion s’écrase à la suite d’un attentat, un autre du fait d’une défaillance mécanique, un troisième du fait d’une erreur de pilotage, chacun de ces événements a une cause déterminée et identifiée mais on pourra dire que cette série d’accident est le fait du hasard puisqu’elle est est le produit de séries causales indépendantes (cf. Cournot). Pour qu’on puisse dire que la série n’est pas dûe au hasard il faudrait pouvoir identifier un même facteur causal ayant contribué aux différents accidents (par exemple une politique de la compagnie aérienne ayant affecté à la fois l’entretien des appareils, la formation des pilotes et les mesures de sécurité à l’embarquement).
henriparisien
28 août 2008 á 14:36

@david

Le tirage du loto me semble assez proche d’un chaos déterministe : fr.wikipedia.org/wiki/Th%…
myo
28 août 2008 á 15:51

@ Alexandre Delaigle

3 commentaires sur vos réponses

1) certainement vous avez raison de dire que nous autres humains ne sommes pas très bon pour détecter ou produire du hasard.

2) néanmoins, votre appartenance à la religion baysienne est un peu trop marquée. 😉

Comme souligné par henriparisien, parmi les causes possibles d’un accident il y en a qui introduisent des corrélations dans les séries. De fait, la plupart des systèmes complexes connus ont un bruit coloré plutôt que le bruit blanc baysien.

archlab.gmu.edu/cogdyn/pu…

Devant l’occurrence d’un évènement peu probable, il n’est donc pas normal (sic) de considérer à priori que c’est le produit d’une série aléatoire baysienne: il est plus futé de parier qu’il va y en avoir une série! (ou du moins qu’une série est plus probable que ce que les adeptes baysiens pensent)

3) encore une fois, une série de 10^1000007 évènements, ça n’existe pas. Vous sous-estimez grandement la taille de ce nombre! 🙂
myo
28 août 2008 á 16:25

Petit calcul pour illustrer le point 2:

Sachant que
– un avion fait normalement 10^5 cycles de vol
– Airbus en a vendu 5000 en 2007
– la proba d’un crash est supposée être de 10^-9. Disons 10^-6 pour être optimiste. En toute Baeysianité, la probabilité de 4 crashs consécutifs est alors de 10^-24.

=> on en conclu qu’il y a du avoir au maximum 10^10 cycles de vol depuis les début de l’aviation, et que l’espérance d’un quadruple crash à la 11 septembre était au plus de 10^-14… toujours si on en croit en saint Bayese.

Si on ajoute que la probabilité d’un géocroiseur faisant disparaitre l’humanité cette année est de 10^-8, il devient plus ardu de croire Bayese 🙂
Emmeline
28 août 2008 á 16:57

"la proba d’un crash est supposée être de 10^-9. Disons 10^-6 pour être optimiste". Vous avz une drôle de facon d’être optimiste, vous ! A moins que vous ne soyez entrepreneur de pompes funèbres ?

(Si je puis me permettre… "Bayese" s’écrit en fait Bayes, comme Thomas, mathématicien et homme d’Eglise – le "saint", lui, était juste 🙂 – anglais du XVIIIe).
myo
28 août 2008 á 17:27

@Emmeline

Lol! Je voulais dire "optimiste pour le raisonnement Baysien" parce que si on prend 10^-9 la barque se charge encore plus.

Que Bayes me fouette, merci pour la typo 😉
J-E
28 août 2008 á 21:41

@Oukilé :

Qu’il y a une multitude de façons de bâtir un modèle ne fait guère de doutes, mais je ne vois pas bien en quoi cela implique qu’il existe une multitude de façons d’être bayésiennement rationnel, ou alors dans un sens faible. Ce que je voulais dire c’est que parmi les différentes axiomatisations possibles du comportement rationnel, beaucoup d’axiomes peuvent changer mais généralement l’axiome bayésien, s’il est présent, n’est disponible qu’en une seule variante : on met à jour ses croyances en utilisant la loi de Bayes. En ce sens je ne comprends pas très bien pourquoi l’hôte de ces lieux semble distinguer une rationalité bayésienne naïve d’une autre qui prendrait en compte la possibilité de voir de l’ordre là où il y a du hasard.

Prenons un exemple plus simple. On me met devant un tas de pièces dont on me dit que certaines sont équilibrées et d’autres tombent toujours côté pile. Je prends une pièce au hasard dans le tas, je la lance deux fois et tombe deux fois sur pile. Quelle probabilité assigné-je au fait qu’il s’agisse d’une pièce truquée ?

-Si je suis naïf, un peu dans le sens des gens qui accordent un trop grand poids aux séries d’accidents, je vais dire que la probabilité qu’il s’agisse d’une pièce truquée et de 100%, dans l’idée que le résultat "normal" est une fois pile une fois face.

-Mettons que je sois bayésien. Je peux par exemple me dire qu’étant donné le peu de renseignements à ma disposition je vais considérer qu’il y a a priori 50% de pièces truquées et 50% de pièces équilibrées. Ce que vous me dites, et je suis parfaitement d’accord avec vous, c’est que je pourrais tout aussi bien considérer qu’il y a 90% de pièces équilibrées, que le nombre de pièces truquées suit une loi de probabilité bizarre ou que sais-je.
Ce que je disais pour ma part, c’est que si je retiens l’hypothèse qu’il y a 50% de pièces truquées l’unique conclusion que je peux tirer si je suis bayésien vient de l’application de la loi de Bayes, qui me dit que la pièce est fausse avec une probabilité de 4/5 . En étant bayésiennement rationnel je ne suis pas naïf, je comprends très bien qu’une pièce équilibrée peut donner deux pile (avec une probabilité 1/4). Mais je ne considère pas non plus que l’information donnée par les lancers n’a pas d’importance (en quel cas je garderai ma probabilité 1/2).

Je ne vois pas, toujours en retenant ces a priori, d’autre façon de procéder bayésiennement. Or notre hôte a l’air de distinguer deux approches bayésiennes : une qui donnerait 4/5, et l’autre avec laquelle on garderait 1/2. Ou alors une qui adopterait 1 et l’autre 4/5. Je ne vois pas très bien comment 1/2 et 1 peuvent être compatibles avec la rationalité bayésienne, ou alors c’est suffisamment révolutionnaire pour mériter de plus amples explications.

Commentaires fermés.

éconoclaste

L'économie pour les nuls et les autres. Depuis 1999.

petit jeu de probabilités

36 Commentaires