Le problème avec la courbe. Édition Covid-19

Dans le cadre d’un cours que j’ai réorganisé compte tenu des évènements actuels, j’ai mis le nez dans les bases des modèles épidémiologiques. Pourquoi faire ça ? Pas du tout pour jouer à l’épidémiologiste et vous expliquer ce qu’il va se passer dans le futur. Simplement parce que pour mieux comprendre les enjeux économiques du Covid-19, ces modèles sont utiles, en ce sens qu’ils donnent des paramètres à inclure dans les modélisations économiques ou de politiques publiques. C’est par exemple ce que fait en France Christian Gollier depuis quelques semaines pour évaluer les coûts nets des différentes stratégies envisageables. Ce billet n’a pas vocation à donner autre chose qu’un résumé et n’a aucune prétention scientifique exhaustive. Le degré de rigueur du formalisme est limité au minimum. Si vous voulez des présentations plus solides, la toile en regorge. En conclusion, je donne un avis personnel, conforme au message contenu dans Nos phobies économiques : comprendre un peu mieux, c’est toujours ça de pris face aux situations anxiogènes. Mais sûrement pas une panacée.

Le modèle de référence

Ce modèle est appelé modèle SIR (Susceptible, Infected, Retired). On doit ce modèle à William Ogilvy Kermack et Anderson Gray McKendrick, qui en ont formulé sa première version en 1927. C’est une version élaborée de ce modèle qui sert notablement de boussole aux autorités publiques de la plupart des pays du monde durant l’épidémie de Covid-19. Au travers notamment des publications de l’épidémiologiste Neil Ferguson, de l’Imperial College of London.

Il part d’une population de taille N dans laquelle on distingue trois catégories (compartiments) : les individus sains (en nombre S), les individus infectés (I) et les individus retirés (guéris ou morts, R). Dans une épidémie, il existe une probabilité donnée de passer d’un état à l’autre. Chaque jour, des gens sains sont infectés et des gens infectés meurent ou guérissent.

Plusieurs paramètres vont déterminer le rythme d’évolution des trois populations et donner ainsi l’évolution de l’épidémie. On peut énumérer : la probabilité que lors d’un contact avec une personne infectée une personne saine soit infectée, la probabilité qu’un individu sain entre en contact avec une personne infectée et contracte le virus, la vitesse de guérison, le taux de décès, etc.

Chacun de ces éléments peut être affiné. On peut par exemple distinguer les populations selon l’âge, le sexe, la zone géographique, etc. sachant que ces sous-populations ne réagiront pas forcément de la même façon au virus ou que la probabilité qu’elles se rencontrent est plus faible si elles font partie de groupe différents. On peut ajouter un compartiment prenant en compte la durée d’incubation et les porteurs asymptomatiques (modèle SEIR). On peut adjoindre des probabilités à certains paramètres et introduire l’effet du hasard (modèles stochastiques). On peut, pour les épidémies durables, ajouter des paramètres démographiques (natalité et mortalité autre que liée à l’épidémie). On peut également introduire dans les modèles les politiques publiques, telles qu’un confinement (qui réduira la probabilité de contact, par exemple), qu’il soit généralisé ou appliqué uniquement aux individus infectés ou considérés comme tels. On a ainsi les bases permettant de comprendre comment l’épidémie devrait se comporter et ce qui peut être fait pour modifier son évolution.

Une présentation un peu formalisée du modèle

Ceci est la forme la plus simple possible du modèle SIR. L’usage de quelques équations pour présenter le modèle est, me semble-t-il, une aide plus qu’une difficulté, même pour ceux qui ont du mal avec ça.

Les variables et paramètres sont décrits ci-dessous.

St, les personnes saines au jour t.
It, les personnes infectées.
Rt, les personnes retirées (guéries ou décédées).
N la population totale, supposée constante ici.
À tout instant, par construction, on a St + It + Rt = N

Le schéma général du modèle peut être résumé ainsi :

βt est le taux de contagion au temps t. Il donne le taux auquel les individus sains rencontrent des individus infectés et développent la maladie. Il dépend de la probabilité de contracter la maladie lors d’un contact et des fréquences de contact entre individus dans la population, qu’ils soient sains ou infectés.

νt est le taux de retrait. Il traduit le pourcentage d’individus qui passent de l’état I à l’état R chaque jour. 1/ν donne le nombre de jours pour sortir de l’état I, soit le nombre de jours de maladie avant la guérison ou le décès.

Le modèle est un modèle d’équations différentielles. J’en fais une présentation en temps discret ici, qui me semble plus facile à lire pour ceux qui ne sont pas familiers avec les notations différentielles. L’évolution des différentes catégories est résumée ainsi :

St+1 = St – βtItSt/N

Un jour donné, le nombre de personnes saines est égal au nombre de personnes saines la veille, moins celle qui ont été infectées.

Le nombre de nouveaux cas d’infection βtItSt/N est le produit de βt, St et It/N.

It/N donne la proportion de contacts d’un individu avec un individu infecté. Ou la probabilité qu’un contact donné soit réalisé avec un individu infecté. C’est une probabilité identique pour n’importe qui, ce qui peut poser problème pour le réalisme du modèle. On en parle un peu plus loin.

Pour une fréquence de contacts typique dans la population (résumée dans βt), un individu va donc avoir une probabilité d’être infecté qui est βt × It/N (probabilité de rencontrer quelqu’un, qu’il soit infecté et lui transmette effectivement la maladie).

Lorsqu’on applique cette probabilité à toute la population des individus sains St, on a donc un nombre de nouveaux cas St × (βt × It/N).

It+1 = It + βtItSt/N – νtIt

Le nombre de personnes infectées un jour donné est celui de la veille, plus celles qui ont contracté la maladie le jour donné (βtItSt/N), moins celles qui se retirent, guéries ou décédées (νtIt).

On peut noter au passage que le nombre de nouveaux cas quotidien est It+1 – It = βtItSt/N – νtIt

Rt+1 = Rt + νtIt

Les personnes retirées un jour sont celles qui l’étaient la veille, plus celle qui sont retirées ce jour.

On va pouvoir parler d’épidémies si le nombre de personnes infectées augmente, donc si le nombre de nouveaux cas quotidiens It+1 – It = βtItSt/N – νtIt  est positif.

Dans ce cas, on a βtItSt/N – νtIt > 0

D’où : βtSt/N > νt, que l’on peut encore réécrire :

βtSt/ νtN > 1

βtSt/ νtN est le « nombre de reproduction », noté R (à ne pas confondre avec R pour « retiré »).

Le désormais célèbre « nombre de reproduction de base » R0 = β0S0/ ν0N a une signification particulière : c’est le nombre d’individus qui seront infectés suite à l’introduction d’un individu malade dans une population totalement saine, c’est-à-dire lorsque S0 = N. En d’autres termes, il indique à la base de l’épidémie le nombre de personnes qu’un individu peut contaminer. On sait que pour le Covid-19 ce chiffre est compris entre 2 et 3. Finalement, pour S0 = N, on peut déduire R0 = β0/ ν0

Le nombre de reproduction de base sera donc d’autant plus élevé que le taux de contagion initial β0 est élevé et que le taux de retrait initial ν0 est faible. Et inversement.

Le déclin de l’épidémie arrive lorsque R passe sous 1 (voir plus loin).

Pour estimer l’évolution de l’épidémie, il est impossible de déterminer analytiquement une équation du type It = f(t), où f serait une fonction qui donnerait le nombre de personnes infectées au cours du temps, en fonction des paramètres du modèle. Mais on peut faire des simulations numériques. Cela signifie par exemple que l’on va introduire un patient 0, donner à I0 la valeur 1, en déduire que S0 = N – 1 et calculer les valeurs de S, I et R au fil du temps grâce aux équations dont on dispose (la valeur des paramètres étant connue).

Notons qu’il est pratique de fixer la valeur de N à 1. Les grandeurs S, I et R s’interprètent alors comme un pourcentage de la population totale.

On obtient alors des courbes de ce type-là (notez que les nombres sont arbitraires et n’ont aucune signification).

Courbe épidémique. Nombre de nouveaux cas chaque jour

Part de la population infectée chaque jour

Pourcentage cumulé de la population touché par la maladie sans adaptation

La courbe épidémique, qui représente le nombre de nouveaux cas au fil du temps sans interventions humaines, suit d’abord un profil relativement plat, puis exponentiel, atteint un pic et le nombre de nouveaux cas diminue. Dans ces conditions, toute la population est touchée.

Ces différents stades peuvent s’expliquer. Au début, le nombre d’individus infectés est assez faible. Chacun ne pouvant infecter qu’un nombre de personnes limité, du fait d’un nombre de contacts quotidiens eux aussi limités, le nombre de nouveaux cas progresse peu, en dépit d’un grand nombre de personnes saines à contaminer.
Dans la phase exponentielle, le nombre de personnes contagieuses est élevé, tout comme le nombre de personnes à contaminer. Le nombre de nouveaux cas augmente donc brutalement.
Enfin, arrive un moment où le nombre de personnes restant à contaminer est suffisamment faible pour que le nombre de nouveaux cas diminue, en dépit du grand nombre de personnes infectées.

Le taux de retrait νt a également un impact sur la courbe. Plus il est élevé, plus le nombre de nouveaux cas est faible, sachant que pour un jour donné, le nombre d’infectés est plus réduit.

En pratique, la courbe d’une épidémie est aplatie par les comportements humains. Lorsque la conscience de l’épidémie se répand dans la population, toutes sortes de mesures de protection (privées ou publiques) sont prises, réduisant le nombre des contacts entre individus sains et individus infectés. Le taux de contagion βt diminue. C’est également ce qui arrive lorsqu’un vaccin est administré à la population. Lorsqu’un traitement existe et est administré aux individus infectés, il réduit également le nombre de cas, en augmentant le taux de guérison, ce qui réduit de fait le nombre de personnes contagieuses pour un jour donné.

Les politiques de santé publique vont utiliser ces courbes pour prendre les mesures adéquates. Elles vont par exemple comparer le nombre de patients malades au fil du temps aux capacités de traitement du système de santé. Lorsque ces capacités sont insuffisantes, elles vont chercher à « aplatir la courbe » (expression bien connue maintenant) pour maintenir un flux de nouveaux malades supportable pour les hôpitaux. C’est typiquement ce qui est fait lorsque des mesures de confinement sont prises.

« Aplatissement » de la courbe

Les limites des modèles de type SIR

Pour une longue présentation de ces limites, je vous recommande la lecture de ce texte de Gianluca Manzo.
La première limite évidente de ces modèles est qu’elle repose sur une estimation de certains paramètres purement médicaux, comme le taux de contagion ou la vitesse de guérison. Dans le cas du Covid-19, beaucoup d’incertitudes demeurent encore sur la capacité réelle du virus à se propager d’un individu à l’autre (durée de contagiosité des micro-gouttelettes dans l’air, contagiosité du virus déposé sur les surfaces matérielles, etc.). Les éventuelles mutations du virus ne sont pas non plus capturées, ce qui limite potentiellement la validité prédictive du modèle dans le temps. Il en va de même pour la contagiosité des enfants (un sous compartiment possible de chaque catégorie), encore imparfaitement estimée ; et initialement très surestimée semble-t-il (du moins, est-ce la vérité du moment…). L’immunisation définitive des patients guéris n’est pas encore prouvée à ce jour ; ce qui met tout simplement en doute le schéma de transition S-I-R, puisque des individus retirés pourraient repasser dans le compartiment des individus sains.

L’autre souci de taille porte sur la modélisation des interactions sociales. On peut dire grossièrement qu’un modèle SIR part du principe que les interactions des individus dans leur milieu social sont identiques en moyenne. La diffusion de l’épidémie est donc passablement homogène dans l’ensemble de la population. Or, les travaux sur la sociologie des réseaux montrent que les interactions sociales sont un phénomène plus complexe. Il y a par exemple des individus qui ont très peu d’interactions sociales, dans un groupe limité. Alors que d’autres ont de nombreuses interactions, à l’intérieur de groupes différents. Dans une population d’ensemble, les sous-groupes peuvent être peu connectés entre eux ou nourrir des interactions par le biais d’individus à l’interface de ces groupes. Ces éléments-là ne sont pas pris correctement en compte dans les modèles SIR.

Avant de préciser ces points, on peut observer par exemple que l’épidémie de Covid-19 montre une concentration géographique des cas assez forte dans la plupart des pays touchés. L’explication immédiate réside dans les mesures de confinement qui, en isolant les communautés, ont pu limiter la propagation au-delà des territoires les premiers touchés. Néanmoins, on constate également cette concentration dans les pays n’ayant pas eu recours, ou plus faiblement, à des mesures de confinement. De nombreuses explications peuvent être envisagées (un auto-confinement partiel des populations par exemple), mais cette observation montre que la structure des réseaux sociaux a une importance. Sur ces questions, vous pouvez lire les billets au fil de l’eau d’Olivier Bouba-Olga.

Deux mots sur les graphes de réseaux sociaux

Sur ce qui suit (et d’autres choses), je vous recommande la lecture du chapitre 3 de l’ouvrage de Matthew O.Jackson, The Human Network, disponible gratuitement en ligne. L’idée que si on augmente le nombre de connexions entre individus dans un réseau, la possibilité d’aller d’un point du réseau à un autre sans interruption est accrue est intuitive. Quand on ajoute des nœuds de communication dans un réseau, on accroît logiquement cette possibilité. Mais ce qui est spectaculaire est que le nombre de connexions à ajouter pour pouvoir parcourir presque tout le réseau peut être très réduit. Dans les figures suivantes (adaptées du livre de Jackson), dans le réseau (a) le nombre moyen de connexion par membre (appelé degré moyen du réseau) est de 0,5. Les possibilités de parcourir le réseau sont très limitées. Passer seulement de 0,5 contact par individu à 1,5 (cas du réseau (b)) accroît significativement les possibilités. À 2,5 dans (c), tout le réseau est presque parcouru. La propagation d’une maladie y est beaucoup plus simple.

Quelles conclusions en tirer ? D’abord, la structure des réseaux importe. Dans le réseau (b), par exemple, une partie notable de la population est épargnée (en haut à gauche). À nombre de contacts équivalents mais différemment répartis, ce ne serait pas forcément le cas. Ensuite, il suffit de peu de contacts par individus pour propager de proche en proche une maladie. Enfin, les individus qui sont au centre des réseaux (qui ont un plus grand nombre de contacts que la moyenne) peuvent être des vecteurs de maladies très efficaces en interconnectant des groupes isolés. Mais leur présence n’est pas indispensable pour propager une épidémie.

Retour sur R0

Le degré moyen du réseau est en fait le fameux « nombre de reproduction de base », ou R0. Il indique le nombre de personnes qu’un individu infecté peut directement contaminer. Quand R0 est inférieur à 1, chaque individu infecté va contaminer moins d’une personne en moyenne. Les personnes contaminées, à leur tour en contamineront moins d’une et ainsi de suite. De sorte que lorsque R0 est inférieur à 1, une épidémie ne peut apparaître, puisque le nombre de personnes contaminées un jour sera inférieur à celui de la veille. Le nombre de malades suit une suite géométrique décroissante. Quand chaque personne contamine plus d’une autre personne, c’est l’inverse qui se passe. La suite est croissante, avec un profil exponentiel croissant. Bien sûr, dans ce cas, comme on l’a vu dans le modèle SIR, le fait que des malades guérissent ou meurent (et ne soient plus contagieux) limite cette évolution, de sorte que la courbe connaît une inflexion qui traduit le ralentissement de l’épidémie si on étudie son profil complet dans le cadre d’un modèle SIR.

On a : nombre de nouveaux cas = nombre de cas la veille x R0

Nt+1 = Nt x R0, qui équivaut à Nt = N0xR0t
Où Nt est le nombre de nouveaux cas le jour t.
Et N0 est le nombre de malades au début (jour 0).

Les deux graphes suivants illustrent cela. Avec 1 000 malades au départ, selon le taux de reproduction, l’épidémie s’éteint ou, au contraire, explose.

Nombre de nouveaux cas quotidiens selon R0

Un R0 n’est pas une grandeur uniquement liée à la maladie. Un R0 dans un réseau social (donc une population spécifique) donné peut ne pas avoir le même impact que dans un autre réseau. Dans le cadre du modèle SIR, ceci n’est pas assez pris en compte, le modèle de base reposant sur des contacts moyens. Des versions plus sophistiquées du modèle distinguant des sous-compartiments peuvent néanmoins affiner le modèle et le rendre plus réaliste, mais difficilement au point de pouvoir modéliser parfaitement la propagation de l’épidémie.

Conclusion : je ne sais rien

Mettre un peu le nez dans ce genre de modèles permet une chose : mieux mesurer notre ignorance. Quand on prend en compte les diverses incertitudes (ou risques) attachées aux éléments qui permettent d’arriver à une prédiction valide sur l’évolution de l’épidémie et ce qu’il faudrait faire pour aboutir à une politique optimale, on voit bien que toute position radicale relève de la foi plus que de la science ou de l’expertise. Quand je dis cela, c’est essentiellement du point de vue du non spécialiste. Je ne doute pas un seul instant que les vrais experts en épidémiologie, qui utilisent des modèles d’une grande richesse, puissent former des prédictions, ou au moins des scénarios, assez pointus pouvant apporter une aide certaine. Fidèle au « Je préfère avoir vaguement raison que parfaitement tort » de Keynes, je crois en l’utilité de ces modélisations plus qu’au fameux « bon sens », qui ne sert presque à rien dans une situation pareille.  Mais même les experts sont dans une situation bien précaire, me semble-t-il. Que dire alors des décideurs ? Si je devais décider de rouvrir des plages, d’autoriser des déplacements au-delà de x kilomètres, de choisir la distance exacte entre écoliers, de rouvrir les salles de théâtre, d’imposer ou non le port du masque dans la rue, sur quoi pourrais-je me baser sans faille potentiellement tragique ? En attendant, il me semble que les observateurs commentateurs, apprentis spécialistes de santé publique autoformés sur Twitter, feraient bien de s’abstenir de nous inonder de leurs recommandations définitives, martelées en public. Ça n’aide pas le débat public, ça polarise simplement les points de vue. Si vous avez des angoisses, si vous ressentez le besoin d’exister au cœur d’une chose qui vous dépasse totalement, si vous ne parvenez pas à accepter l’idée que vous n’êtes pas grand-chose en dépit de ce qu’on vous dit depuis tout petit, exprime-le autrement. Non, vous ne résoudrez pas la crise du Covid-19. C’est comme ça. Et ce n’est pas si grave.

Je reviendrai d’ici quelques jours vous parler du fameux arbitrage entre santé et économie, qui me semble faire l’objet d’une grande foire au n’importe quoi dans les débats du café du commerce confiné.

6 Commentaires

  1. Merci pour ce billet. La connaissance utile désigne les limites de notre connaissance. C’est reposant, et ça nous change des opinions.
    Je vous livre quand même celle-ci (entendue sur France Cu) qui m’a bien fait rire: « c’est la faute de l’Etat si les français ne respectent pas bien les consignes ».
    On n’aurait pas du décapiter Louis XVI.

  2. Merci pour ce billet !
    Et comme c’est mon premier commentaire chez vous, j’en profite pour vous adresser un immense merci pour votre blog, qui m’aura définitivement appris énormément ces dernières années, et m’aura fourni bien des sujets de réflexion (sociaux et personnels).
    (et c’est évidemment valable aussi pour le blog Classe Eco)

    La question que je me posais sur ce billet :
    Je trouve paradoxal que « le nombre de nouveaux cas quotidien [soit] It+1 – It = βtItSt/N – νtIt »
    J’imaginais que ce devrait être βtItSt/N.
    Est-ce que lorsque les médias parlent du nombre de nouveaux cas quotidiens ils soustraient les personnes « retirées », ou est-ce qu’ils se contentent de reporter les tests positifs du jour ?
    Ou est-ce que c’est le modèle SIR qui a une autre définition pour les « nouveaux cas quotidiens » ?

    • C’est la variation du nombre de cas dans le compartiment infectés. Ce n’est effectivement pas de ce nombre dont on parle dans la presse. Peut-être que ma définition mériterait d’être précisée ou le vocabulaire modifié. Merci.

  3. Merci de reprendre le blog, toujours aussi intéressant !

    Une question : vous dites « le nombre de nouveaux cas (…) suit d’abord un profil relativement plat, puis exponentiel »
    Le profil est exponentiel dès le 1er jour – quoi qu’il air l’air relativement plat, ce qui est trompeur – ou j’ai mal compris le modèle ?

    • Vous avez parfaitement raison. C’est juste pour traduire, comme vous le dites, « ce qu’on voit ».

Commentaires fermés.