新型肺炎：エピデミック、パンデミックに普通の数理モデルを使うことの危険性

人は簡単にデータに騙されます。相関係数が低いのに直感で相関があると思い込んだり、単なる相関を因果関係だと思ってしまうことはその代表です。

新型コロナウイルス肺炎でもデータに騙される実例が多々見受けられます。

最近出回っているのが、縦軸に「感染者数」の対数を取り、横軸に経過日数を取ったグラフです。中国、韓国、イタリア、イラン、ドイツ、フランス、スペイン、アメリカ、イギリスのプロットに、日本のプロットを加えたものです。実にきれいなグラフで、日本以外はほぼ同じ傾きのプロットなのに、日本だけが緩い傾きになっています。日本だけ異なる傾向にあるように見えるのです。

これをもってして、日本の検査体制を批判したり、ひどい例では数字の操作を疑ったりしています。

その一例がこちらにまとまっていました。

togetter.com

さて、なぜグラフの縦軸を”対数”にするかといいますと、感染症モデルを用いた理論では、流行初期においては感染者数が指数関数的に増えることが示されているからです。指数関数ですから対数でプロットすると直線を描くのです。実にきれいな理論であり、古くから人間社会に存在している感染症の多くがこの理論に近いふるまいをします。また、この直線の傾きは感染症の性質と医療のレベルで決まってきますので、同じ感染症、同じレベルの医療で、十分な医療資源がある場合は同じ傾きになるはずです。

このような背景があるために、同じ感染症で、しかも医療レベルに大差がないにもかかわらず、日本だけ「感染者数」の対数の傾きが異なることが注目されたわけです。また人々が検査体制や数字の操作にその理由を求めようとしてしまうわけです。

しかし、後日説明しますが、今回のケースにこの感染症モデルを当てはめるのは間違っています。まあ、限定条件付きであてはめてもよいかもしれませんが、少なくとも「同じ感染症、同じレベルの医療の場合は同じ傾きになる」という前提はあてはめるべきではありません。

統計に親しみのない人なら容易に騙されます。これは理解できます。しかし、公衆衛生学を学んでいるはずの医者や、統計を身に着けているはずの理系の博士までもが騙されており、憂慮すべき事態になっています。

詳細は後日説明しようと思いますが、ここでは一番のポイントだけ示します。

上の文章で、「感染者数」をカッコつきで表現していることにお気づきだと思います。ここがポイントです。グラフの縦軸はNumber of reported casesとなっています。勘違いしている人はこれを感染者数と誤解しています。しかし、実際には感染者数ではなく、検査で陽性と判定された人の数です。この陽性判明人数は感染者数と同一ではありません。

陽性判明人数は、検査可能な上限数に制限を受けます。大規模なアウトブレイクが発生したとき、最初は検査可能数が少ないので、陽性判明人数は感染者数よりはるかに少ない数となります。徐々に検査体制が整い、検査可能数が増えると陽性判明人数がそれに合わせて増加します。私が確認したところでは、韓国の例では、この検査可能数が指数関数的に増えています。十分には確認できていませんがおそらくイタリアとアメリカもそうだと思います。

興味のある方はご存じだと思いますが、中国、韓国、イタリア、イラン、ドイツ、フランス、スペイン、アメリカでは、大規模アウトブレイクの最初の症例が見つかった時点で既にかなりの数の感染者が発生しています（イギリスはよくわかりません）。大量の感染者がいて、検査可能数も十分に大きい場合、検査開始後に大量の陽性判明者が発生し、それが一段落した後から指数関数に従うようになるはずです。ところが、グラフを見て分かるように、すべての国が指数関数的振る舞いをしています。すなわち、このグラフは陽性判明者数が感染症モデル理論に従っておらず、初期段階では検査可能数に比例するであろうことを意味しています。

では、なぜ日本「だけ」が傾きが異なるのでしょうか？

これは後日チャンスがあれば記事に書きたいと思います。あらかじめ答えの一つを言っておくと、傾きが異なるのは日本だけではありません。大規模アウトブレイクが発生していない国はすべて、傾きが異なります。

あのグラフは、大規模アウトブレイクが発生した、エピデミック状態の国を選択し、その中に日本を加えたものです。日本ではエピデミックは発生していませんから、傾きが異なるのも何ら不自然ではありません。これら以外の国、例えば、シンガポールや香港を加えれば、エピデミック国群とは異なる傾向になるはずです。要するに、あのグラフは元々日本だけが異なるように作られたものなのです。騙されてはいけません、皆さん。