新型コロナウイルスの対策では、手洗い、消毒の重要性が叫ばれている(写真:PIXTA)
新型コロナウイルスの対策では、手洗い、消毒の重要性が叫ばれている(写真:PIXTA)

 今回の新型コロナウイルス感染症に関連して、様々なデータや情報が飛び交っている。SNS(交流サイト)が十分に普及した後に直面した、初めての世界規模の危機である。この情報は正確なのか、どう解釈すればいいのか、受け手に求められるリテラシーのレベルは大きく上がっている。例えば、デマの可能性があるものを共有することで混乱につながるし、否定すること自体も、不安をかき立ててしまい逆効果になる。

 そこから有意義な洞察を見いだすか否かは結局は本人次第であり、データに対する慣れが必要になってくる。勘違いや、思い込みをなくすにはどうすればいいか。これは平時の経営にも通じることだろう。

 今回は、事例を見ながら、人がどこでデータのわなにはまりやすいかを見ていく。

 誤解を招く代表的なものは選択バイアス(偏り)だろう。その統計におけるサンプルが母集団をきちんと表しているかだ。例えば、東京都でウイルス関連の検査をするにしても、サンプルが港区に集中するのか、八王子に集中するのかで結果は全く違う。どのような基準でサンプルを選んでいるかを理解した上でデータを読まなければならない。

 例えばあるテレビの番組で、「渋谷を若者が出歩いている」と報道しているシーンがあった。渋谷を若者が他の年齢に比べて外出先に選ぶことにもともと偏りがあり、日本の人口分布を表した場所とはいえない。これも一種の選択バイアスだ。銀座を歩いている40代以上の人たちと比べてみてはどうだろうか。

 また、今回はスマートフォンを使った調査が多い。LINEと厚生労働省による調査があり、第1回ではLINEユーザー8000万人ほどの中から2400万人ほどが回答し、第2回、第3回と続いている。LINEの数字は「SNSのアプリを使用している人」であり、かつ「ボランティアのアンケート(公共への貢献の意思がある)に答える意欲がある人」であることから、そこで既に偏りが生じている。

 とはいえ、この数値自体が1週間ごとにサンプルが毎回違う可能性があることを踏まえても、時系列でどのように変化していくかという情報は、何もないよりは洞察を得るきっかけになる。

より客観性の高いグーグル

 LINEの取り組みがボランティアベースのアンケートだとすれば、より客観的なデータを提示したのがグーグルだ。使用するデータはGoogleマップに使われるGPS(全地球測位システム)データの集合体であり、最初のユーザーのデータ使用に同意をしている人に限るが、普段は渋滞の予測に使われているものだ。

 もちろん十分に匿名性は守られている。これならばアンケートベースよりも信頼性の高いデータから、より実態を読み解く洞察を得ることができる。

 必要なのは、日本全体で何%というデータだけでなく、都道府県別などなるべく粒度を細かく見ることによって、新しい洞察を得ることができるという視点だ。米国においても、データを州で分解をすると、ニューヨークに集中していることがわかる。

次ページ 陽性かつ本当の感染者1人の発見に800万円