全2687文字

 現在、都道府県別の患者数について、厚生労働省は日次で発表しているが、フォーマットはPDFファイルだ。PDFファイルは紙と同じ見た目にできるが、コンピューターで読むようにはできていない。それを福野さんらは、開発したアプリを通じて文字認識で読み取り、コンピューターで読み込めて二次利用できるオープンデータとして各地で開発されているアプリに再配布している。

 PDFを見ると、エクセル等の表計算ソフトでつくられているのは間違いなく、CSV形式での配布も問題ないはずだ。しかし、書類を直接人間が見る場合は、ケイ線の太さやセルの背景色などを紙と同じように付加できるPDFのほうが望ましい。福野氏が公開したアプリは、CSVデータがあれば厚労省が提供しているPDFと同じ見た目で見られるようになっている。

福野泰介氏のブログ「厚生労働省の方へ、CSVオープンデータ化で効率化しましょう! 新型コロナウイルス国内事例における都道府県別の患者報告数表示アプリ」

 ブログでは表計算ソフトを使ったCSV形式での保存方法まで説明し、サポートしている。厚労省のデータが早く機械で判読可能なオープンデータになることを望む。福野氏は福井工業高等専門学校の出身で、福井県鯖江市で起業した。同市のオープンデータ推進に長く貢献し、今では鯖江市はオープンデータの先進地と呼ばれている。そうした経験が全国にフィードバックされるのはありがたい。

福井県鯖江市のオープンデータ公開サイト。Data City Sabaeとして、早期から様々なデータをオープンデータとして公開し、データハッカソンなども行っている

データ解釈は民主化されるべきだ 

 こうしたオープンデータの試みは、民主主義の健全な発展のために大切だ。

SNSで出まわっているジョーク

 上記の画像は筆者の友人がFacebookでシェアしている出所不明のジョークだ。元のグラフは、フィナンシャル・タイムズが発表している国別の感染者数である。香港、韓国、シンガポール、日本などのアジア圏の国が欧米に比べて感染者が少ないことから、「タピオカミルクティーが流行している国」「してない国」で分類し、書き込みを加えたものだ。他にも「米がいいらしい」などといった冗談もある。

 こうしたジョークは、「人間は多くのものに勝手に因果関係を見いだす」ということを改めて思い出させてくれる。と同時に、オープンデータやデータの読み方や「少ない情報で決めつけないこと」「解釈に惑わされることなく、データそのものを見ること」の重要性について、ユーモアと共に注意喚起してくれる。そうしたリテラシーがないと、もっともらしいグラフや表があると、真偽がはっきりしないニュースにだまされてしまう。

 データとその表現を巡る有名な問題として、「コップに水が半分入っている状態を『まだ半分入っている』と表現するか、『もう半分しか残っていない』と表現するか」というものがある。データにアクセスできる人や機会が限られると、表現が独り歩きする。データを発表する人もそれを解説する人も、「外国ではもっと多い」「数年前はこうだった」といった解釈を加えて、コップの水が多いか少ないかを論じがちだ。メディアがセンセーショナルに取りあげるのも解釈の方だ。だが、もっとも大事なのはデータそのものだ。

 数日前、数カ月前と比べてどうなったのか、データに別の見方はないか、データ同士はどう関連しているか……。そうしたデータの解釈は、あらゆる市民に開かれるべきだ。

 7都府県を対象に緊急事態宣言が発令されたことに伴い、多くの企業が在宅勤務を迫られている。同時にニュースへの関心も高まっている。今回のオープンデータへの取り組みがより進展し、社会がよりコンピューターフレンドリーになることで、さらにデータ主導の社会が広がっていくことを望んでいる。