公的統計データなどを基に語られる“事実”はうのみにしてよいのか? 一般に“常識“と思われていることは、本当に正しいのか? 気鋭のデータサイエンティストがそうした視点で統計データを分析・検証する。結論として示される数字だけではなく、その数字がどのように算出されたかに目を向けて、真実を明らかにしていく。 ※文中にある各種資料へのリンクは外部のサイトへ移動します 連載バックナンバーはこちら

 2010年代後半から「Data is the new oil(データは次世代の石油である)」という言葉が語られるようになりました。ビッグデータを端緒にクラウド、AI(人工知能)、RPA(ロボティック・プロセス・オートメーション)、DX(デジタルトランスフォーメーション)……必要性はともかく、この数年はデータの重要性が指摘され続けています。

 あらゆる業界がデータの活用から逃れられません。企業・経営分野はもちろん、もはやスポーツもデータとは切っても切り離せませんし、行政もEBPM(エビデンスに基づく政策立案)が目下の課題です。

 20年代は間違いなく「データの世紀」の本番です。なぜなら人間の記憶力よりはるかに優れたデータをうまく使いこなせれば、人間の洞察力を上回り、人間より疲れを見せず、人間と違ってそんたくの無い判断を下せるのです。実証実験ばかりだった10年代は、データをうまく使える企業が勝者でした。20年代は間違いなく、データをうまく使えない企業が敗者となるでしょう。

 あらゆる業界には、報道も対象に含まれます。海外では、データと報道を組み合わせた「データジャーナリズム」が定着し始め、新しい報道スタイルとして確立しつつあります。

 「データジャーナリズム」は、取材する側が様々な情報を積み上げて新しい事実を突き止める調査報道の1つです。代表的な調査報道と言えば、国内なら旧石器ねつ造事件や大手企業の「偽装請負」問題、海外ならウォーターゲート事件など、公共機関の発表に依存せず、多くの関係者を取材し、事実を積み重ね、真実を暴いた例が思い浮かびます。

 こうした旧来の調査報道とデータジャーナリズムの違いは、今までとは桁違いの膨大な定量・定性的なデータを扱う点です。それらのデータを使って、ビジュアライゼーションで事の経緯や問題を分かりやすく表現したり、統計的手法で事象を解析して今まで見えなかった事実を明らかにしたりするのです。

 それらの基となるデータは、必ずしも秘匿されている情報で必要はありません。一般に公開されているオープンデータから、見えなかった真実にたどり着くこともできます。現在、私が連載している「データから“真実”を読み解くスキル」も、大半はオープンデータからの分析を基にしたものです。

 いずれにしろ、データはエンジニアが触っていればよいという時代は終わりを迎えつつあります。20年は、その転換期として後世に記憶されることになるかもしれません。

データジャーナリズムとはどのようなものか?

 「データジャーナリズムとはどのようなものか」を理解してもらうため、韓国での事例を2件、ご紹介します。

 1つ目は韓国の民放局・SBS(ソウル放送)の「政治と国家予算」に関する報道です。国会の議事録5453ページ分と、政府が提出した予算に関するデータを使って、議員の発言が予算編成にどの程度影響したのかテキストマイニングを用いて分析し、その結果を放映しました。またインタラクティブなコンテンツを作ってWeb上で公開し、誰がどのように国会で言及していたかまで分かるようにしました。

SBSの政治と国家予算に関する報道に関連して作られたインタラクティブなWebページ。「●」の一つ一つは新規事業予算で、その1つを選ぶと、その事業に関連した予算議事録が右側に表示される
SBSの政治と国家予算に関する報道に関連して作られたインタラクティブなWebページ。「●」の一つ一つは新規事業予算で、その1つを選ぶと、その事業に関連した予算議事録が右側に表示される
[画像のクリックで拡大表示]