「データアナリスト」はビジネスからの転身も多い
データアナリスト
BulletTrip社でKPIを定義し、モニタリングし、上層部に報告する役割を担うのがデータアナリストです。
データベースから引っ張ってきたデータをExcelでビジュアル化し、詳しく分析して傾向を見つけ出す役割を担います。レポートにして毎朝メールで社内の各部署と共有したり、重要な会議のプレゼンでビジネスの意思決定に役立てたりします。いわゆるExcelなどの表計算ソフトでぱっと見すぐ意味がわかるデータ(構造化データ)だけを扱います。
近年は「Tableau」などのBI(Business Intelligence)ツールを使うことが主流になりつつあります。BIツールはデータベースへの接続が簡単にできたり、ドラッグ・アンド・ドロップで素早くビジュアル化できたりするので便利です。
既にデータエンジニアによってきれいに処理されたデータが用意されているので、データアナリストがコーディングをする場面は多くありません(Excel程度でも大丈夫)。ただし、より必要な情報だけをデータベースから効率的に引っ張ってくるため、SQLという言語を使いこなす人も多いです。
データアナリストに求められるスキルは、与えられたデータから洞察を引き出す力です。そのためビジネスを学んだ人が就くケースが多いです。そのほか、ビジネス畑からデータサイエンティストに転身したい人が、まずデータアナリストからキャリアをスタートさせるケースもよく見受けられます。
私も大学院1年目の夏にインターンシップを探していたとき、データサイエンティストで応募したものの全落ちし、データアナリストとしてインターンになりました。その後インターンシップ中に上司と交渉してデータサイエンティストにポジションを変更してもらった経緯があります。
必要なスキル:基本的な統計学、問題解決力、プレゼン力、ビジネスのドメイン・ナレッジ
ツール:Excel、SQL、R、Python、Tableau、パワーポイントなど
写真や音声、文章なども扱う「データサイエンティスト」
データサイエンティスト
データサイエンティストの業務範囲も非常に広く、他のポジションと重なることも多々あります。
例えば、BulletTrip社のデジタル部門部長が「最近、ユーザーのクリック率が悪いな。より一人ひとりの好みに合わせた検索結果が表示されるよう、ホテルのレコメンデーション(顧客の訪問履歴や購入履歴といったデータに基づき、自動的に商品やサービスなどを薦める仕組み)の質を向上しよう」と言ったとします。
このようなときこそ、データサイエンティストの出番です。作業内容は大まかに以下のような感じになります。
- レコメンデーションの質が本当に落ちているのか、データアナリストがモニタリングしているKPIなどを見ながら確認する。問題があるなら原因を特定し、どのような方策で質を向上できるか議論する。
- データエンジニアと相談しながら、どのようなデータが必要で、使えるデータは何かを整理する。
- データを自分の作業環境に引っ張ってきて、Exploratory Data Analysis(EDA)と呼ばれる基本的な分析を始める。EDAでは変数どうしの相関を確認したり、おかしなデータがないかを調べたりする。
- どのようなアルゴリズムが適しているかを見極め、アルゴリズムが使える形になるようデータを変形し、モデルをコーディングする。
- モデルのパフォーマンスを査定し、ビジネスにどのくらいのインパクトがあるのか計測する。多くの場合、複数のモデルをつくって結果を比べる。査定に使う指標は正確性や正答率の場合もあれば、利益率などビジネス上の指標も加味して最適なモデルを選ぶこともある。
- 最適なモデルをひとつ選んだら、それを本番環境で稼働させるためシステムに統合する。ウェブサイトを訪れたユーザーのデータをリアルタイムで誤りなく取り込み、必要な処理を経た後にレコメンデーションモデルに投入し、モデルが返した結果を遅れなくウェブサイト上に表示する一連の流れを自動化する。
- 本番環境に置いたモデルのパフォーマンスをモニタリングする。パフォーマンスが落ちてきたときにはモデルを再学習するためのロジックも自動化する。
3~5は満足する結果が得られるまで何度も繰り返します。また6と7はMLOpsと呼ばれる分野で、データサイエンスをビジネスで使うときに最も重要なトピックのひとつです。MLOpsについても機会があれば書いてみたいと思います。データサイエンティストではなく、IT関連部署の人が専門で担当することもあります。
定期的に決まったレポートをつくるためにデータを分析するのがデータアナリストの主な業務なのに対し、データサイエンティストはよりアドホックな(その場限りで発生する)プロジェクトベースでの業務が多いです。どのようなデータが必要で、どのような分析をすべきかはプロジェクトの内容によって全く異なってきます。そのためデータエンジニアやデータアナリストのようにあらかじめ決まったロジックでパイプラインを自動化することができません。
またデータアナリストが通常は扱わない非構造化データも守備範囲内です。非構造化データとは、写真や音声、文章などExcelでは表すことができないデータのことで、こういうときはディープラーニングが活躍します。
必要なスキル:数学と統計学に強いこと、機械学習の各モデルの数学的な仕組みを理解していること、既存のアルゴリズムを必要に応じてカスタマイズできるコーディング力、問題解決力、プレゼン力
ツール:Python、R、SQL、Hadoop、Sparkなど
Powered by リゾーム?