全3347文字

開発の経緯は?

ウィッカム:そもそもは博士号を取るための研究の一部でした。完全な個人プロジェクトです。博士課程にいた時に、他の学生のデータ分析を手伝っていました。その時に、ほとんどの問題はデータを正しい形に整理して扱いやすくするところにあると気づいたんです。それで、そういうツールを作ろうと。投下した時間ははっきり分かりませんが、博士課程の時や米ライス大学の助教の時を含め、およそ10年間、ほとんどの時間をRのコードを書くことに費やしてきました。数千時間は使っていると思います。

 正直に言って、プログラミングの時にはフラストレーションを感じたり、イライラしたりすることもあります。でも、私のソフトウェアが役に立ったとか、生活を楽にしてくれたとか、わざわざ連絡してきてくれる人が大勢います。そういう声を聞くと、これからも頑張ろうという気になる。他の人に貢献できていることに、個人的な楽しみを感じています。

世界で数百万人が使うパッケージに

ウィッカムさんのコードは文章を読むかのように理解できると評判です。

ウィッカム:ggplot2は可視化を実行するために設計しました。グラフィックスの作成です。dplyrはデータ操作のためのパッケージ。データの集計やグループ分け、並べ替えなどの操作が可能になります。

 両者に共通しているのはデータを扱うために言語や文法を定義しているところです。目標はできるだけはっきり、簡単にコードで表現すること。どちらもプロブラマーでない人でもコードを書くことができます。それを理解するために専門家になる必要もない。文章のようにコードを読み、もっと改善できるところを指摘し、そのコードを考えてシェアしていくことができるように設計しました。他の人が何を理解しにくいと思うか、という心理的なことも考えて書いています。みんなに覚えてもらえるよう名前もこだわっています。

実際、かなりの人々がウィッカムさんのパッケージを使っています。

ウィッカム:ggplot2を作った時は、将来的に1000人ぐらいの人が使ってくれたらいいな、と思っていたのを覚えています。今では数百万人が使っています。

Rはコンピューター・サイエンティストや統計家だけでなく、生命科学や自然科学など幅広い専門家が使っています。それも、Rとウィッカムさんのパッケージが使いやすいからだと思います。

ウィッカム:確かに、Rは他のものより使いやすいかもしれません。ただ、使いやすさでいえば、IBMのSPSSやStataのような統計解析ソフトがあります。その中でRが伸びているのは、人々の集めているデータがより大きくなり、複雑化しているのが理由の一つだと思います。あらかじめ用意されているような分析ツールには頼り切れなくなったということです。その点、Rは誰も試したことのないようなことを試す柔軟性がありますので。

 ご指摘の通り、Rを使っている人は以前と比べて多様性が増しています。私より年上のエンジニアでRを使っている人はきっと統計学が得意な人でしょう。ただ、最近はより純粋なソフトウェアエンジニア、あるいは生命科学の研究者やジャーナリストが増えていると思います。ジャーナリストはデータの中で何が起きているのかを理解するためにRを学んでいます。統計的なものを学んでこなかった人々に対して、われわれがどのような手助けができるか。そこが重要なところだと思っています。