従来手法よりも高精度

 従来は、歩行者や他の車両を認識するのに「パターンマッチング」という技術が主に使われていた。この手法については、このコラムの第61回でも解説したのだが、例えば人間を認識する場合であれば、人間の形状の特徴を「辞書」としてシステムに内蔵しておき、カメラが捉えた画像をこの辞書と照らし合わせ、共通するかどうかで人間かどうかを判断するという手法だ。

 パターンマッチングでは、この「辞書」を作るときに、歩行者の形状の特徴を抽出するのは人間の仕事である。この作業は非常に膨大であり、しかも「漏れ」が出るのが避けられない。これに対して、最近ディープラーニングが非常に注目されているのは、こうした画像の特徴を人間が抽出するというプロセスなしに、生の画像データをDNNに読み込ませることができ、しかも高い認識率を実現できるからだ。大規模画像認識技術のコンテスト「ILSVRC(ImageNet Large Scale Visual Recognition Challenge )」で2012年に、2位以下に圧倒的な差を付けて認識率で1位となったのが、ディープラーニングを用いた画像認識技術が注目されるきっかけとなった。

 例えば、歩行者の全身が見えている場合には、従来の手法でも比較的精度良く「これは歩行者だ」と認識できるのだが、実際の路上では、路肩に停めているクルマの影から歩行者が出てくる場合のように、頭だけ、手の先だけ、など身体の一部しか見えていない場合もある。こういう場合には従来の手法だと認識精度が下がるのだが、ディープラーニングでは一部しか見えていない歩行者なども精度よく識別できると言われる。

 しかし、ディープラーニングを実行するためには非常に高い演算能力が必要なため、少し前までは、CPUを多数搭載した高性能のサーバーを数百個つなぎ合わせてDNNを構成していた。これではいくら画像認識能力が高くても、クルマに積むのは無理だ。これに対して、最近のGPUは、先に説明した並行処理の威力で、1チップでも10年ほど前のスーパーコンピューターに匹敵する高い演算能力を備えるようになってきた。

 対象物の画像を大量に読み込ませて学習させる段階では、確かにGPUを大量に積んだ高性能のサーバーが必要なのだが、学習が終了して、その結果としてDNNのモデルができ上がってしまえば、GPUを1~2個搭載したボードでも、十分にディープラーニングを実行できるようになった。つまり、自動運転の実現に必要な程度の能力を備えたDNNは、すでに車両に搭載可能な規模のGPUで実現が可能になったのである。

消費電力を減らす

 エヌビディアは、2015年1月に米ラスベガスで開催された世界最大級の家電見本市である「CES 2015」で、同社のGPUを使った第1世代の自動運転開発プラットフォーム「DRIVE PX」を発表した。これは、当時の最新GPUを2台搭載したボードで、12台の(高精細)HDカメラと接続でき、15年前のスーパーコンピューターに匹敵する演算能力を備えていると発表されていた。エヌビディアは、この第1世代のDRIVE PXで、クルマに搭載できる大きさのボードでディープラーニングが実行可能であることを示したわけだが、このボードは消費電力が250Wもあり、実験車両はともかく、まだ市販車両に積める代物ではなかった。

第1世代の自動運転開発プラットフォーム「DRIVE PX」(写真:エヌビディア)