トレーニングセット・ポイズニング攻撃は、データを元に画像認識モデルを導き出す訓練(トレーニング)の課程を狙った攻撃だ。画像認識モデルの開発には、人間が識別した被写体情報がタグ付けされた「教師データ(トレーニングセット)」を使用する。この教師データに誤ったタグを付与した画像を紛れ込ませることで、被写体を誤って認識する画像認識モデルを作らせてしまうのがトレーニングセット・ポイズニングだ。紛れ込ませる画像データには、誤ったタグだけでなく、画像認識モデルをあざむくためのノイズも付与する。

 GoogleのGoodfellow氏は、「最近のマルウエア検出エンジンは、機械学習ベースで開発されている。マルウエアを開発する犯罪者集団がセキュリティ対策ソフトベンダーの教師データに誤ったデータを紛れ込ませることで、マルウエアを検出できなくするような攻撃が考えられる」と、トレーニングセット・ポイズニング攻撃の例を説明している。

疑似攻撃に使用するデータを公開

 機械学習に対する新しい攻撃手法が次々と見つかる一方で、そうした攻撃からAIを防御する手法の開発も進んでいる。Googleはアドバーサリアル・エグザンプル攻撃を防ぐために「Cleverhans」というソフトウエアライブラリーを公開している。

 Cleverhansは、擬似的なアドバーサリアル・エグザンプル攻撃が実行できる画像データ集だ。画像認識モデルの開発者は、Cleverhansが提供する画像データを使うことで、自身が開発したモデルがアドバーサリアル・エグザンプル攻撃に脆弱になっているか否かを確認できるようになる。

 米スタンフォード大学の博士課程で学ぶAditi Raghunathan氏はBayLearn 2017で、「Convex Relaxations」という手法によってアドバーサリアル・エグザンプル攻撃を防ぐ研究成果を発表した。画像認識に使用するニューラルネットワークに特別な「隠れ層」を追加することで、ノイズを加えた画像であっても誤認識をしなくなるという。

 ディープラーニングは近年急速に台頭している手法であるだけに、セキュリティ面での研究が普及速度に追いつけていない恐れがある。ディープラーニングに関わるソフトウエア開発者は、セキュリティに関する情報収集や対策に漏れがないか、今一度確認するのが良さそうだ。