AIが正解を判断するためのプロセスをヒトがあらかじめ整えておくルールベースや統計ベースと違い、深層学習AIは判断プロセスからすべてAIに丸投げする。つまり「開発者本人もAIの判断理由がわからない。巨大なブラックボックスになる」(あるAI研究者)。

 ではIT各社がしのぎを削るAI開発の競争力を決定づけるものは何か。最も影響力が大きいのは例題データの量と質だ。例題データの量が多いほど、AIは高度な応用問題が解けるようになるし、想定される応用問題の性質に似た例題データを揃えておく必要もある。

 このデータの集め方に、各社の戦略の差が出て来る。多種のネットサービスを展開するGAFA(=グーグル、アップル、フェイスブック、アマゾン・ドット・コム)と呼ばれる情報プラットフォーマーはこの点、群を抜くデータ量を社内に抱え込んでいる。AIの開発で明確な優位性がある。

 前出の日本マイクロソフトの榊原CTOも「データ量では到底グーグルにかなわない」と話す。彼我の差を埋めるのは、通訳AIに併せて使用する「トゥルーテキスト」と呼ばれるもう一つのAI。「Let me see」など特別に意味を持たない感嘆詞や言い間違えを省き、通訳AIを使う前に訳しやすい構文に整理する。構文を揃えて応用問題の難易度を下げることで、少ないデータ量でもAIが正解を導けるようにするのがマイクロソフトの試みだ。

 またマイクロソフトは翻訳AIの契約企業に対し、利用者自らAIを成長させることができる「ハブ」という機能を提供している。利用者はハブを通じて、社内で使われている特殊な用語や、業界用語を独自に加えることができる。全方位的にAIを成長させるのではなく、各利用者の業務内容に沿ったAIをカスタマイズするというわけだ。ハブで加えた用語は自社で使うAIにしか反映されないので、情報漏洩の懸念は少ない。

スクラムで挑む日本勢

 日本勢は、国立研究開発法人の情報通信研究機構(NICT)を中心にした共同研究で深層学習AIに挑む。このプロジェクトには東芝、パナソニック、富士通、NECなどが参画する。日英の通訳に特化して例文集を集めることで、米国の両巨頭に対抗する。特に2020年の東京オリンピック・パラリンピックに向け、観光関連の例文を重視している。

NECが開発した翻訳アプリ

 観光関連の用語は一般生活で使われる文章と似たものが多く、汎用性が高い。プロジェクトに参加する各企業は、ここから更に各産業での専門用語などを上乗せしてAIに学習させていく。富士通は医療、NECは小売業がターゲットだ。NECのSI・サービス市場開発本部の藤戸靖久マネージャーによると「英語の苦手意識を払拭するきっかけづくりにしたいという声も多い」。本来商売敵のはずの英会話教室からも利用を希望する声が寄せられているという。