もう「英語ができない」と文句を言わなくて良くなる

近い将来、翻訳AIがビジネスで本格的に使えるようになるということが、よく分かりました。ですが、最低限の英語力というのは、やはり必要なのではないでしょうか。

隅田:ええ、基礎的な英語力はあった方がいいと思います。ただし、その英語力は、現状のままでいいと思います。特に、これまでより高い水準を目指す必要はないでしょう。

 日本人の多くは、英語を中学、高校と勉強して、一部の人は大学でも勉強しています。既にかなりの時間を英語学習に割いていますよね。ところが、これまで多くの人が、こんなに勉強したのに英語ができない、話せないと嘆いてきました。これからは、そうした状況に文句を言うのではなくて、それで十分という世界になるのではないでしょうか。

 例えば、文書を翻訳する場合、まず自動翻訳に下訳を作ってもらって、その後に人間が中学や高校、大学で学んだ英語を使って、必要があれば加筆・修正して、さらに良い翻訳を作るということが、当たり前になるのではないでしょうか。冒頭にお話しした通り、機械翻訳は100%正しいわけではありませんから。

 こうすることで、文書が自分の専門外の分野であっても、自動翻訳を使えばどんどん翻訳できるようになります。例えば、医療分野は私の専門外ですが、試しに医療関係の論文を自動翻訳を使って訳してみたんです。そうすると、少し時間はかかっても、全く医療分野の知識がない私でも、難しい論文でもちゃんと翻訳できるんですね。それは、私という人間の能力が、自動翻訳によって拡張したことを意味します。こうしたことが、あらゆる人に起こり得ると考えています。

 まあ、英語の場合は多くの日本人が勉強していますが、中国語などそれ以外の言語については、ほとんどの人にとって、自動翻訳に頼り切ってしまう状況になるかとは思いますが。

先ほど、翻訳のアルゴリズムは世界の研究者が開発競争を繰り広げているので、どんどん進化していくとおっしゃられました。一方、翻訳精度を高めるために必要なAIに覚え込ませるデータについては、NICTはどのように集めているのですか。

隅田:「翻訳バンク」という取り組みを2~3年前から始めています。それまでNICTは、ウェブ上にある翻訳を使っていました。例えば、大企業では日本語のページと英語のページがありますよね。しかし、それだけではデータが足りません。

NICTの「翻訳バンク」は民間企業に協力を依頼し、社内にある日本語の文書と、それが英語に翻訳された文書の両方を提供してもらい、それをAIに覚え込ませて翻訳精度の向上を目指している。

隅田:そこで、民間企業に社内にあるデータを提供してくださいとお願いしています。現在は29組織が協力してくれています。NICTはパブリックセクターですから、ライバル関係にある会社でも、翻訳という競争領域ではない分野では協力しやすい。むしろ、協調し合って自動翻訳の精度を高めていきましょうと話をしています。自動翻訳の精度が高まって海外からの情報を得やすくなれば、国全体のためになります。

 現在、日本全体で年間2000億~3000億円が翻訳作業に費やされています。それを、文章の数に換算すると、だいたい5億文くらいに相当します。仮に5億文のデータを学習させることができれば、今と段違いの高精度の自動翻訳ができるようになります。それを10年間継続すれば50億文ですから、さらにもう一段、ジャンプできると思います。

現在、どれくらいの数の文章を覚え込ませているんですか。

隅田:それは言えません。ライバルのグーグルやマイクロソフトも、そこは一切、開示していないですね。

そこが今、競争の肝になっているからですね。

隅田:そうです。

グーグルはウェブ上にサービスとしてグーグル翻訳を提供していて、そこで使ってもらうことで例文を集めているようにも見えます。

隅田:はい。ただ、間違った翻訳結果を、どれくらいのユーザーが正しく直して、グーグルにフィードバックしているでしょうか。逆に言えば、悪意があるユーザーがいれば間違った翻訳をグーグルに覚え込ませることもできるわけです。

 我々は翻訳バンクを通じて、グーグルもマイクロソフトもやっていない手法でデータを集め、精度を高めていきたいと考えています。