文脈も考慮して推測

 ただし、音だけで単語を特定するのには限界がある。すべての人が一つひとつの文字を明瞭に発音しているわけではないからだ。そこで併用するのがテキストデータを集めて統計処理した言語モデル。たとえば「日経」と発音されたら、その次に「ビジネス」が続く可能性は10%、「朝刊」が続く可能性は8%といった具合に推測する。「ニッケイ」のあとに「ビ……ネス」とだけ聞き取れた場合、「ジ」部分を補うイメージだ。人間が相手の言っていることを一言一句聞き取れなくても、文脈から内容を理解しているのと同じといえる。

 併せて、利用場面を想定して作られた専門辞書も活用する。国内大手のアドバンスト・メディアは業界別の専門辞書を取りそろえている。同じ「さいけつ」でも、病院向けに納入するシステムなら「採血」、地方議会が議事録を作成するのに使うシステムなら「採決」と認識するようにカスタマイズする。すでに120以上の辞書の用意があり、納入後も単語を追加できるという。

 音声認識の歴史は古い。NECが京都大学と研究を始めたのは1960年。米IBMの開発着手も同時期まで遡る。音声認識の基本コンセプトは当初から変わっていないが、誤認識率が高く本格普及には至らなかった。

 突破口となったのは現在のAI(人工知能)ブームの立役者で、人間の脳のように多層的に情報処理する「ディープラーニング(深層学習)」の導入だ。

 IBMの場合、直近の誤認識率は5.5%と、人間の脳(5.1%)と遜色ない水準。2010年ごろまでは10%の壁を越えられず、誤認識率の低減は頭打ち傾向だったが、深層学習の導入で精度向上に弾みがついた。「包丁の切れ味が全く違う」。日本IBM東京基礎研究所の倉田岳人シニア・マネージャーは深層学習導入の効果をそう表現する。

深層学習の導入が突破口に
●IBMによる音声認識技術の誤認識率
深層学習の導入が突破口に<br />●IBMによる音声認識技術の誤認識率
注:2000年以前は業界水準からの推計値
[画像のクリックで拡大表示]

 日本IBMは15年2月、みずほ銀行のコールセンター向けに音声認識を活用した応答システムを納入した。顧客からの電話内容をシステムで把握。日本IBMのAI型コンピューター「ワトソン」が顧客の知りたがっている情報を推測し、オペレーターの端末画面に回答マニュアルの候補を表示する。

 顧客が「息子名義で口座を開設したいと思っているのですが」と話した場合には「未成年の口座開設について」といったマニュアルを即座に端末画面に表示する。従来はオペレーターが手動で該当マニュアルを探し出していたといい、時間がかかっていた。

 NECが17年3月に発売した「NEC会話解析V2.0」も、音声認識を活用したコールセンター向けのシステムだ。

 特徴は電話主の怒りを検出する感情認識技術。単に「怒り」といっても、声を荒らげる人、静かに言葉を連ねる人など様々。NECは音声サンプルを収録する際、人が判断して「ここからここまでが怒っている箇所」という情報も付け加える。大量のサンプルからシステムが法則性を見いだして、怒りの度合いを推察できるようにする。

 怒りの感情のある電話は、企業にとって対処の優先順位が高い。そうした電話があったことをオペレーターだけでとどめず、確実に管理者に伝わるようにする。消費財メーカーを中心に採用が広がる。

次ページ 同時通訳アプリも夢じゃない