音声は「クリック」「タッチ」に続く新世代の操作方法として脚光を浴びる。深層学習技術を活用することで、過去5年ほどで精度が高まった。家庭、商業施設、コールセンター……。利用場面を問わず実用化が進む。

注:波形や数値はイメージ(写真=人物:アフロ、背景:enjoynz/Getty Images)
注:波形や数値はイメージ(写真=人物:アフロ、背景:enjoynz/Getty Images)
[画像のクリックで拡大表示]

 「モーツァルトを流してくれないかな」「エベレストって何mあるんだっけ?」「牛乳と小麦粉をショッピングリストに加えておいて」

 家族に話しかけるように声をかけると、自然な答えが音声で返ってくるのが「音声認識」を活用したサービスだ。iPhoneに搭載されている「Siri」やGoogleの検索アプリなど、ここ数年でぐんと身近な存在になってきた。

<b>米アマゾンの「エコー」は、海外で既に1100万台超が売れたという</b>
米アマゾンの「エコー」は、海外で既に1100万台超が売れたという

 なかでも注目を浴びるのが、キーボードもタッチ画面もついていないのに、人間の言葉を聞き取り、理解し、返事をする音声アシスタント端末。米アマゾン・ドット・コムが米国などで販売しているIT(情報技術)端末の「エコー」は、世界販売台数が2016年末までに1100万台を超えたと推計されている。日本でもLINEが同様の端末を開発し、初夏に日韓で発売する。

 技術の進歩に伴い、IT機器の操作方法はキーボードによるコマンド入力からマウス操作、画面のタッチと移り変わってきた。タッチの立役者ともいえるiPhoneの登場から6月で10年──。音声認識は次の最有力候補だ。

 音声認識とは、人間の声を聞いて可能な限り意味の通る文章に書き起こすまでのプロセスを指す。

 「明日の天気は?」と人間が話しても、コンピューターにとってはただの“空気の震え”。これを、前後の文脈も考慮しながら「明日の天気は(ア・シ・タ・ノ・テ・ン・キ・ハ)?」という「音素」の連なりにまで整える。これが音声認識のおおまかな流れだ。

 音素の特定には、事前に収録した大量の音声サンプルデータを参考にする。

 人間の発音には音素ごとに特徴がある。例えば「い」は低い音域の、「え」は高い音域の音量が大きい。もちろん話し手の性別や録音環境などによっても音の高低や波形には差が出る。各社はできるだけ多くの音声サンプルを用意することで、精度を競っている。

 音声サンプルの作成は読み上げた音声を書き起こしたり、コールセンターなどでの実際のやり取りを文字にしたりとかなり地道な作業。必要なサンプル数は一般的に数千人、数千時間分に及ぶ。音声認識技術の世界大手、米ニュアンス・コミュニケーションズはこれまで「音声認識を手掛ける少なくとも7つの関連企業を買収してきた歴史がある」(日本法人の村上久幸氏)。サンプル数が技術の裏付けになっている。

五十音にはそれぞれ特徴がある
●音域ごとの音量を可視化した分析図
五十音にはそれぞれ特徴がある<br />●音域ごとの音量を可視化した分析図
出所:アドバンスト・メディア
[画像のクリックで拡大表示]

次ページ 文脈も考慮して推測