革命をもたらしたテクノロジーの進化

 なぜ今、ようやく変革の時代を迎えたのか。カギとなったのは「音声テクノロジーの進化」「デバイスの普及」「『聴く』習慣の広がり」の3つだ。

 音声テクノロジーの進化の中でも特に重要なのは、解析の技術だ。

 実は、音声のデジタル化については、かなり前に実現していて、レコードやテープに録音するアナログの時代から、音声をデジタルファイルで保管したり送受信したりできる時代になったのは、昨日今日のことではない。

 ただ、これまでのデジタル化された音声は、単に振動の高低としてデジタルで「蓄音」されていただけ。ファイルを開いて実際に聞いてみるまでは、どんな言葉や情報が入っているかわからない、ただのデータの山だった。

 ところがここ数年で、音声を解析する技術が飛躍的に進み、デジタル音声データの内容を機械的に「理解」できるようになってきた。アップルのSiri、グーグルのGoogleアシスタントなどの音声アシスタントが生まれたのは、まさにこうした技術の進歩が背景にある。

 この技術は、インターネット上に膨大な情報が蓄積され、コンピューターがディープラーニング(深層学習)という機械学習を行うために必要な素材が豊富に集まるようになったこと、さらに、解析を行うのに必要なパワー(処理能力)を持つコンピューターが手に入るようになったからこそ実現した。

 そもそも、音声ファイルが、中身のわからない状態だとなぜ良くないのか?

 端的に言うと「お金にならない」からだ。機械的に解析できるようになれば、検索が可能になる。そして広告の可能性が広がり、マネタイズの源泉になる。

 1990年代から2000年代初めのころの、インターネットのテキスト情報を振り返るとわかりやすいだろう。これまで紙に書かれていた情報が「データ」になり、機械的に解析できるようになったことで、検索やレコメンドが可能になり、さらにお金を生むようになった。そしてインターネットの広告売上が、雑誌や新聞、テレビなどマスメディアの広告売上を上回るようになって久しい。

 音声テクノロジーの代表的なものは、音声をテキストとして認識する技術だ。SiriやGoogleアシスタントなどの音声アシスタントも、人が発した言葉をテキストに変換する音声認識という技術がなくては実現しなかった。この技術は、言語に大きく依存するため、英語や中国語の分野で特に進んでいる。

 ディープラーニングにはビッグデータが必要なので、話す人口の多い英語や中国語は必然的に優位なのだ。また、話す人口の規模は、そのまま市場規模になるので、参入する企業が多いことも大きい。

 日本語は、その言語としての特殊性や、話す人口の相対的な少なさから、音声認識では英語や中国語に比べて遅れているが、これはそのまま「海外企業が日本語の分野に入りにくい」という参入障壁ともなりうる。

 音声テクノロジーではこのほか、人が発した言葉と、バックグラウンドのノイズ(騒音など)を機械的に切り分け、ノイズを消すなどの処理を行う技術、声紋による個人の認識など、さまざまなものがある。

 未開拓だが、将来性が大きい分野として着目したいのが、「聞いた人がどう反応するか」という、受信者側の行動を分析する技術だ。これが音声解析と組み合わされると、「どんな音声が聴き手の行動に影響するか」がわかるようになるため、音声広告の可能性が大きく広がることになる。テキストや画像、動画の世界におけるグーグルのように、音声検索広告や音声のSEO(検索エンジン最適化)も可能になるはずだ。

次ページ デバイスの進化が「聴き方」を変えた