全2747文字

「音声合成技術」とはテキスト情報から音声を人工的に生成する技術を指す。技術の底上げで用途が拡大。合成した音声と収録した音声を組み合わせるなど新しい取り組みが目立つ。これまでにないプラットフォームビジネスも登場している。

用途が拡大、新しいビジネスが生まれる
●音声合成技術の進化
音声合成技術の進化によって、これまで一部に限られていた用途が幅広い産業に拡大している。さらに、音声そのものや音声合成を流通させるプラットフォームビジネスの登場、音声に関する権利の確立といった動きも出てきている

 テキスト情報から音声を人工的に生成する音声合成(テキスト音声合成)技術が、幅広い産業に変化をもたらそうとしている。技術の進化に伴い用途が拡大しているほか、音声や合成器(合成エンジン)を流通させる新しいビジネスモデルも登場している。

歌声合成や声質変換も採用

 音声合成技術の用途の拡大は、抑揚や感情表現など、人間に近い“自然な発話”を実現したことが後押しになっている。コミュニケーションロボットやデジタルサイネージ、テレビ・ラジオ放送、公共交通機関の各種案内など、多様な分野に普及しつつある。

 音声合成技術の先駆的活用事例といえるのは、シャープのコミュニケーションロボット「ロボホン」だ。2016年5月の発売から19年1月末までに累計1万2000台を販売。売り上げは年々伸び、同年2月に第2弾となる3機種を新たに発売。第2弾は、20年度末までに累計3万台の販売を目指す。

「ロボホン」では、中核のユーザー層を「40~50代の女性」、ロボホン自体のキャラクターを「5歳の男の子」と設定。音声合成技術を活用し、その世界観を実現したことで、ユーザーの心をつかんだ(写真=シャープ提供)

 ロボホンの需要が増えている理由について、同社IoT HE事業本部IoTプロダクツ事業統轄部市場開拓部主任の岩越裕子氏は、「ユーザーに愛着を持ってもらうために、ロボホンの世界観を明確に提示し、それが受け入れられた」と分析する。

 具体的には、中核のユーザー層を「40~50代の女性」、ロボホンのキャラクターを「5歳の男の子」と設定した上で、ロボホンが話す内容などを決定。その世界観を実現すべく、キャラクター設定に合った音声を出せる声優を起用し、合成エンジンを作り込んだ。音声合成技術は、HOYAが開発した。

 企画段階では、合成音声ではなく収録音声を使うことも検討した。しかし、収録音声ではロボホンの話す内容や状況が限定的になり、いずれ飽きられてしまう恐れがあった。

 一方、ロボホンはインターネットにつながり、機能を更新し続けられる。それに合わせて話す内容や状況も更新できる方が望ましい。合成音声であれば入力するテキスト情報を変えるだけで柔軟に対応できることから、音声合成技術の採用に踏み切った。

 19年6月27日には新機能として、童謡や歌謡曲を歌うサービス「ボクと歌お」の提供を始めた。この機能を実現するために、前述したHOYAの音声合成技術に加えて、新たに同社の歌声合成技術と声質変換技術も採用した。

音声合成技術で世界観を提示
●シャープのコミュニケーションロボット「ロボホン」
変換器によってプロ歌手の声質をロボホン声優の声質に変える。歌声合成技術や声質変換技術を活用し、「ロボホンの歌声」を実現した(写真、図=シャープ提供)

 同サービスの歌声合成エンジンでは、実はロボホンの声優の歌声を使っていない。まず、声優とは別のプロ歌手の歌声を収録し、歌声合成エンジンを作成。次に声質変換技術を使って、歌手の声質を声優の声質に変えるための変換器を作成。最後に両者を組み合わせることで、「ロボホンの歌声」を生成できる歌声合成エンジンを実現している。

日経ビジネス2019年11月11日号 104~106ページより目次