「音声合成技術」とはテキスト情報から音声を人工的に生成する技術を指す。技術の底上げで用途が拡大。合成した音声と収録した音声を組み合わせるなど新しい取り組みが目立つ。これまでにないプラットフォームビジネスも登場している。
●音声合成技術の進化
テキスト情報から音声を人工的に生成する音声合成(テキスト音声合成)技術が、幅広い産業に変化をもたらそうとしている。技術の進化に伴い用途が拡大しているほか、音声や合成器(合成エンジン)を流通させる新しいビジネスモデルも登場している。
歌声合成や声質変換も採用
音声合成技術の用途の拡大は、抑揚や感情表現など、人間に近い“自然な発話”を実現したことが後押しになっている。コミュニケーションロボットやデジタルサイネージ、テレビ・ラジオ放送、公共交通機関の各種案内など、多様な分野に普及しつつある。
音声合成技術の先駆的活用事例といえるのは、シャープのコミュニケーションロボット「ロボホン」だ。2016年5月の発売から19年1月末までに累計1万2000台を販売。売り上げは年々伸び、同年2月に第2弾となる3機種を新たに発売。第2弾は、20年度末までに累計3万台の販売を目指す。

ロボホンの需要が増えている理由について、同社IoT HE事業本部IoTプロダクツ事業統轄部市場開拓部主任の岩越裕子氏は、「ユーザーに愛着を持ってもらうために、ロボホンの世界観を明確に提示し、それが受け入れられた」と分析する。
具体的には、中核のユーザー層を「40~50代の女性」、ロボホンのキャラクターを「5歳の男の子」と設定した上で、ロボホンが話す内容などを決定。その世界観を実現すべく、キャラクター設定に合った音声を出せる声優を起用し、合成エンジンを作り込んだ。音声合成技術は、HOYAが開発した。
企画段階では、合成音声ではなく収録音声を使うことも検討した。しかし、収録音声ではロボホンの話す内容や状況が限定的になり、いずれ飽きられてしまう恐れがあった。
一方、ロボホンはインターネットにつながり、機能を更新し続けられる。それに合わせて話す内容や状況も更新できる方が望ましい。合成音声であれば入力するテキスト情報を変えるだけで柔軟に対応できることから、音声合成技術の採用に踏み切った。
19年6月27日には新機能として、童謡や歌謡曲を歌うサービス「ボクと歌お」の提供を始めた。この機能を実現するために、前述したHOYAの音声合成技術に加えて、新たに同社の歌声合成技術と声質変換技術も採用した。
●シャープのコミュニケーションロボット「ロボホン」
同サービスの歌声合成エンジンでは、実はロボホンの声優の歌声を使っていない。まず、声優とは別のプロ歌手の歌声を収録し、歌声合成エンジンを作成。次に声質変換技術を使って、歌手の声質を声優の声質に変えるための変換器を作成。最後に両者を組み合わせることで、「ロボホンの歌声」を生成できる歌声合成エンジンを実現している。
この記事は会員登録で続きをご覧いただけます
残り1523文字 / 全文2747文字
-
【春割】日経電子版セット2カ月無料!
今すぐ会員登録(有料) -
会員の方はこちら
ログイン
日経ビジネス電子版有料会員になると…
人気コラムなどすべてのコンテンツが読み放題
オリジナル動画が見放題、ウェビナー参加し放題
日経ビジネス最新号、9年分のバックナンバーが読み放題
この記事はシリーズ「テクノトレンド」に収容されています。WATCHすると、トップページやマイページで新たな記事の配信が確認できるほか、スマートフォン向けアプリでも記事更新の通知を受け取ることができます。
Powered by リゾーム?