ソフトバンクが電気通信大学らと共同で開発を進めている、聴覚障害者と健聴者が手話と音声を通じ円滑にコミュニケーションするシステム「SureTalk(シュアトーク)」。その本格展開に向けてiOS版アプリを2021年7月に公開したが、内容は手話データの登録にとどまっており、会話に利用することはできない。実用化に向けた課題や今後の展開などについて話を聞いた。

手話と音声による双方向コミュニケーションを実現

 スマートフォンやタブレットなどを活用して聴覚障害者とのコミュニケーションをサポートする取り組みは、これまでにもいくつかの企業が手掛けてきた。米Google(グーグル)がAndroidスマートフォン向けに提供している「音声文字変換」などはその代表例といえる。別の角度から新たな取り組みを打ち出しているのがソフトバンクだ。

 ソフトバンクは2021年3月30日、電気通信大学と共同で、SureTalkを開発したと発表した。これは互いに手話と音声という異なる手段を用いながら、双方向のコミュニケーションを可能にするシステムだ。

ソフトバンクが電気通信大学と共同開発した「SureTalk」。iPadなどを通じて手話と音声をテキスト化し、双方向コミュニケーションを実現するシステムだ
ソフトバンクが電気通信大学と共同開発した「SureTalk」。iPadなどを通じて手話と音声をテキスト化し、双方向コミュニケーションを実現するシステムだ
(出所:ソフトバンク)
[画像のクリックで拡大表示]

 具体的にはiPadやカメラを搭載したパソコンを用い、聴覚障害者による手話、そして健聴者の音声をそれぞれテキストに変換することで、チャットのようなスタイルでのコミュニケーションを取れるようにする。ただ、音声をテキスト変換するシステムはすでに数多く存在するので珍しいものではない。大きなポイントとなるのは手話をテキストに変換する部分だろう。

 ソフトバンクの技術管理本部 システムサービス事業統括部 サービス推進部 SureTalk課 担当課長である田中敬之氏によると、カメラの映像から指先の動きを追跡し手話を抽出して数値化、それをデータベース上にある手話のデータと照合することで単語を推定している。手話の開始や終了は、膝から手が離れたことをトリガーにして判断しているという。

SureTalkの会話データの流れ。音声のテキスト化だけでなく、カメラの映像から手話を認識し、それをテキストにするところが大きなポイントとなる
SureTalkの会話データの流れ。音声のテキスト化だけでなく、カメラの映像から手話を認識し、それをテキストにするところが大きなポイントとなる
(出所:ソフトバンク)
[画像のクリックで拡大表示]

 ただ手話の単語をそのまま並べただけでは、助詞が抜けていたりするなど文章としては不完全な状態になる。そこで深層学習技術を用いることで抜けている部分を補足し、より自然な日本語の文章に変換している。

手話から抽出した単語を並べただけでは文章として不足している部分があることから、深層学習技術によって抜けを補い、日本語の文章に整える仕組みも備えている
手話から抽出した単語を並べただけでは文章として不足している部分があることから、深層学習技術によって抜けを補い、日本語の文章に整える仕組みも備えている
(出所:ソフトバンク)
[画像のクリックで拡大表示]

 そもそもなぜ、ソフトバンクがこうしたシステムを手掛けるに至ったのだろうか。田中氏によると、同社でも多くの聴覚障害者が働いており、文字起こしツールなどを使って仕事でのコミュニケーションを図っているとのこと。だが会議などで複数の人が話し合う場合はどうしても聴覚障害者が会話から置いていかれやすい傾向にあり、それがストレスになってしまうことが多かったという。

 そこで2017年、田中氏らが社内でSureTalkの原型となるプロジェクトを検討し、社内の新規事業アイデアコンテストに出したところ、他の部署からも同様のプロジェクトが提案されていたことが分かった。そこでそれらのプロジェクトを一本化して進めてきたのが現在のSureTalkになるのだという。

続きを読む 2/3 不足する学習用の手話データ、アプリで補えるか

この記事はシリーズ「日経クロステック」に収容されています。WATCHすると、トップページやマイページで新たな記事の配信が確認できるほか、スマートフォン向けアプリでも記事更新の通知を受け取ることができます。