ここ数年、SF映画の世界だけではなく現実世界でも多く耳にするようになった「人工知能(AI)」。コンピュータが人間の知能と同じような働きを実現させるAIは、様々なWebサービスに使用され、私たちの生活の中にも入り込んできています。

AIは、いわば頭脳。私たち人間が他者とコミュニケーションをとるときに使うのは、もちろん頭だけではありません。耳で話を聞き、目で状況や相手の表情を確認し、頭で考えて、口などを使って言動に反映させます。当たり前のようにインプットとアウトプットを繰り返している人間と同様の処理をしてくれるAIサービスが、大手電機メーカーの東芝さん(以下、東芝)によって開発されています。

PORTFOLIO編集部では、川崎にある東芝のスマートコミュニティセンターにお邪魔して、前述のAIサービス「RECAIUS」の開発チームの皆さまにお話を伺ってきました。

 

そもそもRECAIUSって?

RECAIUSを統括されている梅木さん

 

「RECAIUS(リカイアス)」は、音声認識、音声合成、翻訳、対話、意図理解、画像認識(顔・人物画像認識)などの技術を長年にわたり研究開発してきた東芝が、これらの技術を融合し体系化したクラウドサービスです。
RECAIUSでは音声や映像からインプットし、人が意図していることや状況を理解して、それを音声などでわかりやすくアウトプットすることができます。人の「見る・聴く・話す」を前述の技術で補完・サポートしてくれるのが大きな特徴です。

(東芝ホームページより)

 

サイネージ広告のマーケティングを可能にする「見る」技術

駅や店舗、公共施設などありとあらゆる場所で見かけるようになった、デジタルサイネージ(以下、サイネージ)。お知らせはもちろんのこと、広告を掲示するメディアの一つとしても多く活用されています。しかし、ネットやテレビなどの媒体とは違い、誰がいつ・どのぐらい見たのかという効果測定データが取りづらい広告の一つではないでしょうか。このRECAIUSのサービスの一つにそのような課題を解決してくれる「人物ファインダ」というものがあります。

この人物ファインダは、サイネージにカメラを設置すると、そのカメラに写る範囲のことを解析することができるという機能をもっています。その場所を通行している人の数やサイネージを見た人の数はもちろん、興味を示した人の性別や年齢まで判別することを可能にしたのです。
しかし映像からとれる情報はそれだけではありません。サイネージを何秒見ていたか、またその人が笑顔だったかどうかなど表情も感知することができ、興味の深さまで読み取ることができます。Web上でいうアクセス解析のようなものをリアルの場でも行うことができ、これからより広まるであろうサイネージの市場においてマーケティングの手法として活躍してくれるのではと感じました。

上原さん

今回は実年齢よりもちょっと若くでたとのこと。「ごますり機能も搭載です(笑)」と担当の上原さん。

 

自由な発話でもしっかり認識し理解できる「聴く」技術

RECAIUSでは、音声認識や文章の書き起こしなど、音声をインプットしてまとめる、いわば「聴く」技術にも長けています。「音声書き起こしエディタ」というサービスでは、録音された音声データを音声認識で自動的に書き起こすことができます。また認識結果が誤っている場合には、テキスト上でその箇所を指定すれば対応する音声部分をすぐに再生して聞くことができるので、圧倒的に文字起こしが楽になります。

また、音声データに登場する話者を分類して各発言の話者を特定してくれるので、よりまとめやすくなるということです。現場からの報告をよりスムーズにしてくれる「フィールドボイス」もこの聴く技術が活かされています。
通常、作業内容や連絡事項を様々なツールに記入する場合、必要項目ごとに手入力が必要になります。日々の報告も業務の一つとはいえ、現場の作業員にとっては手間になったり時間を要することもあるでしょう。しかし、このフィールドボイスでは、端末に向かって話すだけで報告が可能です。報告テンプレートに照らし合わせて必要事項さえ話せば、自由な発話だとしても意図を理解し、項目ごとにまとめてくれるのです。順番が違っても言い方が少し違っても、必要な部分だけまとめてくれるので、報告内容を確認するスタッフの負担も大きく減らすことが可能です。

(東芝ホームページより)

 

テキスト入力だけで代わりに話してくれる「話す」技術

好きなように歌を歌わせることができるボーカロイドや、テレビ番組でのナレーションなど音声合成の技術は日に日に向上し、使用されるシチュエーションが増えているように感じます。皆さんの身近なところでも、電話の自動音声やイベントでのナレーションなどが音声合成に変わっていたなど、すでに変化を感じられている方も多いのではないでしょうか。

RECAIUSにも、多様な話者と感情表現でテキストを音声化することができるサービスがあります。それが「音声クリエータ/音声合成サービス」です。言語・話者を選んでテキストを入力するだけで、音声合成のファイルを生成することができるのです。日本語、米語(アメリカ英語)、英語(イギリス英語)、北京語、広東語、韓国語、フランス語、ドイツ語、スペイン語、カナダ・フランス語、アメリカ・スペイン語の11言語に対応し、幅広い年代・性別の話者を選んで音声データを作成することができます。
また「喜び」「怒り」「哀しみ」「恐れ」「優しさ」を組み合わせて、さまざまな感情表現ができるのもこの音声合成サービスのすごいところ。声の抑揚や速さなどもうまく調整すれば、まるで音読・演技しているかのような感情表現まで再現することが可能なのです。

鈴木さん

担当の鈴木さん

ちなみに、この東芝の音声合成技術は、アマナイメージズのサービスでご利用いただくことができます。Web上でテキストを入力するだけで、簡単に音声合成のナレーションを作成することができる「Narsta(ナレスタ)」を2016年6月よりスタートさせました。(対応言語は日本語、英語、韓国語、北京語、広東語)

読み上げる速さや感情・アクセントを細かく調整することができ(感情は日本語のみ対応)、音声の調整が終わったら、クレジットカードでの決済後すぐに、作成した音声ファイルをダウンロードすることができるというWebならではのサービスです。(請求書決済にも対応いたしました)

政府は東京でのオリンピック開催に向けて訪日外国人は増えると予想しており、2020年までに年間4000万人の観光客招致を目指しています。そのため店舗や施設では多言語対応が急務と言えるでしょう。Narstaでは、翻訳さえ合っていればネイティブに発音してくれるため、あまり予算をかけなくても容易に導入することが可能なのが特徴です。

 

こんなこともできる!RECAIUSのすごいところ

福島にある東邦銀行と約2年前に共同開発した「ネット相続相談」は、スタッフの業務負担を大きく減らしたといいます。親族が亡くなった際の相続手続きは難しく、この銀行でも次長クラス以上でなければ対応できないとのこと。他の銀行も含め、遺族も手続きに何が必要かわからず何度も銀行に通わなくてはならないというケースが多いと言われています。

そこで開発されたのがこのネット相続相談。質問事項に合わせて、AIと会話するだけで、銀行での手続きに必要なものをWeb上で確認し、事前に把握することができるのです。また、店頭でスタッフが対応する際もこちらのサービスを利用し、お客様への一次窓口として対応できるようになったということです。

雨無さん

担当の雨無さん

必要な書類などを事前に確認することができます(東邦銀行 ネット相続相談ページより)

例えば、父が亡くなりその息子が相続手続きをしたい場合。ネット検索に慣れている人は、なるべく検索に引っ掛かりやすいワードを選び文章を話そうとしますよね。しかし、相続対象者の年代は慣れている人ばかりではありません。そういった方々にも使いやすいのが、このサービスのすごいところ。
本来ならば「父が亡くなった」などという文語表現が求められがちですが、「親父が死んだ」などという日常寄りの口語表現でも意図理解し、先に話を進めてくれるのです。Webサービスでも幅広い層に使ってもらえる便利さの裏には、このような技術の支えがあるのです。

話し言葉でもきちんと意図理解し、話を先に進めてくれます(東邦銀行 ネット相続相談ページ)


このような多様な表現ができたり多様な言い回しを理解してくれたりという、表現の幅や意図理解。これを向上させるにはコンピュータにデータを与えて、学習させるということが必要です。RECAIUSではその部分で人の手を使うことを惜しんでいません。クラウドソーシングを利用して辞書の単語を増やしたり、起こり得るシチュエーションを仮定して事例を学習させたりということを繰り返し行い、精度や対応範囲を日々向上させているといいます。また、人工知能の機械学習手法「ディープラーニング手法」により、話し言葉の認識に特に強みをもっているとのことです。

前述しましたが、音声認識、音声合成、翻訳、対話、意図理解、画像認識など多くの技術が複合している、このRECAIUS。AIの向上により人間の仕事の多くが奪われる、と脅威な存在として捉えている方も少なくはないのではないでしょうか。しかしこのRECAIUSはそのような脅威なのではなく、人間の「見る・聴く・話す」を助けてくれ、生活をより豊かにしてくれる存在として、私たちをサポートしていってくれるのではと感じます。

取材協力:株式会社東芝