クラウドPBXや電話システムについてIT・通信のプロが解りやすく解説|voice

ビジネスフォンやクラウドPBXを電話・通信のプロがわかりやすく解説!

\ クラウドPBX資料 /

無料ダウンロード

フリーワード検索

2018.11.28

音声認識で会話をテキスト化|トラムシステム

日本アイ・ビー・エム株式会社がAIエンジン「Watson」の提供を始めてから、株式会社セールスフォース・ドットコムの「Einstein」、グーグル合同会社のオープンソースAI「TensorFlow」など、各社から様々なAIエンジンが提供されています。一般消費者として馴染みがあるのは、アマゾン・ジャパン合同会社がリリースした「Alexa」、グーグル合同会社がリリースした「Google Home」などではないでしょうか。

Alexa、Google Home共に利用者が音声を発することで対話をしたり、必要な情報を提供したり、事前にインストールされたアプリケーションを起動したりといったことが利用でき、音声を利用したサービスの有効性について体験できている方が多くいることでしょう。

一方で、こういった音声認識をビジネスに活用したいと考えている方にとって、

「音声認識が流行ってきたが、そもそもどういったものだっけ?」
「音声認識の仕組みを誰か簡単に解説してくれないかな?」
「音声認識って便利だけどどんな課題があるの?」

といったお話をよく聞きます。

そこでこの記事では、音声もしくは会話をテキスト化してビジネス利用できないか検討始めた方向けに音声認識の定義やその仕組、現状の課題について解説していきます。この記事を読むことで音声認識について正しく理解を深め、今後のビジネス活用の検討の際に役に立つことでしょう。

サムネイル画像

音声認識とは

音声認識とは、マイクなどの入力装置を用いて人間から発せられた音声をデジタル情報としてコンピューターに取り込むこと、もしくはその技術を意味しています。例えば、事前に本人の音声を登録しておくことで音声を用いて本人確認をすることや、入力された音声を文字(テキスト)に変換してキーボードの代替手段として活用することも可能です。

音声認識が注目されている背景としては、スマートフォンの普及や機能の高度化、スマート家電といった私達消費者の生活環境がより高度なものになってきており、それに伴い文字入力の煩わしさからの脱却やさらに高度な利用をしたいというニーズが高まっていることがあります。

例えば、冒頭にAmazonのAlexaやGoogleのGoogle Homeの紹介をしましたが、こういったスマート家電で利用される音声認識よりも認知が広まっている背景としてAppleのiOSに搭載されている「Siri」やAndroid OSの「Google Now」、NTTドコモが提供する「しゃべってコンシェルジュ」のようなスマートフォンに搭載されているパーソナルアシスタント機能の方がよく利用されるのではないでしょうか。

スマートフォンを片手にスマートフォンに対して話しかけることで、特定のアプリの起動や現在時刻や天気の確認、インターネット検索などありとあらゆることが声を発するだけで利用でき、これまで両手がふさがって他のことができなかったり、スマートフォンに文字を打ち込むことに時間を要していたことがこの機能を使うことで一気に解決できるようになります。

また、こういった音声認識を活用した技術で注目されているのはロボット業界です・

ソフトバンク社の「Pepper」、ヴィストン社の「Sota」、富士ソフト社の「Palmi」といったコミュニケーションロボットが続々と開発されており、街中でロボットの存在を確認する機会が増えてきました。特にPepperはソフトバンクの携帯ショップはもちろんのこと、銀行やホテル、オフィスの受付など多くの場面で利用され始めています。NTTグループが開発しているAI技術「Corevo」を搭載しているロボットのSotaは観光地で外国人観光客向けの案内ロボットとして活躍しています。

こうした音声認識を活用した利用は今後ますます盛んになってくることが予想されており、企業でも様々な場所での利用の検討が始まっています。

仕組み

音声認識について理解を深めたところで、具体的な仕組みについて確認していきましょう。

まず、人間から発せられた音声をどのように認識しているかを解説していきます。人間の音声は音波と呼ばれる波形で空気上を伝播して相手に届けられます。この音波を最小単位である音素に分解して、その音素を手がかりに発せられた音声をテキスト化して認識させていきます。

音素とは意味を区別する最小単位のことを指しており、例えば母音(あいうえお)や擬音、子音などで分類されます。例えば、「こんにちは」を音素で分解すると、k-o-n-n-i-ch-i-w-aとなり、このアルファベット一つ一つが音素となります。音素を理解させるためには事前に認識できる辞書を作成しておく必要があり、いくつか紹介します。

音響モデル

音響モデルでは、音波の周波数(どのくらい振動しているかを表す単位)の成分や時間経過を分析することで、その音声がどういった内容のものかを判断します。一般的には数百、数千のモニターの情報に対して統計的に解析を施し、音波を切り出して特徴的な部分を調べることで音響モデルを作成していきます。

この作成された音響モデルに対して、計測対象となる音波がどの特徴に近いかを解析を行い、発せられた音声から意味を抜き出してテキスト化していき音声認識をしていきます。

パターンマッチモデル

パターンマッチモデルでは、事前に用意しておいた正解となるデータに対して計測対象の音素がそれと同じであれば認識させるというもので、音素は入力された順番に処理、探索していく仕組みのため探索しやすい構造でデータを保持しておく必要が出てきます(前方探索モデルの場合)。

例えば、「こんにちは」はk-o-n-n-i-ch-i-w-a、「こんばんは」はk-o-n-b-a-n-w-aとなります。

この場合、最初の3文字は共通した文字列となるため、共通した文字列で情報を保持させてネットワーク状に情報を蓄積することで処理能力を向上させています。このような事前に登録したパターンのどれに該当するかを判別して音声認識をしていきます。

このように音声認識の肝は音声認識させるための音素をどのようにコンピューターが理解して情報として蓄積できるデジタルデータに置換できるかであり、辞書作りがすべての性能の基本となっているといえるでしょう。

認識の課題

音声認識技術を活用したビジネス利用は徐々に広まってきているものの、音声認識にはいくつかの課題が残っています。

例えば、複数人が同時に発話するような電話会議やテレビ会議、国会での答弁のようなシチュエーションでは、同時に発せられた音波から音素を抜き出す際にバラバラにされてしまうため、同一人物の発言として認識することが難しく、単語や文章の作成の精度が上がらないといった課題があります。

同様に雑音が多い環境での利用でも発せられた音声以外の雑音も同時に入力情報として処理してしまうため、雑音を取り除いて発信者情報として整理することが難しく、精度の高い音声認識ができません。

また、音声認識も万能ではないため方言のような一定の地域のみで話されている場合には、標準語をベースに組み立てられていることから正しく認識できません。沖縄のような独特な風土で生まれた言語や東京や京都から離れた地域である青森などの東北地方では方言が色濃く残っているため、音声認識が難しいと言えます。

音声認識の精度という観点以外では、まだまだコンピューターやロボットに対して音声で語りかけるという文化が馴染んでいないため、特に中高齢者は抵抗感があり、普及させていくためには抵抗感をなくすような努力が必要になります。いくら素晴らしい技術であっても活用されなければ意味がないため、特に私生活に密接に関係してくるような介護ロボットや会話ロボットにはそういった人間らしい様相や可愛らしさから抵抗感をなくして、利用してもらえるような働きかけが重要になってきます。

こういった課題は既に顕在化されているため、今後研究が進んでいけば解決される日もそれほど遠くないかもしれません。

まとめ

音声認識技術は日進月歩で進化を続けており、以前に比べてかなり音声認識の精度が向上してきており、コールセンターなど業務効率化を常に求められている場面や労働者不足により一般的な内容はロボットに代替させて処理できない内容を人間で捌くといった分業を推進している業界では、さらに導入が進んでいくことでしょう。

さらに音声認識の精度が向上してくれば、音声のみで業務を進めていくことも可能になるはずなので、例えばスーパーバイザー1人に部下がロボット5台でスーパーバイザーはロボットに対して音声のみで指示を与えて自分はマネジメントに従事するといった活用もできるようになると推察されます。

こういった活用シーンも音声認識が広まって精度が向上してくれば可能になるため、自社でどういった利用ができそうかを考えることでこれまで人手不足で課題となっていた業務の改善や、そもそもの業務自体をコンピューターに任せると行ったこと業務効率化が実現できるようになるかもしれません。一度、音声認識の新しい活用方法について検討してみてはいかがでしょうか。


WRITER

トラムシステム(株)メディア編集担当 鈴木 康人

広告代理店にて、雑誌の編集、広告の営業、TV番組の制作、イベントの企画/運営と多岐に携わり、2017年よりトラムシステムに加わる。現在は、通信/音声は一からとなるが、だからこそ「よくわからない」の気持ちを理解して記事執筆を行う。


UNIVOICEが東京MXの「ええじゃないか」という番組に取り上げられました。

注目記事Recommend Post

  • クラウドPBXの市場動向は?普及率や市場規模からわかりやすく解説

    2021.11.06

  • 着信課金電話番号(フリーダイヤル)とは?仕組みや導入方法を解説

    2020.11.07

  • ビジネスフォンと家庭用電話機はどちらが良い?違いと起業時のおすすめ電話を解説