クラウドPBXや電話システムについてIT・通信のプロが解りやすく解説|voice

ビジネスフォンやクラウドPBXを電話・通信のプロがわかりやすく解説!

\ クラウドPBX資料 /

無料ダウンロード

フリーワード検索

2018.11.28

音声認識での文章作成方法を解説|トラムシステム

私達消費者向けにAmazonからAlexa、GoogleからGoogle HomeといったAIスピーカーが発売されて、音声を活用した新しいエンターテイメントが活気づいてきています。同じように音声認識を利用した新しい取り組みがビジネスでも検討、実行されつつあり、ミッションとして検討される方がも増えてきているのではないでしょうか。

一方で、音声認識は最近話題に上がってきたばかりということもあり、あまり情報が世の中に出回っていないことから、

「音声認識ってそもそも何?」
「音声認識ってどんな考え方で作られているの?」
「隠れマルコフモデル、ディープラーニングとか内容がわからない」

といったお話をよく聞きます。

そこでこの記事では、これから音声認識導入を検討している方向けに音声認識について、隠れマルコフモデルやディープラーニングといった言語の探索方法について詳しく解説していきます。この記事を読むことで、隠れマルコフモデルやディープラーニングといった音声認識で使われる技術について理解を深め、音声認識導入を進める際に必要な知識を得られるでしょう。

サムネイル画像

音声認識とは

まずは音声認識について、改めて整理します。

音声認識とは、マイクなどの入力端子を経由して発信された人間の音声をコンピューターに取り込み、音波として認識させることであり、事前に本人の音波をコンピューターに登録しておくことで本人確認を行ったり、発信された音声をテキストに書き起こしてよく使われる文字や傾向を分析したり、キーボードやマウスのような入力装置として利用もできます。

音声認識では、発声された音波の中から、音の最小単位である音素を特定してテキスト化を行います。日本語の場合、音素は母音(あいうえお)、子音、擬音で区別されます。例えば、「おめでとう」を音素に分解すると、o-m-e-d-e-t-o-uとなり、これらのアルファベットが音素としてコンピューターに認識させます。

この音素は色々な手法を用いて分析、解析されることで音声をコンピューターに認識させていくわけですが、音声を認識させるためには事前に音声認識辞書と呼ばれる音声を認識して文字として置換させるための辞書を用意します。代表的な音響モデルについて簡単に紹介します。

音響モデルでは、音波の時間による変化や周波数からその音波がなんの言葉を意味しているのか判断します。一般的に、音響モデルでは数百、数千といったモニターの音声に対して統計的に処理を行ったものを基礎としており、流れてくる音波がどれに該当するかを判断していきます。

音波を切り出して周波数を調べて事前に登録されている辞書を検索してどの文字と波形や周波数が似ているかを見つけて音を割り当てます。この過程で音声から音素をデジタルデータとして取り込めるため、例えばテキスト化させていくような処理や別の用途で利用すると行ったことも可能になるわけです。

隠れマルコフモデル

ここからは文章の探索方法の一つである隠れマルコフモデルについて解説していきます。

先程音響モデルで解説した手法では、音波を音素に分解をして事前に登楼した辞書を探索することで該当する文字を見つけていくやり方になりますが、単語レベルであれば問題ありませんがそれなりに長い文章に対しては不十分と言えます。文章を理解するためには、その単語前後の意味やその単語の位置づけなどを考えていく必要があります。

隠れマルコフモデルでは、その語句がその後どのような語句が使われるかを確率で定義するモデルであり、現在の音声認識技術の中では非常によく使われている手法です。

例えば、「私」はという文章があった場合に、その後に続く単語としては「私は神」よりも「私は山田」と繋がる方が次に繋がる単語としては確率が高いと言えます。また、同様に「私は山田だ」よりも「私は山田です」の方が高確率となれば、「私は」という単語を認識したら、「私は山田です」と処理が走ります。

このような確率を用いて行う過程を確率過程と呼びます。

隠れマルコフモデルを説明する前にマルコフ過程を整理しよう。マルコフ過程とは、マルコフ性を持つ確率過程のことであり、未来を決めるのは現在の値だけで過去の挙動や出来事とは無関係であるとする確率過程を意味しています。このマルコフ過程を持つモデルをマルコフモデルと言い、そのうち観測されない(隠れている)状態であるマルコフ過程のことを隠れマルコフモデルと言います。

つまり、隠れマルコフモデルはある時点の状態に関しては1つ前の状態に依存しており、過去の状態変化は把握できないため、出てきた結果からのみ次の言葉を推測するモデルであると言えます。隠れマルコフモデルを使うことで、過去の状態を複雑な数式で処理する必要がなく、出てきた結果のみに対して確率過程を適用して文字を選んでいくことが可能になります。

その結果、隠れマルコフモデルを利用することで、音声認識では事前に発声された音素から次に繋がる音素を予測して文字をつなげられるというわけです。

ディープラーニング

次に、ディープラーニングについて解説していきます。

ディープラーニングとは、十分なデータをコンピューターにインプットすることで、人間を介さないでコンピューターでデータの特徴を導き出してくれるディープニューラルネットワークを用いた学習モデルのことです。ディープニューラルネットワークとは、人間や動物の脳神経回路を司っているニューロンをモデルとしてアルゴリズムであり、その精度の高さから最近注目を浴びている手法です。

このディープラーニングが注目を集めるきっかけとなったのが、2012年にトロント大学のヒントン教授らが世界的な人工知能の競技会で圧勝したことや、最近では世界トップレベルの棋士に人工知能の囲碁プログラムが勝利したことでしょう。

このディープラーニングは人工知能の一つの要素技術であり、一言でディープラーニングといっても様々なアルゴリズムがあるため、ビジネスで利用するためにはどのアルゴリズムが適切なのかを検討する必要があります。

例えば、先程解説したディープニューラルネットワーク以外にも、畳込みニューラルネットワークと呼ばれる局所的な情報を抽象化させることで成り立たせるアルゴリズムや、音声や動画などのデータを取り扱えるようにした再帰型ニューラルネットワークなどがあります。

こういったアルゴリズムを利用することで、以下のような用途で利用されます。

画像認識

画像や動画などをインプットして文字や顔といった特徴的なものを認識、検出させる技術であり、背景から特徴を分離して目的とする特徴を見つけ出します。Facebookのタグ付け(顔認証)、自動車の自動運転、感情分析などに利用されます。

音声認識

発せられた音から内容を認識するもので、人間の声を認識させてテキスト化させたり、音声の特徴から特定の人物を見つけ出します。iPhoneのSiriなどの音声入力、議事録の自動作成などに利用されます。

自然言語処理

人間が日常的に話をする言葉(話し言葉や書き言葉)をコンピューターに認識させて人間に変わって処理をさせるものです。銀行や保険などのコールセンターでの自動問い合わせ対応、演説の要約、英語の機械翻訳などで利用されます。

異常検知

工場などの産業機器などに取り付けられたセンサーなどで取得した時系列データから、異常値を見つけだします。工場内のプロセス監視(異常や故障、危険感知)で利用されます。

ディープラーニングを活用することで人間と同じようなことを機械が代わりに行うことも可能になることから、今後はますますディープラーニングを活用したサービスがリリースされるようになるでしょう。

まとめ

音声認識は、人間から発せられた言葉を音素に分解して音を認識していく手法であり、隠れマルコフモデルやディープラーニングといったアルゴリズムをうまく活用しながら、人間の代わりに機械で処理をさせようとする取り組みであり、AmazonのAlexaやGoogleのGoogle Homeのような一般消費者も少しずつ恩恵を受けるようになってきました。

同様にビジネスでも、文字を使わないで音声だけで様々な処理ができることから、音声中心で業務が回っているコールセンターの業務効率化や道案内などの掲示板などで人間に代わり案内できると行った使い方も可能になっていきます。これを機会に音声認識について学習を深め、自社の業務に使えないか検討してみてはいかがでしょうか。そうすることでこれまでにない、新しい業務効率化のアイデアが浮かぶかもしれません。


WRITER

トラムシステム(株)メディア編集担当 鈴木 康人

広告代理店にて、雑誌の編集、広告の営業、TV番組の制作、イベントの企画/運営と多岐に携わり、2017年よりトラムシステムに加わる。現在は、通信/音声は一からとなるが、だからこそ「よくわからない」の気持ちを理解して記事執筆を行う。


UNIVOICEが東京MXの「ええじゃないか」という番組に取り上げられました。

注目記事Recommend Post

  • コードレスビジネスフォンとは丨子機の増設や価格についても解説

  • クラウドPBXのデメリットと対策丨導入前に知っておきたい5つの注意点とは

    2021.07.13

  • 【基本】ビジネスフォン外線のかけ方・受け方は?固定電話の機能と使い方を解説