クラウドPBXや電話システムについてIT・通信のプロが解りやすく解説|voice

ビジネスフォンやクラウドPBXを電話・通信のプロがわかりやすく解説!

\ クラウドPBX資料 /

無料ダウンロード

フリーワード検索

2020.12.26

音声認識の仕組みをわかりやすく解説丨音響モデル・言語モデルとは?|トラムシステム

AI技術の1つであるディープラーニングの進歩で注目されはじめた技術が音声認識です。

音声を識別するモデル、音響モデルや言語モデルを用いて、これまで分析が難しかった音声をデータとして機械に認識させます。すでにスマートスピーカーなど音声認識を用いた商品が多数登場しており、市場への普及が顕著です。

本記事では音声認識の歴史や仕組みについて解説します。

サムネイル画像

音声認識とは

音声認識とは、AIが音声、特に人間の音声を認識し、データ化する技術です。認識した音声データはテキストへの変換や話者認識(話している人間が誰か特定する技術)に用いられており、技術を応用した商品が年々増加しています。

音声認識を利用した技術で近年発展が目覚ましいのが、Amazon、Google、LINEが発売しているスマートスピーカーです。対話型の音声操作に対応したAIアシスタントで、情報検索や家電の操作が行えます。そのほかにも、以下のような商品が開発・提供されています。

・自動文字起こし
録音した音声の文字起こしは人力で行われてきましたが、音声認識を活用すれば、高い精度で代行可能です。文字起こしにかかっていた手間や労力をなくし、重要な作業に集中できます。現時点では100%正確とはいえませんが、内容をある程度理解するには十分です。

・自動応答による店舗予約
店舗に予約の電話が入った際、人間ではなく、AIによる自動応答で対応するサービスです。音声合成技術もかけ合わせることで、まるで人間と会話しているかのような受け答えを実現します。

・リアルタイム翻訳
認識した音声をリアルタイム翻訳することで、同じ言語が離せない人間ともスムーズに対話ができます。代表的なサービスとしてNECが提供する「NEC翻訳」が存在しており、訪日観光客への観光案内やガイドに利用可能です。

・人間の感情を音声から分析
音声の特徴を学習させることで、喜び、悲しみ、怒りといった人の感情を解析するシステムです。メンタルヘルスケアやコールセンターでの顧客感情分析に用いられるだけでなく、人との自然なコミュニケーションを実現する研究にも導入されています。

音声認識技術の歴史

音声認識技術の歴史は意外に古く、1960年代のアメリカでスタートしています。

1975年には、IBMが民間企業として初めて技術開発に着手しました。その後「マルコフモデル」「混合ガウスモデル」「IBMヴィアボイス」といった技術が発表されましたが、当時のコンピューターではデータの統計処理が難しく、民間で利用されることはありませんでした。

2000年代以降に入ると、コンピューターの能力向上と端末の小型化が急速に進み、状況が変化します。新時代の口火を切ったのは、2011年にアップルがスマートフォンに搭載したバーチャルアシスタント「Siri」です。

利用者の音声を認識して質問の回答や推奨事項の提示を行うシステムで、継続的に利用すれば精度が向上していきます。「Siri」の登場で音声認識技術を意識した方も多いのではないでしょうか。2014年にはマイクロソフトもAIアシスタント「Cortana」を発表し、各社で開発競争が盛んに行われるようになります。

そして、2017年には、アップルが初のAIスピーカー「ホームパッド」を発表しました。アメリカを中心にまたたくまに普及していき、今後も市場が伸びていくと予想されています。学習率の向上が目覚ましく、家で行う作業を自動化するホームオートメーションや自動車の車載機に搭載しての利用に注目が集まっています。

音声認識の仕組み

ここからは、音声認識の詳しい仕組みを実際に見ていきましょう。複雑な用語や概念が多いですが、なるべく平易な言葉を使って解説していきます。ビジネスで活用したい方は、技術の急速な進歩や変化に気を配り、定期的なキャッチアップを欠かさず行いましょう。

そもそも音声とは

音声とは何か、という問いにはさまざまな返答が可能ですが、音声認識技術では「舌、唇、声帯など人間の調音機関を複雑に使用しながら発せられるもの」と定義されています。要するに、音声認識技術は人間の話し声を音声として認識する必要があります。

特に複雑なことではないように思えますが、他人の話し声を自然と認識できる人間とは違い、機械にとっては難問です。人間の発する音声とそれ以外の音を正確に分類する必要があるだけでなく、性別、話し方の癖、言葉遣いといった人それぞれ違う要素も認識する必要があります。

このような難問を解くため、音声認識は以下の4ステップを経て行われます。

1.録音した音声の特徴量を扱いやすいデジタルデータに変換(音響分析)
2.特徴量を事前に学習したデータと照らし合わせ音素(音波の最小単位)を抽出する(音響モデル)
3.特定された音素を発音辞書と連携して単語として組み立てる(パターンマッチ)
4.単語の繋がりを調べより正確な文章を組み立てる(言語モデル)

ステップ1.音響分析

入力された音声の特徴量(周波数や音の強弱)を調べ、扱いやすいデータとして抽出し変換する作業を音響分析と呼びます。

AIは人間のように生の録音データから音声を認識できないため、認識させやすいようデジタル化し、ノイズ除去を行う必要があるのです。音響分析で抽出されたデータを土台として、AIは音声認識を進めていきます。

ステップ2.音素の抽出(音響モデル)

データ化した特徴量をAIが事前学習したデータと照らし合わせ、音波の最小単位である音素を抽出する作業を音響モデルと呼びます。

学習データは数千人、数千時間の人間の声を統計的に処理したものを用いるのが一般的です。音素を抽出することで、AIが音声をテキスト化するための情報を得ることが出来ます。

音素とは、音声を発したときに観測できる音波の最小構成要素です。日本語の場合、音素は母音(アイウエオ)、擬音(ン)、子音(23種類)の3種類から成り立っており「おはようございます」の場合はo-h-a-y-o-u-g-o-z-a-i-m-a-s-uが音素となります。

ただし、この段階では音素が「o-h-a-y-o-u-g-o-z-a-i-m-a-s-u」と分かっただけで日本語の文章になっておらず、正確な音声認識とは言えません。次のステップであるパターンマッチや言語モデルを用いて、正確なテキストデータに変換していきます。

【用語解説】隠れマルコフモデル

音響モデルでは「隠れマルコフモデル」という確率過程が利用されています。

隠れマルコフについて理解する前に、まずはマルコフモデルおよび確率過程について把握しましょう。マルコフモデルとはマルコフ過程とも呼ばれ、マルコフ性を持つ確率過程と定義されています。

1.マルコフ性とは
確率論における特性の1つで、将来の状態は現在の状況によって決定され、過去のあらゆる状況にも依存しない特性を指します。例えば天気予報は通常過去の気象データを使って予測を行いますが、マルコフ性の場合は現在の状況のみで予測します。

2.確率過程とは
時間の経過とともに値が変動する確率変数です。株価や為替の変動を解釈するために用いられており、ランダムな実験結果によって得られるあらゆる結果を示す変数と定義されています。1ドル100円以上だったとした場合の確率が40%、それ以下の場合を60%だった場合、為替は相場は時間によって価格が変動するため、この確率の値も常に変動します。

3.隠れマルコフモデルとは
マルコフ性と確率過程を満たしている音響モデルが、隠れマルコフモデルです。その名の通り、観測されない状態を持っているマルコフ性を持つと定義されます。

例えば、マルコフという少年が、散歩するときの距離をその日の天気によって決定しており、結果を遠いところに住んでいる自分の母に電話しているとします。マルコフの母はマルコフの住む街の天気(状態)を知ることは出来ませんが、散歩の結果(出力)から把握することは可能です。このように、結果の出力から隠れた状態を把握することを隠れマルコフモデルと呼びます。

ステップ3.パターンマッチ

音響モデルで抽出した音素「o-h-a-y-o-u-g-o-z-a-i-m-a-s-u」を「おはようございます」として認識させるために行う作業がパターンマッチです。

音素がどの単語と近いかを「発音辞書」と呼ばれるデータベースを用いて照らし合わせ、音素を単語単位で組み立てていきます。これによって、単なるアルファベットの羅列が「おはようございます」と日本語として読めるようになるのです。

ただし、音素を抽出する段階で誤りが発生する場合もあり、その場合は人間の手で正しい単語への変換を行います。

ステップ4.言語モデル

パターンマッチのステップは単語を現したのみであり、日本語の文章として確立されているとはいえません。「おはようございます。今日も良い天気ですね」のように文章化するために行う作業が言語モデルです。

「おはようございます」「きょうも」「よい」「てんきですね」のように完成していない単語群を、日本語テキストを多く集め統計処理したデータをもとに、可能性の高い組み合わせ例をもって意味のある正確な文章として整形します。言語モデルの手法として良く用いられているのが「N-garmモデル」です。

【用語解説】N-gramモデル

クロード・エルウッド・シャノンが考案した言語モデルで、「ある文字列の中で、N個の文字列または単語の組み合わせが、どの程度出現するか」を調査するモデルです。

文章の学習データを大量に備蓄して出現記録を学習させ、認識させたいデータと照合して文章を整形します。

ただし、N-gramモデルは事前に学習したデータ内で頻度が少ないものや0であるものを苦手としており、そのようなデータが多い場合、精度の低下やノイズの発生を引き起こすのが欠点です。

現在ではディープラーニング技術を利用したRNN(リカレントニューラルネットワーク)による「DNN-HMM」、あるいはN-gramモデルとRNNの併用が新たな手法として注目されています。

【用語解説】発音辞書

音響モデルと言語モデルを繋ぐ役割を果たすのが発音辞書です。

音響モデルで抽出した音素の並びを組み合わせ、単語として構成する際のデータベースの役割を果たします。発音辞書を用いた音素の連結によって、単語に相当する単語音響モデルを構築可能となるのです。

発音辞書がない場合「おはようございますきょうもよいてんきですね」と単語を意識していない文章となるため、自然な文章とするために欠かせないデータ群といえます。

音声認識と自然言語処理

音声認識と混同されやすい技術に自然言語処理があります。自然言語処理は、音声を単純にテキスト化する音声認識とは明確に異なる技術です。両者の違いを解説していきます。

自然言語処理とは

AIが人間の発する言葉の意味を理解し、適切な行動を決定して反応を返す技術の総称です。言語を変換する技術である音声認識とは違い、言葉の意味を正しく理解する必要があります。

自然言語処理は、以下の4ステップから実行されます。

1.言葉をそれぞれの意味を担う最小単位に分割する形態素解析
2.分割した言葉の係り受け関係を解析する構文解析
3.事前に用いたデータベースを用いて、文章の意味を認識する意味解析
4.複数の文章間で形態素解析と意味解析を行い、文章全体の関係性質を把握する文脈解析

これらの手順を踏まえて自然言語を機械が理解できるようになり、データとして活用できます。また、この4ステップを実行する前段階として、文字を機械が読み取れる規格に変換する「機械可読目録」や自然言語の文章を記録したデータベース「コーパス」が必要です。

音声認識と自然言語処理の関係

音声認識と自然言語処理は組み合わされて利用されるのが一般的です。冒頭で紹介したスマートスピーカーでも併用されています。

例えば、スマートスピーカーの機能が音声認識技術だけだった場合、人間の「明かりを付けて」という言葉を認識することは出来ますが、意味を認識できないため、要望に応えることが出来ません。言葉の意味を理解して「明かりを付ける」と言う行動に映すためには、自然言語処理技術が必要となります。

このように、AI技術は単体では活用できないため、複数の技術を併用するモルチモーダル運用が行われています。

まとめ

理解しにくい部分もある音声認識技術について今回は解説しました。まだ技術的に未熟な部分もありますが、今後の技術発展で是正され、あらゆる商品やサービスに用いられる技術です。仕組みを理解し、ビジネスの分野で活用しましょう。


WRITER

トラムシステム(株)メディア編集担当 鈴木 康人

広告代理店にて、雑誌の編集、広告の営業、TV番組の制作、イベントの企画/運営と多岐に携わり、2017年よりトラムシステムに加わる。現在は、通信/音声は一からとなるが、だからこそ「よくわからない」の気持ちを理解して記事執筆を行う。


UNIVOICEが東京MXの「ええじゃないか」という番組に取り上げられました。

注目記事Recommend Post

  • クラウドPBXの利用料金の仕組みとコスト管理の注意点

    2018.12.05

  • テレワークで必要な「つながらない時間」とは?企業や個人の対応を解説

  • コールセンターが通話録音をする理由とメリット丨開示義務や保存期間は?