Voice

ビジネスフォンやクラウドPBXを電話・通信のプロがわかりやすく解説!

\ クラウドPBX資料 /

無料ダウンロード

フリーワード検索

2019.04.18

音声認識技術の仕組みと課題丨音声がテキスト化されるまで|トラムシステム

本人確認や音声のテキスト化を目的として、様々なシーンで利用されている音声認識技術。アルゴリズムや人口知能の発展によって精度も急激に向上しており、Amazonの開発した「Alexa」などでそれを実感できます。しかし、詳しいメカニズムや用途などは、十分に理解が広がっていません。まだまだ発展途上な面もあり、万能ではない点に注意が必要です。本記事では、音声認識技術の仕組みや今後の課題について解説します。

音声認識技術とは

音声認識技術とは、人の音声を記録してデジタルデータに変換し、それをもとにテキスト化や話者特定を行う技術です。特にテキスト化はキーボードに代わる入力手段として注目されており、スマホや家電との連携が盛んに行われています。機器に話しかけるだけでインターネット検索を行うアシスタントアプリケーションは、もはや一般的と言えるレベルまで普及しました。

音声認識技術の歴史は長く、60年前から研究はスタートしています。ですが、ユーザーが満足できる精度を得ることは難しく、なかなか一般家庭に普及しませんでした。しかし、2000年代になってアルゴリズムの改善による精度向上が達成され、カーナビやテレビの音声入力手段として普及し始めます。

2010年代には、iPhoneの「siri」やGoogleアシスタントのようなアシスタントサービスが開始されました。これにより知名度が高まり、本格的な商品開発が進むようになります。Amazonから発売された音声アシスタントスピーカー「Amazon Echo」は、2016年に1100万台を売り上げました。

他にも関連商品が続々と発売され、市場の成長が顕著です。今後も成長を続けることが予測され、音声認識技術はもはや一大産業といえます。

音声認識の仕組み

世界中で注目を浴びている音声認識技術。そんな音声認識の仕組みについてまずは解説していきます。現在の音声認識技術で重要な要素は、「音素の特定とテキスト化」です。この2つに重点を置いて解説しますので、概要の把握に役立ててください。

音声認識技術とは”音素”を特定しテキスト化すること

言葉は調音器官を使って発せられ、目には見えない音波として人の耳に届きます。音声認識技術では、音波から音の最小構成単位である「音素」を特定し、それを手がかりにしてテキストに変換することが重要です。日本語の音素は、下記のようになります。

1.母音の「あいうえお」
2.撥音の「ン」
3.子音23種類

例えば「ありがとう」の場合、音素を抜き出すとa-r-i-g-a-t-oとなり、アルファベットの一字一字が音素となります。この音素をもとにテキスト化を行うのが、音声認識の技術になります。

テキスト化までのプロセス

では、音声認識はテキスト化をどのように行うのでしょうか。まとめると下記のようになります。

1.人の音声をマイクなどの入力装置で録音
2.ノイズや雑音など、不要な音声を処理
3.音波から音素を特定
4.音素の並びを特定し、単語に変換
5.単語の並びから文章を作り、テキストとして出力

このように、音素を抜き出しただけではテキスト化は達成できません。音素を特定した後、それを意味のある単語として認識させる(テキスト化させる)作業が音声認識には必要です。テキスト化は音声認識の精度向上に立ちふさがる最大の壁で、これまで様々な手法が開発されましたが、決定的なものはいまだ見つかっていません。

テキスト化を行う上で最も重要だと考えられているのが、音素を単語や文章に変換するための「音声認識辞書」です。ここでいう辞書は人が読む本ではなく、音声認識エンジンが内蔵しているシステムを指します。音素の並びをインプットされた音声認識辞書で解析し、結果を言語としてアウトプットするのです。

現在、音声認識辞書はディープラーニングによる機械学習を活用する段階です。機械学習によって「学習し自ら改善する辞書」に進化し、精度向上を行う研究が進められています。

音声認識辞書とは

それでは、音声認識に必須の「音声認識辞書」について解説します。様々なモデルがありますが、基本となるのは以下の3つです。

・音波の周波数を分析して、内容を把握する音響モデル
・事前に記憶させた、正解となるデータと照らし合わせて単語に変換するパターンマッチモデル
・単語のつながり状況を判断し、最も確率が高い組み合わせを求める言語モデル

以下の3モデルを順番に行うことで、「音素→単語→文の順番」で高度な音声認識が可能です。下位モデルのアウトプットは上位モデルのインプットになり、精度も向上していきます。各モデルの特徴を確認し、システム運用時の参考にしてください。

音響モデル

音声の波形を1字1字切り取り、音声認識の基本となる音素を抽出するのを「音響モデル」と呼びます。数百数千のモニターから音声データを収集し、それを解析して特徴的な部分を調べ、音響モデルを作成していくのです。

完成した音響モデルは、実際の音声と比較され、特徴の一致する波形を見つけテキスト化します。日本語の音素はアルファベット形式なので、「さよなら」の場合s-a-y-o-n-a-r-aと表示されます。

このように音響モデルによって音素は抽出されますが、発音をアルファベットで1つずつ取り出しただけなので、文章はおろか日本語の単語ですらありません。音素を日本語として処理したい場合は、次の段階にいきましょう。

パターンマッチ辞書モデル

次に行われるのが、特定された音素を辞書でマッチングし、単語として表現するパターンマッチング辞書モデルです。例えば、音素がo-h-a-y-oの場合は「おはよう」の単語、h-a-iの場合は「はい」の単語のように日本語の単語で表示されます。これはパターンマッチの処理と呼ばれ、音声認識のテキスト変換の基礎です。これにより、アルファベットの羅列でしかなかった音素が日本語として読めるようになります。

ただし、前段階の音素を取り出す段階で誤りがあり、システムが誤った単語に変換する場合があります。その場合は、それらしい単語を人力で選ぶことで、誤りを補正しましょう。単語ではなく文章全体での処理を行いたい場合は、次の段階に移行する必要があります。

言語モデル

単語のつながり状況を調べ、最も可能性が高い組み合わせとして文章化するのが言語モデルです。「わたしは」「がっこうに」「いく」のように文章として完成していない単語群を、可能性の高い組み合わせ例をもとに「私は学校に行く」として文章化します。

当初は、「ある単語の出現確立はその(N-1)前までに出現した言語で決まる」N-gramが言語モデルで利用されていました。現在はRNN(回帰型ニューラルネットワーク)の導入が進められていますが、場合によってはN-gramと併用するケースもあります。

このように、音素→単語→文章という階層構造のアルゴリズムで処理することで、音声認識は音のテキスト化が可能です。階層的な処理を行うことで、大きく誤った結果になることも防いでいます。音声認識システムを運用する際は、階層的な処理を行うものを利用しましょう。

現時点での音声認識のレベルと課題

近年、IBMとMicrosoftが「電話の音声認識で95パーセントの認識率を記録した」と発表するなど、音声認識のレベルは人間レベルに向上したといわれています。しかし、以下のような条件を満たさないと、音声認識の精度は急激に悪化するのです。

・雑音やノイズが少ない環境であること
・1対1など、少人数での対話であること
・音量が大きく、発音が明瞭であること
・方言やスラングなど、くだけた言葉を使わないこと

人間がこの条件を満たさずとも会話ができるのは、文脈や相手の表情を分析して脳が補完しているからです。音声認識システムの補完機能はまだまだ発展途上なので、人間と同じレベルにはまだまだ達していないといえます。しかし、今後技術の発展が進んでいけば、いずれは人間と同レベルの音声認識能力を獲得するでしょう。人工知能と機械学習の発展がそれを後押しすると予想されます。

まとめ

人の音声を分析する技術である音声認識。信頼性に不安のあった時期を終え、その精度は急速に進化しつつあります。実用的な商品を出す段階に達し、AIスピーカーや音声アシスタントシステムが一般家庭に普及しています。ロボットやAIとの対話の際にも、音声認識技術が役に立つでしょう。概要を理解し、来るべき「音声認識時代」の到来に備えてください。


WRITER

トラムシステム(株)メディア編集担当 鈴木 康人

広告代理店にて、雑誌の編集、広告の営業、TV番組の制作、イベントの企画/運営と多岐に携わり、2017年よりトラムシステムに加わる。現在は、通信/音声は一からとなるが、だからこそ「よくわからない」の気持ちを理解して記事執筆を行う。


UNIVOICEが東京MXの「ええじゃないか」という番組に取り上げられました。

注目記事Recommend Post