クラウドPBXや電話システムについてIT・通信のプロが解りやすく解説|voice

ビジネスフォンやクラウドPBXを電話・通信のプロがわかりやすく解説!

\ クラウドPBX資料 /

無料ダウンロード

フリーワード検索

2022.08.22

音声認識 /

日本語の音声認識はなぜ難しい?精度向上のポイントも解説|トラムシステム

人間の発話をテキスト変換する音声認識技術はAIによって精度が向上しており、スマートスピーカーやバーチャルアシスタントで活用されています。しかし、いくつかの技術的課題はいまだ残されており、特に日本語を認識する精度は十分とは言えません。

音声認識技術の仕組み、精度が低くなる原因、日本語の音声認識が抱える課題について解説します。
サムネイル画像

音声認識とは

音声認識とは、人間の発した言葉をテキストに変換し、文字起こしや分析を行う技術の総称です。テキストから人間の要望を読み取り返答する技術の研究も盛んで、スマートスピーカー「Amazon Alexa」やバーチャルアシスタント「Siri」は一般レベルまで普及しました。

音声認識技術の発展はAIの進歩によるものです。AIが大量のデータから自らパターンを学習する「ディープラーニング」と呼ばれる技術が開発され、精度が飛躍的に向上しました。現在も多くの商品やサービスが開発されており、音声認識市場は一大産業となっています。

音声認識の仕組み

音声認識は2つのプロセス、「音素の特定」と「テキスト化」によって行われます。また、これらのプロセスを遂行するために必要なのが「音声認識辞書」です。

音素の特定

言葉は目に見えない音波として人の耳に届きます。この音波の最小単位は音素と呼ばれており、この音素を特定するのが音声認識のキモです。例えば、日本語の音素は「あいうえお」の母音、23個の子音、「ン」や「ッ」などの特殊な発音から成り立ちます。

音素を特定する際のプロセスは以下の通りです。

1.人の音声をマイクなどの入力装置で録音
2.ノイズや雑音など、不要な音声を処理
3.音波から音素を特定

テキスト化

あらかじめシステムにインプットしておいた「音声認識辞書」をもとに音素を解析し、単語や文章に変換するのがテキスト化です。ディープラーニングによって、AIが学習結果から自ら音声認識辞書を改善するよう進化しており、音製認識の精度向上に貢献しています。

特定した音素をテキスト化するプロセスは以下の通りです。

1.音素の並びを特定し、単語に変換
2.単語の並びから文章を作り、テキストとして出力

音声認識辞書

音素の並びを解析し、単語や文章としてアウトプットする音声認識辞書は音声認識に欠かせません。様々なモデルがありますが、基本のモデルは以下の3つです。

1.音波の波形を分析し音素を抽出する音響モデル
2.音素を事前に記憶させたデータと照らし合わせ単語に変換するパターンマッチモデル
3.単語の繋がり状況を調べ最も可能性が高い組み合わせを文章化する言語モデル

これらの3つのモデルが音波を音素→単語→文章へと変換し、音波をテキストへと変換します。階層的な処理を行うため、大きな誤りが生じにくいのが特徴です。

音声認識の精度が低くなる原因

日進月歩と呼べる進化を遂げた音声認識技術ですが、満足する精度を得られないケースは珍しくありません。実際にスマートスピーカーやバーチャルアシスタントを利用して「思ったより言葉を認識してくれない…」と感じた方も多いのではないでしょうか。

音声認識がいまだ100%の精度を発揮できない原因を見ていきましょう。

雑音・音割れなどがある

音声認識は音素を特定する必要があるため、音声に雑音や音割れが含まれると認識制度が低下します。

雑音を除去するマイクやソフトウェアの開発が開発されているものの、あらゆる雑音に対処するのは容易ではありません。雑音があまりに大きいと、そもそも除去しても発話を認識できないといった問題もあります。

訛りがある・滑舌が悪い

人間の耳と同じく、標準語から離れた方言による訛りや活舌の悪さも認識制度を低下させます。

方言は音声認識に必要なデータが不足しがちな点が問題です。幅広い対象から収集した方言の音声とテキストのペアを繰り返しAIに学習させつつ、方言の意味を辞書に登録しなければなりません。

活舌の悪さによる発音のブレは、特定した音素をひらがなに変換し、ありうる単語に変換することでカバーします。例えば「あいがとお」とシステムがテキスト化した場合、一致する可能性が高い単語である「ありがとう」と解釈し変換を行うのです。

音が似ている言葉が複数ある

「B」と「D」や「1」や「8」など、発音が類似している単語の区別は人間でも苦労します。このような英語やアルファベットは使われる文脈も似ているため容易ではありません。文脈から判断できない場合は、純粋に発音のみで音が似ている言葉を見分ける必要があります。

固有名詞が使われている

姓名などの固有名詞は表記が複数考えられるため、一筋縄ではいきません。

例えば「加藤」「加登」「河東」の読み方はいずれも「かとう」となるものの、音声のみでこれらを見分けるのは困難と言えるでしょう。音声認識辞書にそれぞれの単語を登録することはできても、実際に音声を聞いて区別ができなければ意味がありません。

日本語の音声認識が特に難しい理由とは

音声認識の中でも、ひらがな、カタカナ、漢字が入り混じる日本語の音声認識が特に難しいとされています。日本語の音声認識に立ちふさがる障害と対策についてみていきましょう。

同音異義語が多い

日本は世界の言語の中でも特に同音異義語が多く、音声だけでは正確な音声認識が困難です。漢字で同音異義語を区別する仕組みのため「交渉」「考証」「高尚」など同音異義語が3つ以上あるケースも少なくありません。

このような場合は、内容や文脈から正しい言葉を出力できるようシステムや音声認識辞書を改善します。例えば「こうしょうな文学」であれば、後の文脈から推測して「高尚」を当てはめることが可能です。

新しい概念や言葉の誕生で同音異義語は増加するため、社会の最新トレンドをつぶさにチェックし、人力やディープラーニングで音声認識辞書の単語を増やしていく必要があります。

単語の区切りがない

日本語には、英語のように単語と単語の間にスペースを入れる「分かち書き」がありません。文章中の単語が全てつながっているため、音素を正しい単語や文章に変換する時に困難が生じます。

例えば「外国人参政権」の単語は「外国」「人参」「政権」の3つにも分解できるため、AIが意味を正しく理解できず間違ったパターンを学習してしまう恐れがあります。AIに学習させる際は文章の分かち書きを疑似的に行い、単語を正しく認識させなければなりません。

この分かち書きのロジックを、文章を意味のある最小単位に分解する「形態要素解析」と呼びます。音声認識辞書と形態要素解析を常に改善し、誤った認識や解釈を防ぐのが技術者の役割です。

まとめ

音声認識、特に日本語の音声認識にはいまだ複数の課題が残されているものの、すでに多くのサービスが開発され一大市場を築いています。事業に導入する場合は、音声認識が今できること、できないことを認識し、どのような業務を任せるか検討しましょう。


プロフィール写真

WRITER

トラムシステム(株)メディア編集担当 鈴木康人

広告代理店にて、雑誌の編集、広告の営業、TV番組の制作、イベントの企画/運営と多岐に携わり、2017年よりトラムシステムに加わる。現在は、通信/音声は一からとなるが、だからこそ「よくわからない」の気持ちを理解して記事執筆を行う。


UNIVOICEが東京MXの「ええじゃないか」という番組に取り上げられました。

注目記事Recommend Post

  • 小規模コールセンターをシステム化しよう!メリットや選び方を解説

  • 【導入担当者必見】クラウドPBXの構成図・仕組みをわかりやすく解説

    2021.08.30

  • ビジネスフォン・電話交換機工事で失敗しない業者選び