クラウドPBXや電話システムについてIT・通信のプロが解りやすく解説|voice

ビジネスフォンやクラウドPBXを電話・通信のプロがわかりやすく解説!

\ クラウドPBX資料 /

無料ダウンロード

フリーワード検索

2019.01.07

テキストマイニングの分析手法丨分析の流れとやり方をわかりやすく解説|トラムシステム

SNSやアンケート、コールセンター・コンタクトセンターなどを通じて得られる膨大なデータの活用のために、注目されているのが「テキストマイニング」です。しかし、テキストマイニングが具体的にどのような仕組みで分析しているのかは分からない、という方も多いでしょう。

この記事では、テキストマイニングの分析方法について、データの種類や自然言語処理の方法について詳しく解説していきます。

サムネイル画像

テキストマイニングとは

テキストマイニングとは、大量のテキスト情報の中から様々な有益な情報を発掘することができる技術です。

SNSやアンケートなどのデータを一箇所に集めて分析することで、人の目では確認しきれない一定の法則を見つけたり、企業のマーケティング活動に有益な情報を獲得したりすることが可能です。

テキストマイニングの分析対象

テキストマイニングの技術を活用して分析が行われるデータには、次のようなものがあります。

・ソーシャルメディア(Twitter、Instagram、ブログ、Facebookなど)
・顧客アンケート
・コールセンターでのオペレータやり取り
・メール
・インターネット掲示板
・口コミサイト
・エスノグラフィーによるマーケティング調査
・論文や特許などの技術文書
・チャットボットや質問応答システム

例えばTwitterは、非常に即時性が高いSNSです。Twitterでは、ユーザーが思ったことや感じたことをすぐに素直につぶやく傾向にあるので、本音に近い生の声を拾うことができます。

一方で、対象ユーザーの性別や年齢層によっては、Twitter以外のSNSのほうがデータを集めやすい場合もあります。50代の男性が対象なら、若い世代の利用者が多いTwitterよりも、Facebookのほうが分析対象として適しているでしょう。

テキストマイニングの目的

テキストマイニングの一番の目的は、製品やサービスに対する消費者のニーズを発見することです。

インターネットに誰でも手軽にアクセスできる昨今では、情報の拡散スピードも昔とは比較になりません。いい評判はもちろんですが、企業ブランドやイメージを損ねるような悪評が、気づかぬうちに拡散してしまうリスクもあります。

消費者の声から不測の事態をいち早く察知し、適切な予防処置や対応施策を行うためにも、テキストマイニングは有効に活用することができます。

テキストマイニングの分析対象となるデータ

ビッグデータの領域で取り扱われるデータ様式には、大きくわけて次の2つがあります。

1.構造化・定量データ
2.非構造化・定性データ

それぞれについて詳しく解説していきましょう。

構造化・定量データ

構造化データとは、コンピュータやクラウド上のデータベースに保管して容易に検索や分析をすることができるデータのことです。

企業の売上げや費用などの財務データ、顧客満足度の集計データや生産関連のKPI等、企業活動を数値化した定量データ(Excelデータ)がその典型です。

非構造化・定性データ

非構造化データとは、構造化データと異なり、特定の構造を持たないデータのこと。メールや文書、画像、動画、音声などの定性データがその典型で、テキストマイニングで分析対象となるデータです。

テキストマイニングで取り扱う文字列データは、代表的な定性データです。定性データは定量データのように簡単に数値化することができないため、データを客観的に抽出するためのルールやモデルが必要となります。

このため従来、定性データの分析は多くの人手が必要で膨大なコストの掛かる作業でした。

しかし、評価や感情分析(センチメント分析)、対応分析(コレスポンデンス分析)、主成分分析、テキスト分析、自然言語処理、意味処理など、定性データを定量的なデータに変換する技術が発達し、より効率よくデータを解析し活用することができるようになってきています。

日本語文章の分析が難しい理由

定性データは、データが定型化されていないため、元々定量データに比べて解析のハードルが高いと言われます。

さらにこれまで定性データの分析が難しかった理由のひとつは、日本語という文章にありました。日本語は、英語などの諸外国語に比べ文法が複雑です。

単語と単語の境界線を判別する必要があったり、文法のゆらぎがあるために解析が難しいのです。

・コンピュータとコンピューター
・ドーナツとドーナッツ

例えば上記のように、外国語由来のカタカナ語の場合、表記が定まっていないこともあります。漢字の場合、同じ意味や読み方の漢字が何種類もあったり、新字体と旧字体が併存しているために、その使い分けのルールが複雑です。

さらに係り受け解析(構文解析)の難しさなども相まって、日本語文章のテキストマイニングは困難であると考えられてきました。

しかし昨今、自然言語処理の発展により、日本語の文章データに関しても実用レベルでの解析が可能となりました。

テキストマイニングの流れ

テキストマイニングは大きく次の2つのステップで行われます。

(1)「形態素解析」「構文解析」などを用いた自然言語処理
テキストマイニングは、まず分析対象のテキスト情報に対して、分析がしやすくなるよう自然言語処理を施します。

形態素解析とは、テキスト情報内の文章を単語単位に分割して、その分割された単語の品質を特定します。英語の場合は予め品詞が明確に定義されているため分析は容易ですが、日本語はあいまいな文章が多くあるため、高度な処理が求められます。

構文解析とは、形態素解析で分割した品詞を利用して単語と単語動詞の修飾/被修飾を特定します。例えば、「このサービスは機能が豊富だけど見た目がダサい」といったように一つの文章の中に相反した評価が書かれていたとしても、機能は豊富で高評価、デザインはダサくて低評価のように自動で判別してくれます。

このような前処理により、文章を意味がある単語とその関連性を整理します。

(2)「センチメント分析」などを用いた分析
自然言語処理を施したテキスト情報は分析しやすい単語ごとにきれいに整理されています。料理に例えると、野菜が調理しやすいように水で洗われて皮が剥かれており、これから調理(マイニング分析)しやすい状態になっている状態です。ここから、テキストマイニングを行う目的に最も適した手法で、分析を行っていきます。

自然言語処理(NLP、Natural Language Processing)とは?

自然言語処理(NLP、Natural Language Processing)について、辞書では次のように説明されています。

情報科学の分野ではプログラム言語などの人工言語に対して,人間の言語を自然言語と呼ぶ。自然言語をコンピューターで取り扱う技術を広く自然言語処理という。コンピューターに入れた文字データから単語を切り出して五十音順に配列しなおしたり出現頻度を計数したりすること,文の構造や意味の解析,他言語への自動翻訳などがある。ワードプロセッサーは自然言語処理技術の応用システムとしてよく普及した例。人が自然言語で話しかけて,それに対応できる情報システムなども研究が進められている。

▶️引用:コトバンク

もう少し噛み砕いて説明すると、日本語や英語などの人間の言葉を、コンピュータでデータとして保管したり計算したりするための技術のことを自然言語処理と言います。

自然言語処理の方法には、主に形態素解析、構文解析、意味解析、文脈解析の順で行われます。

それぞれの方法について、詳しく見ていきましょう。

形態素解析

形態素解析は、私たちが普段使っている言葉(自然言語)を、最小単位の単語レベルまで分解することです。たとえば、

私は母に電話をしました

という言葉は、

私/は/母/に/電話/を/し/まし/た

のように分解することができます。

・私→代名詞
・は→副助詞
・母→名詞

言葉を最小単位の形態素まで分解したら、辞書と照らし合わせながら、それぞれの言葉の品詞や活用の種類などを割り出していきます。ちなみに英語の場合には、単語の区切りがはっきりしているので品詞を分解するのに複雑な技術は必要ありません。

had→have、children→childのように活用を原形に変換すればいいので、やはり日本語の形態素解析は比較的難易度の高い処理といえます。

構文解析

自然言語が形態素解析によって単語レベルに分解されると、次に構文解析が行われます。自然言語の場合は、構文解析によって、修飾・非修飾の関係など単語どうしの文法上の関係性を解析します。たとえば、

美しい 花

は「美しい」という形容詞が「花」という名詞を修飾しています。

このように文法規則にしたがって、文を構成する単語の位置関係を、CYK法と呼ばれる手法などによって図式化して明確にしていきます。

日本語は文法が大変複雑で曖昧な言語なので、構文解析をしただけでは、正確に解析できないことがあります。たとえば次の文章の場合はどうでしょう。

望遠鏡で泳ぐ彼女を見た

これは意味解析の例としてよく使われる例文ですが、構文解析では2つの解釈ができます。

・望遠鏡で泳いでいる 彼女を見た。(彼女は、望遠鏡という道具を使って泳いでいる)
・望遠鏡で 泳いでいる彼女を見た。(泳いでいる彼女を望遠鏡で見た)

普通に考えれば望遠鏡で見たのが「彼女」であることは明らかですが、構文解析では文法上どちらも正しいと判断されてしまいます。

また別の例では、

・サッカーをやった
・彼にプレゼントをやった

の「やった」は、それぞれ意味が異なります。

前者は「おこなう」、後者は「あたえる」という意味の「やる」ですが、構文解析ではこれらを判別することができません。ですから意味解析によって、言葉の意味上の結びつきを選択したり、単語の多様性を解消する必要があるわけです。

文脈解析

意味解析が完了した文章は、文脈解析が行われます。意味解析は文単位で行われますが、複数の文にまたがる単語の関係性の選択や意味解析を行うのが文脈解析です。

たとえば、

・私はコンビニでアイスを買った。
・それを妹にあげた。

という2文がある場合、2文目の「それ」がさすのは1文目の「アイス」であり、妹にあげた主語は1文目の「私」です。

まとめ

SNSやメール、口コミサイトなど、企業と顧客をつなぐ非対話型のコミュニケーションが増加するにつれ、テキストマイニングによるデータ解析は欠かせない技術となってきています。

対話型のロボットの開発やAI(人工知能)、IOTの発達により、テキストマイニングの需要が増し、分析ツールの精度もますます高まっています。それに伴い、データ活用を行うためのコストも下がり、以前よりずっと手軽にテキストマイニングを利用することが可能です。

集めたデータはしっかり分析し、マーケティングなどに活かしていきましょう。


WRITER

トラムシステム(株)メディア編集担当 鈴木 康人

広告代理店にて、雑誌の編集、広告の営業、TV番組の制作、イベントの企画/運営と多岐に携わり、2017年よりトラムシステムに加わる。現在は、通信/音声は一からとなるが、だからこそ「よくわからない」の気持ちを理解して記事執筆を行う。


UNIVOICEが東京MXの「ええじゃないか」という番組に取り上げられました。

注目記事Recommend Post

  • 音声マイニング基礎講座丨コールセンターの活用メリットと比較ポイント

  • おすすめ音声認識・テキスト化ツール7選!有料・無料ツールを紹介

    2021.06.15

  • クラウドPBXは転送が便利!外線内線のスマホ転送など便利機能を紹介

    2020.06.23