2019.01.07ツール

テキストマイニングの分析手法丨分析の流れとやり方をわかりやすく解説｜トラムシステム

SNSやアンケート、コールセンター・コンタクトセンターなどを通じて得られる膨大なデータの活用のために、注目されているのが「テキストマイニング」です。しかし、テキストマイニングが具体的にどのような仕組みで分析しているのかは分からない、という方も多いでしょう。

この記事では、テキストマイニングの分析方法について、データの種類や自然言語処理の方法について詳しく解説していきます。

サムネイル画像

テキストマイニングとは
- テキストマイニングの分析対象
- テキストマイニングの目的
テキストマイニングの分析対象となるデータ
- 構造化・定量データ
- 非構造化・定性データ
日本語文章の分析が難しい理由
テキストマイニングの流れ
まとめ

テキストマイニングとは

テキストマイニングとは、大量のテキスト情報の中から様々な有益な情報を発掘することができる技術です。

SNSやアンケートなどのデータを一箇所に集めて分析することで、人の目では確認しきれない一定の法則を見つけたり、企業のマーケティング活動に有益な情報を獲得したりすることが可能です。

テキストマイニングの分析対象

テキストマイニングの技術を活用して分析が行われるデータには、次のようなものがあります。

・ソーシャルメディア（Twitter、Instagram、ブログ、Facebookなど）
・顧客アンケート
・コールセンターでのオペレータやり取り
・メール
・インターネット掲示板
・口コミサイト
・エスノグラフィーによるマーケティング調査
・論文や特許などの技術文書
・チャットボットや質問応答システム

例えばTwitterは、非常に即時性が高いSNSです。Twitterでは、ユーザーが思ったことや感じたことをすぐに素直につぶやく傾向にあるので、本音に近い生の声を拾うことができます。

一方で、対象ユーザーの性別や年齢層によっては、Twitter以外のSNSのほうがデータを集めやすい場合もあります。50代の男性が対象なら、若い世代の利用者が多いTwitterよりも、Facebookのほうが分析対象として適しているでしょう。

テキストマイニングの目的

テキストマイニングの一番の目的は、製品やサービスに対する消費者のニーズを発見することです。

インターネットに誰でも手軽にアクセスできる昨今では、情報の拡散スピードも昔とは比較になりません。いい評判はもちろんですが、企業ブランドやイメージを損ねるような悪評が、気づかぬうちに拡散してしまうリスクもあります。

消費者の声から不測の事態をいち早く察知し、適切な予防処置や対応施策を行うためにも、テキストマイニングは有効に活用することができます。

わかりやすいテキストマイニング丨できること・分析手法・活用例を解説

ビジネスで発生する文章データを自然言語処理と呼ばれる技術で分析し、有益な情報を得るのがテキストマイニングです。AIや機械学習の発展、ビッグデータの登場によって実用レベルに達した技術で、市場動向や消費者意識を探るうえで非常に重要となっています。テキス...

テキストマイニングの分析対象となるデータ

ビッグデータの領域で取り扱われるデータ様式には、大きくわけて次の2つがあります。

1.構造化・定量データ
2.非構造化・定性データ

それぞれについて詳しく解説していきましょう。

構造化・定量データ

構造化データとは、コンピュータやクラウド上のデータベースに保管して容易に検索や分析をすることができるデータのことです。

企業の売上げや費用などの財務データ、顧客満足度の集計データや生産関連のKPI等、企業活動を数値化した定量データ（Excelデータ）がその典型です。

非構造化・定性データ

非構造化データとは、構造化データと異なり、特定の構造を持たないデータのこと。メールや文書、画像、動画、音声などの定性データがその典型で、テキストマイニングで分析対象となるデータです。

テキストマイニングで取り扱う文字列データは、代表的な定性データです。定性データは定量データのように簡単に数値化することができないため、データを客観的に抽出するためのルールやモデルが必要となります。

このため従来、定性データの分析は多くの人手が必要で膨大なコストの掛かる作業でした。

しかし、評価や感情分析（センチメント分析）、対応分析（コレスポンデンス分析）、主成分分析、テキスト分析、自然言語処理、意味処理など、定性データを定量的なデータに変換する技術が発達し、より効率よくデータを解析し活用することができるようになってきています。

日本語文章の分析が難しい理由

定性データは、データが定型化されていないため、元々定量データに比べて解析のハードルが高いと言われます。

さらにこれまで定性データの分析が難しかった理由のひとつは、日本語という文章にありました。日本語は、英語などの諸外国語に比べ文法が複雑です。

単語と単語の境界線を判別する必要があったり、文法のゆらぎがあるために解析が難しいのです。

・コンピュータとコンピューター
・ドーナツとドーナッツ

例えば上記のように、外国語由来のカタカナ語の場合、表記が定まっていないこともあります。漢字の場合、同じ意味や読み方の漢字が何種類もあったり、新字体と旧字体が併存しているために、その使い分けのルールが複雑です。

さらに係り受け解析（構文解析）の難しさなども相まって、日本語文章のテキストマイニングは困難であると考えられてきました。

しかし昨今、自然言語処理の発展により、日本語の文章データに関しても実用レベルでの解析が可能となりました。

テキストマイニングの流れ

テキストマイニングは大きく次の2つのステップで行われます。

（1）「形態素解析」「構文解析」などを用いた自然言語処理
テキストマイニングは、まず分析対象のテキスト情報に対して、分析がしやすくなるよう自然言語処理を施します。

形態素解析とは、テキスト情報内の文章を単語単位に分割して、その分割された単語の品質を特定します。英語の場合は予め品詞が明確に定義されているため分析は容易ですが、日本語はあいまいな文章が多くあるため、高度な処理が求められます。

構文解析とは、形態素解析で分割した品詞を利用して単語と単語動詞の修飾/被修飾を特定します。例えば、「このサービスは機能が豊富だけど見た目がダサい」といったように一つの文章の中に相反した評価が書かれていたとしても、機能は豊富で高評価、デザインはダサくて低評価のように自動で判別してくれます。

このような前処理により、文章を意味がある単語とその関連性を整理します。

（2）「センチメント分析」などを用いた分析
自然言語処理を施したテキスト情報は分析しやすい単語ごとにきれいに整理されています。料理に例えると、野菜が調理しやすいように水で洗われて皮が剥かれており、これから調理（マイニング分析）しやすい状態になっている状態です。ここから、テキストマイニングを行う目的に最も適した手法で、分析を行っていきます。

自然言語処理（NLP、Natural Language Processing）とは？

自然言語処理（NLP、Natural Language Processing）について、辞書では次のように説明されています。

情報科学の分野ではプログラム言語などの人工言語に対して，人間の言語を自然言語と呼ぶ。自然言語をコンピューターで取り扱う技術を広く自然言語処理という。コンピューターに入れた文字データから単語を切り出して五十音順に配列しなおしたり出現頻度を計数したりすること，文の構造や意味の解析，他言語への自動翻訳などがある。ワードプロセッサーは自然言語処理技術の応用システムとしてよく普及した例。人が自然言語で話しかけて，それに対応できる情報システムなども研究が進められている。

▶️引用：コトバンク

もう少し噛み砕いて説明すると、日本語や英語などの人間の言葉を、コンピュータでデータとして保管したり計算したりするための技術のことを自然言語処理と言います。

自然言語処理の方法には、主に形態素解析、構文解析、意味解析、文脈解析の順で行われます。

それぞれの方法について、詳しく見ていきましょう。