クラウドPBXや電話システムについてIT・通信のプロが解りやすく解説|voice

ビジネスフォンやクラウドPBXを電話・通信のプロがわかりやすく解説!

\ クラウドPBX資料 /

無料ダウンロード

フリーワード検索

2024.05.16

ツール / テキストマイニング /

テキストマイニングとは?分析の流れや活用例を解説|トラムシステム

音声認識やSNSの普及により、多くの情報をテキストで収集することができるようになりました。しかし、文章のままだと分析が困難なため、テキストの分析を行うテキストマイニングの需要が拡大しています。日本語は解析が難しい言語とされてきましたが、ツールの発達により、解析・分析が容易となったことも需要拡大の大きな要因となっています。

本記事では、テキストマイニングの代表的な分析手法や活用例について解説します。

サムネイル画像


お役立ち資料画像

テキストマイニングとは

テキストマイニングとは、大量のテキスト情報の中から様々な有益な言葉や情報を発掘することができる技術です。
SNSやアンケートなどのデータを一箇所に集めて分析することで、人の目では確認しきれない一定の法則を見つけたり、企業のマーケティング活動に有益な情報を獲得したりすることが可能です。
音声認識やAI技術の発展に伴い、大量のテキストデータを収集・分析することができるようになったため、テキストマイニングも注目されています。

テキストマイニングの目的

テキストマイニングの一番の目的は、製品やサービスに対する消費者のニーズを発見することです。
インターネットに誰でも手軽にアクセスできる昨今では、SNSや口コミサイトによる情報の拡散スピードも昔とは比較になりません。いい評判はもちろんですが、企業ブランドやイメージを損ねるような悪評が、気づかぬうちに拡散してしまうリスクもあります。消費者の声から不測の事態をいち早く察知し、適切な予防処置や対応施策を行うためにも、テキストマイニングは有効に活用することができます。 SNSや顧客からの問い合わせ、アンケートなどの様々なツールからデータの抽出ができるため、特性に応じた分析が可能です。

テキストマイニングの活用例

では、テキストマイニングは現在どのような場面で活用されているのでしょうか。活用例をご紹介します。

活用例画像

顧客の声の分析

顧客からの問い合わせが多いワード解析し、どのツールからの問い合わせか・ウェブサイトのFAQに掲載されているか、などについて分析することができます。それにより、説明書の表記を見直したり、webサイトのFAQから自己解決を促すなどの対策を講じることで、問い合わせ件数の減少につなげることができます。
また、顧客アンケートや商品レビューの自由記述欄のテキストを分析することもできるため、商品開発やコールセンターのオペレーター対応改善に活かすことも可能です。

SNS分析

SNSへ投稿されたキーワードに対して、ポジティブかネガティブかなどの感情を分析できます。SNSはリアルタイムで顧客の動きをみられることが大きな強みです。
どういったキーワードが多いか、キーワードの時系列はどのように変わってきているのか、どのような不満や改善点があるかなど、大量のテキスト情報に対してテキストマイニングをすることで、自社製品やサービスの分析だけではなく、今後のマーケティング活動に必要な顧客ニーズの発掘が可能です。
例えば、自社で積極的に販促活動をしていることがどのくらい顧客に浸透しているのか、どういった態度変容のときに自社ブランドを想起してくれるのか、など客観的な顧客分析ができるのも特徴です。

ノウハウ・ナレッジ分析

テキストマイニングは、社内のノウハウやナレッジの分析にも役立ちます。報告書やレポート、よく聞かれる項目、明文化されていない知識などを収集・分析して、社内FAQやマニュアルへ活用します。部署内や他部署との無駄なやりとりが減り、業務効率化できます。また、人に依存した知識の偏りも、アウトプットすることで誰もが得られる知識に変わるメリットもあります。

チャットボットの精度向上

チャットボットの精度向上にも活用できます。顧客が不明点を解消したいと考えた場合、これまではコールセンターへ直接問い合わせをしたり、FAQコンテンツを確認したりする必要があり、自分がほしい回答をなかなか見つけられずに不満が思うケースが多くありました。
チャットボットでは、自分でFAQコンテンツを調べる必要はなく、知りたい内容(単語や文章)を打ち込むだけで回答を見つけることができ、顧客満足度の向上も期待されています。
このチャットボットは予め質疑応答の対応表を作っていますが、顧客の打ち込んだ検索ワードや課題解決の割合、解決できなかった質問などをテキストマイニングで分析し、その結果をチャットボットのチューニングに利用して精度向上を図ることができます。

論文や特許などの動向分析

論文や特許などの分析でテキストマイニングの技術が使われることがあります。論文や特許といった技術文書は専門用語が多く使われていたり、他の技術文書との関連性が分かりづらかったりしますが、テキストマイニングでその関係性を導き出すことが可能です。
例えば、多く使われている単語や語句が見つかれば、今後のマーケティング活動に活かすきっかけになるかもしれません。また、競合他社の特許状況を分析することで、他社の投資傾向を予測して自社の経営戦略に活かしている企業もあります。

ビッグデータを活用した将来予測

企業経営に影響を及ぼす変化には予兆があり、それがテキストによるやり取りにも現れます。この原理を利用すれば、ビッグデータの活用による将来予測が可能です。
商品の売れ行きだけでなく、株価変動や選挙結果といったより高度な事象について一定の予測が立てられるようになります。これらのデータをもとに、生産量の調整や販売停止の可否など状況に応じた柔軟な判断ができます。

テキストマイニングで取り扱うデータ

テキストマイニングで扱うデータは主に非構造化データになります。非構造化データとは何か、構造化データと比較し、その違いや特徴を解説します。

構造化データ(定量データ)

構造化データとは、コンピュータやクラウド上のデータベースに保管して容易に検索や分析をすることができる定量的なデータのことです。
あるサービスの市場占有率や売上規模、従業員にかかっている費用など、数値として扱えるデータを指しており、時系列や年齢などの属性情報、テニスが好きなどの趣味趣向の情報など細く分析することができるため、あらゆる戦略検討の際に重要視される基礎データとなります。
構造化データの例として、企業の売上げや費用などの財務データ、顧客満足度の集計データや生産関連のKPI等、企業活動を数値化した定量データ(Excelデータ)がその典型です。

非構造化データ(定性データ)

非構造化データとは、構造化データと異なり、特定の構造を持たないデータのことです。メールや文書、画像、動画、音声などのデータがその典型で、テキストマイニングで分析対象となるデータです。
テキストマイニングで取り扱う非構造化データの代表的なデータが、文字列データです。非構造化データは構造化データのように簡単に数値化することができないため、データを客観的に抽出するためのルールやモデルが必要となります。このため従来、非構造化データの分析は多くの人手が必要で膨大なコストの掛かる作業でした。
しかし、評価や感情分析(センチメント分析)、対応分析(コレスポンデンス分析)、主成分分析、共起分析、自然言語処理、意味処理など、非構造化データを定量的なデータに変換する技術が発達し、より効率よくデータを解析し活用することができるようになってきています。
非構造化データの例として、アンケート結果やWebサイトの見た目、パッケージの良し悪し、などが挙げられます。

どちらが良くてどちらが悪いという話ではなく、構造化データも非構造化データそれぞれ特徴があるため、解析内容や目的に応じて使い分けていくべきでしょう。

日本語文章の分析が難しい理由

非構造化データは、データが定型化されていないため、元々構造化データに比べて解析のハードルが高いと言われます。
さらにこれまで非構造化データの分析が難しかった理由のひとつは、日本語という文章にありました。日本語は、英語などの諸外国語に比べ文法が複雑です。
単語と単語の境界線を判別する必要があり、文法、文法のゆらぎがあるために解析が難しいのです。

・コンピュータとコンピューター
・ドーナツとドーナッツ

例えば上記のように、外国語由来のカタカナ語の場合、表記が定まっていないこともあります。漢字の場合、同じ意味や読み方の漢字が何種類もあったり、新字体と旧字体が併存しているために、その使い分けのルールが複雑です。
さらに、係り受け解析(構文解析)の難しさなども相まって、日本語文章のテキストマイニングは困難であると考えられてきました。
しかし昨今、自然言語処理の発展により、日本語の文章データに関しても実用レベルでの解析が可能となりました。

自然言語処理については、次の項で詳しく解説します。

自然言語処理とは

自然言語処理(NLP、Natural Language Processing)について、辞書では次のように説明されています。

人間が日常的に使っている日本語や英語などの自然言語をコンピューターで扱う処理技術の総称。機械翻訳や音声認識などをさす。自然言語技術。

▶️引用:コトバンク

自然言語処理の方法には、主に形態素解析、構文解析、意味解析、文脈解析の順で行われます。
それぞれの方法について、詳しく見ていきましょう。

形態素解析

形態素解析は、私たちが普段使っている言葉(自然言語)を、最小単位の単語レベルまで分解することです。たとえば、

「私は母に電話をしました」

という言葉は、

「私/は/母/に/電話/を/し/まし/た」

のように分解することができます。

・私→代名詞
・は→副助詞
・母→名詞

言葉を最小単位の形態素まで分解したら、辞書と照らし合わせながら、それぞれの言葉の品詞や活用の種類などを割り出していきます。ちなみに英語の場合には、単語の区切りがはっきりしているので品詞を分解するのに複雑な技術は必要ありません。
had→have、children→childのように活用を原形に変換すればいいので、やはり日本語の形態素解析は比較的難易度の高い処理といえます。

構文解析

自然言語が形態素解析によって単語レベルに分解されると、次に構文解析が行われます。自然言語の場合は、構文解析によって、修飾・非修飾の関係など単語どうしの文法上の関係性を解析します。たとえば、

「美しい 花」

は「美しい」という形容詞が「花」という名詞を修飾しています。
このように文法規則にしたがって、文を構成する単語の位置関係を、CYK法と呼ばれる手法などによって図式化して明確にしていきます。
日本語は文法が大変複雑で曖昧な言語なので、構文解析をしただけでは、正確に解析できないことがあります。たとえば次の文章の場合はどうでしょう。

「望遠鏡で泳ぐ彼女を見た」

これは意味解析の例としてよく使われる例文ですが、構文解析では2つの解釈ができます。

・望遠鏡で泳いでいる 彼女を見た。(彼女は、望遠鏡という道具を使って泳いでいる)
・望遠鏡で 泳いでいる彼女を見た。(泳いでいる彼女を望遠鏡で見た)

普通に考えれば望遠鏡で見たのが「彼女」であることは明らかですが、構文解析では文法上どちらも正しいと判断されてしまいます。
また別の例では、

・サッカーをやった
・彼にプレゼントをやった

の「やった」は、それぞれ意味が異なります。

前者は「おこなう」、後者は「あたえる」という意味の「やる」ですが、構文解析ではこれらを判別することができません。ですから意味解析によって、言葉の意味上の結びつきを選択したり、単語の多様性を解消する必要があります。

文脈解析

意味解析が完了した文章は、文脈解析が行われます。意味解析は文単位で行われますが、複数の文にまたがる単語の関係性の選択や意味解析を行うのが文脈解析です。
たとえば、

・私はコンビニでアイスを買った。
・それを妹にあげた。

という2文がある場合、2文目の「それ」がさすのは1文目の「アイス」であり、妹にあげた主語は1文目の「私」です。

テキストマイニングの分析手法

テキストマイニングの分析手法は、主に以下の4つになります。

分析手法画像

感情分析(センチメント分析 )

センチメント分析とは、文章に含まれる感情を分析する手法です。SNSやレビューのコメントに対し、ネガティブかポジティブかを判断する際に多く使われています。
ただし、文脈によってネガティブ・ポジティブ両方の意味合いがある単語(やばい 等)は、分類が難しいといった弱点があります。こういった表現は一度人が内容を解釈してから、テキストマイニングの辞書をチューニングすることで、分析精度を上げていく作業が必要になってきます。

共起分析

共起分析とは、ある単語に結び付く別の単語の組み合わせを抽出する手法です。例えば、「りんご」が使われる文章には「赤い」や「あまい」などの単語の出現頻度が高い、といった分析をすることで、商品に対するイメージや評価を把握できます。
共起の関係性を視覚的に判断するために作られるのが共起ネットワークで、単語同士の結びつきの強さを分かりやすく判別できます。ただし、全ての関係性を一度に表示しても理解しづらくなるため、情報の取捨選択が必要です。

対応分析(コレスポンデンス分析)

対応分析とは、散布図を用いてクロス集計の分析をする手法です。よく使われる例として、競合とのブランドイメージの比較やポジショニング、顧客の属性、アンケート結果などがあります。視覚的に単語や関連性を見られることから、幅広いデータを取り扱うことができます。

主成分分析

主成分分析とは、データをいくつかの項目に絞って要約する手法です。出現頻度の低い単語や、関連性の低い単語を切り捨て、膨大なデータを分析しやすい形にするために用いられます。データを取り扱いやすくできる反面、切り捨てられるデータもあることから、分析結果には含まれていない情報がある点に注意しましょう。

テキストマイニングの流れ

では、実際にテキストマイニングをするにはどのような手順で進めるのでしょうか。

手順画像

データの収集

まずはテキストマイニングをするために必要なデータを収集します。

小売業であれば売上情報や属性情報を保持しているPOSシステム、ECサイトであればWebサイトのアクセスログや売上情報になりますが、最近はtwitterやFacebookなどのソーシャルメディア上でつぶやかれている情報も対象になります。また、アンケート結果などに記載されている自由記入欄なども分析対象データとして取り扱われます。

データの前処理(形態素解析・クレンジング)

取得したデータは、通常文字列が連続して記録されているためそのまま解析することはできません。そこで、解析ができるよう前処理として形態素解析やクレンジングを実施してデータ解析ができる状態に施します。
形態素解析では、文字列を分解できる最小限の単語単位で分割していきます。最小限にすることで、単語の出現頻度をカウントしたりなどの集計処理が施せるため、テキストデータを数値データとして取り扱えます。
また、データを整理しやすくするためにデータのクレンジングを行います。いわゆる、表記ゆれと呼ばれる同じ意味を表す単語が別の表現で使用されていたり、大文字小文字の統一、全角半角の統一などを実施して単語を整理していきます。形態素解析やクレンジングを活用することで、解析できる状態にデータを整理できるようになります。

データの解析・分析 ・可視化

テキストマイニングにより、目的に合った解析・分析します。分析手法の項目で紹介した、感情分析や共起分析、対応分析などがあります。
解析・分析をする際は、テキストマイニングツールを利用することをお勧めします。テキストマイニングツールをにより、可視化され、情報の把握が容易になります。無料ツール・有料ツール共に様々なタイプがあり、できることや強みの部分も異なるため、自社にとってメリットの大きいツールを選定しましょう。

トラムシステム株式会社
トラムシステム株式会社では高い技術力で全メーカーの商品を取扱っています。ご予算・ご要望に応じて、新品から中古品、特殊機能を備えた機種まで御社に最適なビジネスフォン・電話交換機をご提案します。

まとめ

テキストマイニングは、マーケティングへの活用や顧客満足度向上へ活かされることが多く、企業にとっても大切な情報となっています。SNSや顧客からの問い合わせなど、身の回りにあふれるテキストデータですが、その声を拾い上げて分析をすることで、新たな気付きや改善の一手となるかもしれません。ツールも発展を続けているため、眠っているキテストデータがあれば有効活用を検討してみてはいかがでしょうか。


WRITER

トラムシステム(株)メディア編集担当 鈴木 康人

広告代理店にて、雑誌の編集、広告の営業、TV番組の制作、イベントの企画/運営と多岐に携わり、2017年よりトラムシステムに加わる。現在は、通信/音声は一からとなるが、だからこそ「よくわからない」の気持ちを理解して記事執筆を行う。


UNIVOICEが東京MXの「ええじゃないか」という番組に取り上げられました。

注目記事Recommend Post

  • 社用携帯の私的利用はバレる?企業が監視できる内容・必要なルールを解説

    2023.04.06

  • コールセンターのコスト削減丨7つのポイントと事例を紹介

  • 初心者向け社内ネットワーク講座丨構築・監視方法、WANとLANとは

    2018.12.12