テキストマイニング

テキストマイニング（英: text mining）は、文字列を対象としたデータマイニングのことである。通常の文章からなるデータを単語や文節などの単位で区切り、それらの出現の頻度や共出現の相関、共起関係、出現傾向、時系列などを解析することで有用な情報を取り出す、テキストデータの分析方法である^[1]。計算的テキスト分析（computational text analysis）、テキストアナリシス（text analysis）と呼ぶこともあるが、情報処理の分野ではテキストマイニングと呼ばれている。

テキストデータの多くは形式が定まっておらず、また日本語は英語などと比べて単語の境界判別の必要性（→わかち書き）や文法ゆらぎが大きい点において形態素解析が困難であったが、自然言語処理の発展により実用的な水準の分析が可能となった。テキストマイニングの対象としては、顧客からのアンケートの回答やコールセンターに寄せられる質問や意見、電子掲示板やメーリングリストに蓄積されたテキストデータなどがある^[2]。また、第二次世界大戦期にはプロパガンダを発信していたマスメディアの分析が大規模に行われたほか、近年では政治家などの演説を分析することがある。

歴史

テキストを統計的に分析する分野として古くから計量文体学があった。この分野において、文章を構成する要素の特徴を定量的に分析し、その文章の執筆者を推定する試みが100年以上前にあった。最たる例は米オハイオ州立大学の地球物理学者T. C. Mendenhallの研究である^[3]。

光学におけるスペクトル分析法を単語の分析に適用、単語の長さは著者の特徴になることをサイエンス誌に投稿した。ここで、単語のスペクトルとは、単語を構成するアルファベット数に着目した単語の分布を指す。この際、メンデンホールはW. Shakespeare作の戯曲とF. Baconの作品も分析した。

この頃の分析手法は集計したいデータを目で数えカウントするという原始的な手法であったが、構造化されていないテキストデータをテキストを構成する何らかの要素で区切って構造化し、分析するという点では基本的なアイディアは現在のテキストマイニングと同様である。

また、内容分析の分野では、19世紀から20世紀初頭に欧米で新聞の印刷部数が増大したことを受けて新聞記事の計量的分析が行われるようになった。当時の関心事は、いかに価値のない記事が紙面を占めているかであった。

　20世紀後半〜第二次世界大戦前後、社会学的な概念（価値観、世論など）を追求するために新聞の分析が、またドイツとその同盟国についてマスメディアの分析、すなわちプロパガンダ分析が大規模に行われた。この時代に社会科学の理論・概念に加えて心理学実験、市場調査の分野から統計手法が持ち込まれた。現在はこれらがテキストマイニングを理論的に支えている。

　その後、研究では質問紙における自由回答など調査の補助的手段として、あるいは大量の資料や小説の処理をするために、実務的・商業的分野でも利用されるようになった。

　テキストマイニングは1990年代中頃まではテキスト解析、ドキュメント解析などと呼ばれ、1990年代後半からはテキストデータマイニング（text data mining）などと呼ばれるようになり、それ以降テキストマイニングと呼ばれるのが一般的になった。現在ではテキストアナリティクスまたはテキストアナリシスと呼ぶ傾向にある。

分析

ここで、内容分析の分析手法には、KHCoderを開発した樋口によれば、Correlational アプローチとDictionary-based アプローチが存在するという^[4]。前者は、分析を（全て）多変量解析に任せ、自動的にテキストの分類・発見させる手法で、分析者が介在する余地のない手法である。後者は分析者が設定したコーディング・ルールに従って分類していく手法である。

樋口はテキストマイニングにおいて、この2つのアプローチを統合した「接合アプローチ」を提唱する^[4]。すなわち、Correlational アプローチにならい、恣意的なものを一切交えずにデータを要約・提示する段階１と、Dictionary-based アプローチにならい、コーディングルール作成によって理論仮説ないし問題意識を明示的に操作する段階2とを明確に峻別した上で、これらを行き来する方法である。

このアプローチにより、Correlational アプローチの持つ、分析者の持つ理論や問題意識を操作化し分析する上での限界をDictionary-based アプローチに許されている自由な発想で補うことができる。またDictionary-based アプローチの持つ、分析が恣意的になってしまう可能性があるという欠点もCorrelational アプローチを組み合わせ多変量解析によってデータ全体を要約・提示した上でコーディングルールを公開するという手続きを踏めば第三者が研究を把握しやすくなり、信頼性・客観性の向上に繋がる。

なお、この考え方はKHCoderの想定する分析の方法として取り入れられている。

これを踏まえて、一般的には準備作業（テキストの電子化、表記ゆれなどのクリーニング）、加工と処理（形態素解析、構文解析、意味解析等）、データ集計と分析（データの抽出と分析、視覚化）を行う。

テキストの視覚化

テキストを何らかの単位で分解し、その要素の頻度を集計し、それをまとめたり、視覚化したりすることは、テキストマイニングにおいて最も基本的な作業である。

一般的にとられる手法は棒グラフや折れ線グラフに限らず、ワードクラウド、共起ネットワーク、クラスター分析、多次元尺度構成法（MDS）、対応分析（数量化III類）、自己組織化マップ、機械学習（ナイーブベイズ）などの多変量解析が手法が用いられる。

視覚化作業はKHCoderなどのソフトで分析と同時に行うことができることが多い。

テキストマイニングの効果

テキストマイニングは、言葉的にはデータマイニングと似ているが、その効果は異なる。データマイニングが顧客個人の購買傾向を分析するなどの目的で行われるのに対し、テキストマイニングは顧客個人の特性よりも提供側の状態を把握する面において威力を発揮する。例えば商品の評価や顧客サービスの問題点などを把握することができる^[5]。

また、計量的な手法を導入することで分析者の恣意的な判断から離れることができる、第三者が確認できるなどの点で分析の客観性、信頼性を高めることに貢献する。

さらに、分析結果が視覚化されることが多いためデータ全体を視覚的に眺めることができるようになる、長いテキストデータでも要約ができるなどのメリットも存在する。

ソフトウェアの例

KH Coder
MLTP: MultiLingual Text Processor
MTMineR

脚注

[脚注の使い方]

^ 林俊克 (2002). Excelで学ぶテキストマイニング入門. オーム社. p. 2. ISBN 9784274064937. https://books.google.co.jp/books?id=-TkKyEXmWZQC&pg=PA2#v=onepage&q&f=false
^ 山内長承 (2017). Pythonによるテキストマイニング入門. オーム社. p. 2. ISBN 9784274221415. https://books.google.co.jp/books?id=t5NDDwAAQBAJ&pg=PA2#v=onepage&q&f=false
^ 金明哲『テキストアナリティクスの基礎と実践』岩波書店、2021年。
^ ^a ^b 樋口耕一『社会調査のための計量テキスト分析第2版』ナカニシヤ出版、2020年。
^ 小林雄一郎 (2018). Rによるやさしいテキストマイニング. オーム社. p. 7. ISBN 9784274222771. https://books.google.co.jp/books?id=j2lyDwAAQBAJ&pg=PA7#v=onepage&q&f=false

外部リンク

テキストマイニングとは【text mining】 - 意味/解説/説明/定義： IT用語辞典
テキストマイニング - @IT情報マネジメント用語事典
日本大百科全書(ニッポニカ)『テキストマイニング』 - コトバンク

自然言語処理

基礎用語

AI完全
Bag-of-words（英語版）
n-gram
- bi-gram（英語版）
- tri-gram（英語版）
計算言語学
自然言語理解
ストップワード（英語版）
テキスト処理（英語版）

テキスト分析

コロケーション抽出（英語版）
コンセプト・マイニング（英語版）
共参照解析（英語版）
深い言語処理（英語版）
遠読（英語版）
情報抽出
固有表現抽出
オントロジー学習（英語版）
構文解析
品詞タグ付け（英語版）
意味役割付与（英語版）
意味的類似性（英語版）
感情分析
用語抽出（英語版）
テキストマイニング
テキスト含意（英語版）
Truecasing（英語版）
語義の曖昧性解消
語義推定（英語版）

テキストセグメンテーション（英語版）	複合語用語処理（英語版）見出し語化（英語版）字句解析テキストチャンキングステミング（英語版）文区切り（英語版）単語区切り（英語版）

自動要約

複数文書要約（英語版）
センテンス抽出（英語版）
テキスト平易化（英語版）

機械翻訳

翻訳支援ツール
用例ベース（英語版）
ルールベース（英語版）
統計的（英語版）
転送ベース（英語版）
ニューラル

分布意味論（英語版）モデル

BERT
単語文書行列（英語版）
明示的セマンティック分析（英語版）
fastText（英語版）
Glove（英語版）
潜在意味解析
単語の埋め込み
Word2vec

言語資源、
データセット・コーパス

種類・基準	コーパス言語学 Lexical resource（英語版） LLOD（英語版）機械可読辞書（英語版）対訳コーパス（英語版） PropBank（英語版）意味ネットワーク SKOS（英語版）音声コーパス（英語版）コーパスシソーラスツリーバンク Universal Dependecies（英語版）
データ	BabelNet（英語版） Bank of English（英語版） DBペディアフレームネット（英語版） Google Ngram Viewer（英語版） ThoughtTreasure（英語版） UBY（英語版） WordNet