内容紹介
機械学習で捗るテキストマイニング!
機械学習を用いた本格的なテキストマイニングをやさしく解説!
本書は、フリーの分析ツールであるRを用いて、機械学習による大規模なテキストデータ解析の手法などをわかりやすく解説した書籍です。
(1) ウェブからのテキストデータの自動収集、(2) 生の「きたない」データを分析しやすい「きれいな」データにするための前処理、(3) 大規模データを解析するための機械学習の手法、(4) 分析結果を顧客や上司に分かりやすく伝えるための可視化の手法を丁寧に解説しています。
解説は、数式が苦手な読者もすんなりと読めるように、手法の原理を直感的に理解できるイラスト・図面を多用した構成としています。
このような方におすすめ
・テキストマイニングや機械学習の技術を学びたいエンジニア
・テキストマイニングや機械学習に興味を持つ実務者
・商用のテキストマイニングツールやクチコミ分析サービスの内部でどのような処理が行われているのかを知りたい人
目次
主要目次
Part Ⅰ テキストマイニング
第1章 自然言語処理
第2章 テキスト処理
第3章 スクレイピング
Part Ⅱ 機械学習
第4章 データハンドリング
第5章 教師あり学習―回帰
第6章 教師あり学習―分類
第7章 教師なし学習
詳細目次
はじめに
Part Ⅰ テキストマイニング
第1章 自然言語処理
1.1 テキストマイニングを支える技術
1.2 分析ツールの準備
1.3 形態素解析
1.4 構文解析
1.5 意味解析
1.6 言語判定
1.7 文書要約
第2章 テキスト処理
2.1 テキストの読み込み
2.2 テキストの整形
2.3 単語の頻度集計
2.4 n-gram の頻度集計
2.5 共起語の頻度集計
2.6 用例検索
第3章 スクレイピング
3.1 インターネット上のビッグデータ
3.2 Wikipedia からのテキストデータ抽出
3.3 ブログからのテキストデータ抽出
3.4 Twitter からのテキストデータ抽出
3.5 オープンデータの活用
3.6 文字コードの確認と変更
Part Ⅱ 機械学習
第4章 データハンドリング
4.1 データの読み込み
4.2 行と列の抽出
4.3 データの要約
4.4 列の操作
4.5 データの結合
4.6 データの並び替え
4.7 カテゴリーごとの集計
4.8 データ形式の変換
4.9 パイプ演算子
第5章 教師あり学習―回帰
5.1 機械学習の手順と種類
5.2 線形単回帰
5.3 線形重回帰
5.4 平滑化回帰
5.5 正則化回帰
第6章 教師あり学習―分類
6.1 k 近傍法
6.2 ナイーブベイズ
6.3 ニューラルネットワーク
6.4 サポートベクターマシン
6.5 決定木
6.6 バギング
6.7 ブースティング
6.8 ランダムフォレスト
第7章 教師なし学習
7.1 階層型クラスター分析
7.2 非階層型クラスター分析
7.3 主成分分析
7.4 自己組織化マップ
7.5 word2vec
7.6 トピックモデル
読書案内
あとがき
参考文献
索 引
続きを見る