内容紹介
機械学習や人工知能の性能を決める特徴量作成・変換/選択について詳述した書籍!
本書は、機械学習を行うエンジニアが知るべき特徴量抽出の基本から応用、最新のテーマまでを網羅した書籍です。内容としてはそれほど難しくないため、機械学習を学んでいる人が特徴量エンジニアリングについて学びはじめる書籍として最適です。
このような方におすすめ
・基本的な機械学習モデルを作ることはできるが、特徴量を加工してより精度の高いモデルを作りたいと考えている人・すでにこれらの知識は持ち合わせているが、基礎知識を講習したあとの実践用テキストとして利用したい人
目次
詳細目次
日本語版に寄せて
訳者まえがき
はじめに
1章 機械学習パイプライン
1.1 データ
1.2 タスク
1.3 モデル
1.4 特徴量
1.5 モデル評価
2章 数値データの取り扱い
2.1 スカラ/ベクトル/ベクトル空間
2.2 カウントデータの取り扱い
2.2.1 二値化
2.2.2 離散化
2.3 対数変換
2.3.1 対数変換の実行
2.3.2 べき変換:対数変換の一般化
2.4 スケーリングと正規化
2.4.1 Min-Maxスケーリング
2.4.2 標準化(分散スケーリング)
2.4.3 ?2正規化
2.5 交互作用特徴量
2.6 特徴選択
2.7 まとめ
2.8 参考文献
3章 テキストデータの取り扱い
3.1 Bag-of-X:テキストを数値ベクトルで表現する
3.1.1 Bag-of-Words
3.1.2 Bag-of-n-Grams
3.2 特徴選択のための単語除去
3.2.1 ストップワードによる単語除去
3.2.2 頻度に基づく単語除去
3.2.3 ステミング(語幹処理)
3.3 言葉の最小単位:単語からnグラム、そしてフレーズへ
3.3.1 パース処理とトークン化
3.3.2 フレーズ検出のためのコロケーション抽出
3.4 まとめ
3.5 参考文献
4章 特徴量スケーリングによる効果:Bag-of-WordsのTF-IDFによる重み付け
4.1 TF-IDF:Bag-of-Wordsに対するシンプルな変換方法
4.2 TF-IDFを試す
4.2.1 クラス分類用のデータセット作成
4.2.2 TF-IDF変換を用いたBag-of-Wordsのスケーリング
4.2.3 ロジスティック回帰によるクラス分類
4.2.4 正則化によるロジスティック回帰のチューニング
4.3 深堀り:何が起こっているのか?
4.4 まとめ
4.5 参考文献
5章 カテゴリ変数の取り扱い
5.1 カテゴリ変数のエンコーディング
5.1.1 One-Hotエンコーディング
5.1.2 ダミーコーディング
5.1.3 Effectコーディング
5.1.4 カテゴリ変数のエンコーディング方法の長所と短所
5.2 膨大なカテゴリ数を持つカテゴリ変数の取り扱い
5.2.1 特徴量ハッシング
5.2.2 ビンカウンティング
5.3 まとめ
5.4 参考文献
6章 次元削減:膨大なデータをPCAで圧縮
6.1 直感的な解釈
6.2 導出
6.2.1 線形射影
6.2.2 分散と経験分散
6.2.3 PCA:はじめの一歩の定式化
6.2.4 PCA:行列とベクトルによる定式化
6.2.5 主成分分析の一般的な解法
6.2.6 特徴量の変換
6.2.7 PCAの実装
6.3 PCAの実行
6.4 白色化とZCA
6.5 PCAの考察と限界
6.6 ユースケース
6.7 まとめ
6.8 参考文献
7章 非線形特徴量の生成:k-meansを使ったスタッキング
7.1 k-means
7.2 パッチで覆うためのクラスタリング
7.3 k-meansによるクラス分類用の特徴量生成
7.3.1 密なクラスタ特徴量
7.4 メリット/デメリット/注意事項
7.5 まとめ
7.6 参考文献
8章 特徴量作成の自動化:画像特徴量の抽出と深層学習
8.1 最も単純な画像特徴量――そしてこの特徴量が機能しない理由
8.2 手動の特徴抽出法:SIFTおよびHOG
8.2.1 画像勾配
8.2.2 勾配方向ヒストグラム
8.2.3 SIFT
8.3 深層学習を用いた画像特徴量の学習
8.3.1 全結合層
8.3.2 畳み込み層
8.3.3 Rectified Linear Unit(ReLU)変換
8.3.4 応答正規化層
8.3.5 プーリング層
8.3.6 AlexNetの構造
8.4 まとめ
8.5 参考文献
9章 バック・トゥ・ザ・「フィーチャー」:学術論文レコメンドアルゴリズムの構築
9.1 アイテムベースの協調フィルタリング
9.2 解析第1回:データインポート/クリーニング/特徴量の解析
9.2.1 学術論文レコメンドエンジン:テイク1――単純なアプローチ
9.3 解析第2回:より技術的に洗練されたスマートなモデル
9.3.1 学術論文レコメンドエンジン:テイク2
9.4 解析第3回:より多くの特徴量がさらなる情報をもたらす
9.4.1 学術論文レコメンドエンジン:テイク3
9.5 まとめ
9.6 参考文献
付録A 線形モデリングと線形代数の基礎
A.1 線形分類の概要
A.2 行列の解剖学
A.2.1 ベクトルから部分空間へ
A.2.2 特異値分解(SVD)
A.2.3 データ行列の4つの基本的な部分空間
A.2.4 線形システムの解法
A.3 参考文献
索引
続きを見る