内容紹介
データサイエンスに必須の分析プロセス、スキルセット、思考方法を学べる!
データサイエンスを行う上で、どのようなプロセスが必要か、データサイエンティストとしてはどのようなスキルセットが必要で、どのような思考方法をする必要があるのかを実例を多数示しながら紹介します。Google、Microsoft、eBayで使われているアルゴリズムや分析手法、ツールの紹介など、プログラマが興味を持つであろう話題、事例も豊富に掲載。内容の幅が広く、データサイエンティストの参考になるトピックが満載の一冊です。
このような方におすすめ
学生、プログラマ、マネージャ、研究者、データ処理、データ分析に関わるすべての人
目次
詳細目次
目次
訳者まえがき
まえがき
1章 はじめに:データサイエンスとは
1.1 ビッグデータとデータサイエンスの過剰喧伝
1.2 過剰喧伝を克服する
1.3 なぜいまなのか
1.3.1 データ化
1.4 現状(および多少の歴史)
1.4.1 データサイエンスの仕事
1.5 データサイエンスプロフィール
1.6 思考実験:メタ定義
1.7 データサイエンティストとは本当は何か
1.7.1 学術界
1.7.2 産業界
2章 統計的推論、探索的データ分析、データサイエンスのプロセス
2.1 ビッグデータ時代の統計的思考
2.1.1 統計的推論
2.1.2 母集団と標本
2.1.3 ビッグデータの母集団と標本
2.1.4 ビッグデータの大きな仮定
2.1.5 モデル
2.2 探索的データ分析
2.2.1 探索的データ分析の理念
2.2.2 演習問題: EDA
2.3 データサイエンスのプロセス
2.3.1 データサイエンスのプロセスにおけるデータサイエンティストの役割
2.4 思考実験:混沌(カオス)をどのようにシミュレートするか?
2.5 ケーススタディ: RealDirect
2.5.1 RealDirectはどのように収益を得ているか
2.5.2 演習問題: RealDirectのデータ戦略
3章 アルゴリズム
3.1 機械学習アルゴリズム
3.2 3つの基本アルゴリズム
3.2.1 線形回帰
3.2.2 k近傍法
3.2.3 k平均法
3.3 演習問題:基本的な機械学習アルゴリズム
3.3.1 解答例
3.4 まとめ
3.5 思考実験:自動統計学者
4章 スパムフィルタ、単純ベイズ、データラングリング
4.1 思考実験:スパムフィルタの例から学ぶ
4.1.1 なぜ線形回帰でスパムフィルタを構築できないのか
4.1.2 k近傍法でスパムフィルタを構築できるか
4.2 単純ベイズ
4.2.1 ベイズの法則
4.2.2 1つの単語に対するスパムフィルタ
4.2.3 複数の単語を組み合わせたスパムフィルタ:単純ベイズ
4.3 ラプラススムージング
4.4 単純ベイズと k近傍法の比較
4.5 bashによるサンプルコード
4.6 ウェブスクレイピング: APIとその他のツール
4.7 ジェイクによる演習問題:単純ベイズによる記事の分類
4.7.1 ニューヨークタイムズ APIを使った Rのサンプルコード
5章 ロジスティック回帰
5.1 思考実験
5.2 分類器
5.2.1 実行時間
5.2.2 自分自身
5.2.3 解釈のしやすさ
5.2.4 スケーラビリティ
5.3 M6Dにおけるロジスティック回帰の事例研究
5.3.1 クリックのモデル
5.3.2 基礎となる数学
5.3.3 αと βの推定
5.3.4 ニュートン法
5.3.5 確率的勾配降下法
5.3.6 実装
5.3.7 評価
5.4 M6Dの演習問題
5.4.1 Rのサンプルコード
6章 タイムスタンプと金融モデリング
6.1 カイル・テーグと GetGlue
6.2 タイムスタンプ
6.2.1 探索的データ分析
6.2.2 指標と新しい変数や特徴
6.2.3 次にすべきこと
6.3 キャシー・オニール
6.4 思考実験
6.5 金融モデリング
6.5.1 サンプル内、サンプル外と因果関係
6.5.2 金融データの前処理
6.5.3 対数収益率
6.5.4 例: S&P株式指数
6.5.5 ボラティリティ(不安定さ)を測定する
6.5.6 指数関数的な重みの減少
6.5.7 金融モデリングのフィードバックループ
6.5.8 なぜ回帰なのか
6.5.9 事前値に加算する
6.5.10 生まれたてのモデル
6.6 演習問題: GetGlueとタイムスタンプ付きイベントデータ
6.6.1 演習問題:金融データ
7章 データから意味を抽出する
7.1 ウィリアム・キュキエスキ
7.1.1 背景:データサイエンスのコンペティション
7.1.2 背景:クラウドソーシング
7.2 Kaggleのモデル
7.2.1 Kaggleでの競技者
7.2.2 Kaggleの顧客
7.3 思考実験:ロボット評価者が示す道徳上の意味
7.4 特徴選択
7.4.1 例:ユーザの定着率
7.4.2 フィルタ
7.4.3 ラッパー
7.4.4 組み込み:決定木
7.4.5 エントロピー
7.4.6 決定木のアルゴリズム
7.4.7 決定木における連続値変数の扱い
7.4.8 ランダムフォレスト
7.4.9 ユーザの定着率:理解しやすさ vs.予測力
7.5 ディビッド・ハファッカー:ソーシャル研究への Googleのハイブリッドなアプローチ
7.5.1 記述的から予測的へ
7.5.3 Googleにおけるソーシャル
7.5.4 プライバシー
7.5.5 思考実験:懸念点を減らし理解とコントロールを増やすための最良の方法とは?
8章 レコメンデーションエンジン:ユーザが直接触れる大規模データ製品を構築する
8.1 現実世界でのレコメンデーションエンジン
8.1.1 最近傍法を振り返る
8.1.2 最近傍法の問題点
8.1.3 最近傍法を越えて:機械学習による分類
8.1.4 次元の問題
8.1.5 特異値分解
8.1.6 SVDの重要な特徴
8.1.7 主成分分析
8.1.8 最小二乗法の代替
8.1.9 Vを固定して Uを更新する
8.1.10 3つのアルゴリズムについての最後の考察
8.2 思考実験:バブルを検出する
8.3 演習問題:レコメンデーションシステムの構築
8.3.1 Pythonのサンプルコード
9章 データ可視化と不正検出
9.1 データ可視化の歴史
9.1.1 ガブリエル・タルド
9.1.2 マークの思考実験
9.2 データサイエンスとは何か、再び
9.2.1 Processing
9.2.2 フランコ・モレッティ
9.3 データ可視化プロジェクトの例
9.4 マークのデータ可視化プロジェクト
9.4.1 ニューヨークタイムズのロビー: Moveable Type
9.4.2 プロジェクト Cascade:画面上でのライブ
9.4.3 クロンカイトプラザ
9.4.4 eBay取引と書籍
9.4.5 パブリックシアターのシェイクスピアマシン
9.4.6 これらの展示の目的
9.5 データサイエンスとリスク
9.5.1 Square社について
9.5.2 リスクに対する取り組み
9.5.3 性能推定における問題点
9.5.4 モデル構築のヒント
9.6 Square社でのデータ可視化
9.7 イアンの思考実験
9.8 その他の人々にとってのデータ可視化
9.8.1 データ可視化の演習問題
10章 ソーシャルネットワークとデータジャーナリズム
10.1 Morningside Analyticsでのソーシャルネットワーク分析
10.1.1 ケース属性データ vs.ソーシャルネットワークデータ
10.2 ソーシャルネットワーク分析
10.3 ソーシャルネットワーク由来の専門用語
10.3.1 中心性の尺度
10.3.2 中心性の業界
10.4 思考実験
10.5 Morningside Analytics
10.5.1 可視化によって魚の群れを特定する方法
10.6 統計学的視点から見たソーシャルネットワーク分析の深い背景
10.6.1 ネットワークの表現と固有ベクトル中心性
10.6.2 ランダムグラフの 1つ目の例: Erdos-Renyiモデル
10.6.3 ランダムグラフの 2つ目の例:指数ランダムグラフ
10.7 データジャーナリズム
10.7.1 データジャーナリズムの歴史
10.7.2 技術ジャーナリズムの執筆:専門家からのアドバイス
11章 因果関係
11.1 相関関係は因果関係を含意しない
11.1.1 因果関係に関する問い
11.1.2 交絡因子:出会い系サイトの例
11.2 OkCupidの試み
11.3 ゴールドスタンダード:無作為化臨床試験
11.4 A/Bテスト
11.5 次善策:観察研究
11.5.1 シンプソンのパラドックス
11.5.2 ルービンの因果モデル
11.5.3 因果関係の可視化
11.5.4 因果効果の定義
11.6 3つのアドバイス
12章 疫学
12.1 マディガンの経歴
12.2 思考実験
12.3 現在の学術的な統計
12.4 医療文献と観察研究
12.5 層別化は交絡問題を解決しない
12.5.1 実際に交絡因子に関して行われていること
12.6 よい方法は存在するのか
12.7 調査実験(医薬の影響効果の組合せ観察)
12.8 思考実験の終了
13章 データ分析のコンペティションから得られた教訓:データのリークとモデルの評価
13.1 データサイエンティストクラウディアのプロフィール
13.1.1 チーフデータサイエンティストの生涯
13.1.2 女性のデータサイエンティストであるということ
13.2 データマイニングコンペティション
13.3 よいモデル作成者になる方法
13.4 データのリーク
13.4.1 市場予測
13.4.2 Amazonの事例:高額購入者の予測
13.4.3 宝石購入者のサンプリングに関する問題
13.4.4 IBMの顧客ターゲティング
13.4.5 乳がんの検出
13.4.6 肺炎患者の予測
13.5 データのリークを回避する方法
13.6 モデルの評価
13.6.1 正確度:退屈な話
13.6.2 それは確率の問題であり、 0と1ではない
13.7 アルゴリズムの選択
13.8 最後の例
13.9 最後に
14章 データエンジニアリング: MapReduce、Pregel、Hadoop
14.1 ディビッド・クローショーについて
14.2 思考実験
14.3 MapReduce
14.4 単語頻度の問題
14.4.1 MapReduceの導入
14.5 MapReduceを使う他の例
14.5.1 MapReduceでできないこと
14.6 Pregel
14.7 ジョシュ・ウィルズについて
14.8 思考実験
14.9 データサイエンティストであること
14.9.1 データの豊富さをとるか、価値のある希少なデータだけを 残すか
14.9.2 モデルの設計
14.10 経済面での落としどころ: Hadoop
14.10.1 Hadoopの簡単な紹介
14.10.2 Cloudera
14.11 ジョシュのワークフロー
14.12 Hadoopを使い始めるには
15章 生徒たちの声
15.1 プロセスに関する思考
15.2 もはや単純ではない
15.3 救いの手
15.4 道のりは変化する
15.5 橋渡しされたトンネル
15.6 成果物の一例
16章 次世代のデータサイエンティスト、データに対する過信と倫理
16.1 今まさに起きていること
16.2 データサイエンスの定義について再考する
16.3 次世代のデータサイエンティストとは
16.3.1 問題を解決する人物であること
16.3.2 精神的な性質を磨くこと
16.3.3 疑問を持つ人になる
16.4 倫理的なデータサイエンティストであること
16.5 キャリアに対するアドバイス
続きを見る