内容紹介
いま必要とされるデータサイエンスの素養がしっかり身につく一冊。
さまざまな場面で入手できるデータを価値に転換することが、データサイエンスの目的です。データサイエンスという言葉は、ビジネスやアカデミーを問わず、いまや多くの場面で聞かれるようになり、それだけ重要性が高まっている概念といえます。本書は、データサイエンスを理解し実践したいと考えている方に必要とされる、データサイエンスの素養がしっかり学べる一冊です。
データサイエンスは、統計的、計算的、人間的という3つの視点の有機的結合という一面があるといわれます。本書では、データ分析に必要な統計学や関連する数学を丁寧にフォローし、確率・統計的な考え方が自然に身に付くよう配慮しました。また、データを適切に処理するための計算法は、プログラミング言語としてRを用いつつ、近年注目度の高い機械学習を含む具体例を通して納得しながら理解できる構成です。さらに、データの前処理から分析結果のプレゼンテーションまでの過程には人間が関わるという観点で、データを取り扱ううえで心がけるべき倫理的側面も扱いました。
なお、本書は「数理・データサイエンス・AI(リテラシーレベル)モデルカリキュラム」、「数理・データサイエンス・AI(応用基礎レベル)モデルカリキュラム」に準拠した授業の副読本・参考書としてもご利用いただけます。
このような方におすすめ
○情報系(特にデータサイエンス系)大学学部や高専、専門学校の学生および教員
○研究や実務でデータの分析や解析を必要とする学生および若手の社会人
○数学(特に確率・統計)のデータサイエンスへの活用に興味や関心をもつ学生および社会人
目次
主要目次
第1章 イントロダクション
第2章 Rの基礎
第3章 データの記述・可視化
第4章 関連と因果,データ分析における注意事項
第5章 データ倫理
第6章 確率
第7章 確率分布
第8章 標本分布と中心極限定理
第9章 点推定・区間推定・仮説検定・p値
第10章 機械学習の基礎
第11章 回帰モデル
第12章 分類
第13章 ベイズ線形モデル
第14章 決定木とアンサンブル学習
第15章 スパース学習
演習問題略解
参考文献
詳細目次
第1章 イントロダクション
1.1 データサイエンス作法
1.2 データサイエンスvs.人工知能
1. 人工知能の革命
2. データサイエンスと人工知能:共通点と相違点
1.3 各章の内容
第2章 Rの基礎
2.1 なぜRなのか
2.2 Rコンソール
2.3 スクリプト
2.4 RStudio
1. ペイン
2. キーバインド
3. スクリプトの実行
4. RStudioオプションの変更
5. Rパッケージのインストール
2.5 Rの基本
演習問題
第3章 データの記述・可視化
3.1 データの種類と性質
3.2 データの要約方法1:データの中心を表す尺度
1. 標本平均
2. 標本中央値
3. 標本最頻値
4. 標本平均,標本中央値,標本最頻値の違い
3.3 データの要約方法2:データのバラツキを表す尺度
1. 標本分散
2. 標本標準偏差
3. 標本平均偏差
4. 標本範囲
5. 四分位範囲
3.4 データのグラフ表示
1. 箱ひげ図
2. ヒストグラム
演習問題
第4章 関連と因果,データ分析における注意事項
4.1 観察研究における交絡の問題
4.2 伝統的な交絡の調整方法
1. 層別解析とマッチング
2. 回帰モデル
4.3 傾向スコア
4.4 傾向スコア解析の手順
4.5 傾向スコア解析の利点と欠点
1. 傾向スコア解析の利点
2. 傾向スコア解析の欠点
4.6 傾向スコアマッチングによる解析事例
演習問題
第5章 データ倫理
5.1 データ倫理の原則
1. 所有権の原則
2. 透明性の原則
3. プライバシーの原則
4. 目的の原則
5. 結果の原則
5.2 データ倫理規範
5.3 アルゴリズムバイアス
5.4 データプライバシー
1. データプライバシーとは
2. データプライバシーvs.データセキュリティ
3. データプライバシーに関わる基本事項
5.5 データガバナンス
1. データガバナンスとは
2. データガバナンスはなぜ重要か
5.6 データ整合性
1. データ整合性とは
2. データ整合性が重要な理由
3. データ整合性の達成と維持する方法
演習問題
第6章 確率
6.1 確率とは
6.2 実験,試行,標本点,標本空間,事象など
6.3 事象の和・積,余事象など
6.4 確率の定義
6.5 確率のいくつかの性質,加法定理
6.6 条件付き確率
1. 事象の独立性
6.7 ベイズの定理
演習問題
第7章 確率分布
7.1 確率変数と確率分布
1. 離散型確率分布と連続型確率分布
2. 分布関数
7.2 確率分布の特徴を表す指標
7.3 代表的な確率分布とその性質
演習問題
第8章 標本分布と中心極限定理
8.1 多次元確率分布
1. 2次元確率分布
2. 同時確率分布
3. 周辺分布
4. 条件付き分布,確率変数の独立性
5. 共分散,相関係数
8.2 統計量と標本分布
1. 無作為標本と統計量
8.3 大数の法則と中心極限定理
演習問題
第9章 点推定・区間推定・仮説検定・p値
9.1 統計学の体系
1. 母集団の設定
2. 母集団からの標本抽出
3. 標本の記述―記述統計学
4. 標本特性に基づく母集団特性の推測―推測統計学
9.2 点推定と区間推定
1. 点推定
2. 区間推定
9.3 仮説検定とp値
1. 仮説検定
2. p値
演習問題
第10章 機械学習の基礎
10.1 機械学習とは~回帰分析を例として~
1. 統計的誤差
2. 機械学習の基本的考え方
10.2 回帰分析
10.3 クラスタリング
1. クラスタリングの基本的考え方
2. クラスタリングの実装
3. クラスター数が未知のとき
10.4 分類
演習問題
第11章 回帰モデル
11.1 ボストン住宅価格データ
11.2 線形モデル
1. 最尤推定量
2. 変数選択
3. K-分割交差検証法
11.3 ボストン住宅価格の予測
11.4 回帰診断
11.5 非線形モデル
1. 対数線形モデル
2. 対数線形モデルの適用例
3. 負の二項分布モデル
演習問題
第12章 分類
12.1 分類の方法と評価指標
1. 分類の方法
2. 分類の評価指標
12.2 クレジットカード不正利用データ
12.3 ロジスティック回帰分析
1. ロジスティック回帰モデル
2. パラメータの最尤推定
3. クレジットカードの不正利用の検出
12.4 ナイーブベイズ
12.5 不均衡データの分類
1. 不均衡データ
2. サンプリング法と擬似データ生成法
3. クレジットカードの不正利用の検出
演習問題
第13章 ベイズ線形モデル
13.1 ベイズ統計学の基本的考え方
13.2 マルコフ連鎖モンテカルロ法
13.3 ベイズモデルの比較
13.4 ベイズ線形モデル
1. 基本的考え方
2. 独立等分散モデル
13.5 ベイズ線形モデルによるボストン住宅価格の予測
1. 事後分布からの標本抽出
2. ベイズ推論
3. 事前分布の選択
4. 予測分布
演習問題
第14章 決定木とアンサンブル学習
14.1 回帰木
1. 回帰木の例
2. 一般的回帰木モデル
3. 木の刈込み
14.2 ランダムフォレスト
1. バギング法
2. ランダムフォレスト
3. ブースティング
14.3 分類
1. カーシートの販売データ
2. バギング法とランダムフォレスト
3. ブースティング
演習問題
第15章 スパース学習
15.1 LASSO回帰
1. 罰則付き最適化問題
2. LASSO回帰
15.2 ボストン住宅価格データへの適用
演習問題
演習問題略解
参考文献
続きを見る
ダウンロード
ここでは、本書『IT Text データサイエンスの基礎』と数理・データサイエンス・AI教育プログラムの「モデルカリキュラム(リテラシーレベル、応用基礎レベル)」との対応、および本書を利用した課題解決型学習(PBL)の展開案をまとめた資料(2022年9月20日更新)を、PDF形式で提供いたします。