内容紹介
プロジェクトを成功させるために必要なデータサイエンティストの実践的スキルが身につく!
本書は、これからデータサイエンティストとしてキャリアを始めようという方、あるいは「偶発的なデータサイエンティスト」つまり、たまたまデータサイエンティストとしての役割を任されたエンジニアを対象に書かれた、データサイエンスと機械学習の短期集中育成コースです。筆者らの経験に基づいて、データサイエンティストの現場において求められるスキルをまとめています。
本書を構成する3編のパートのうちパートIではデータサイエンティストの基本となる原理原則を解説しています。データサイエンスの現場を理解するため出発点として、データサイエンティストの求められる役割、ワークフローを述べ、誤差分析、前処理、仮説検定、可視化といった基本的な手法を解説します。誤差の多いデータ分析では、いきなりアルゴリズムを当てはめてもほとんど成功することはありません。まずは基本的なデータを理解します。
パートIIでは、基本的な機械学習の手法を述べていきます。比較、回帰分析、クラスタリング、ベイズネットワーク、次元削減、因果推論、ニューラルネットワークなどをPythonによるコードを示しながら解説します。本書では1回限りのデータ分析ではなく、たとえばWebサイトで実行されるレコメンドシステムのような比較的長期にわたる実務に焦点を当てて解説しています。
最後にパートIIIでは、機械学習を実行するプラットフォームについて解説します。ハードウェアのボトルネック、高速アクセスのためのソフトウェアの基礎、分散システムにおけるアーキテクチャについて述べます。これらはデータサイエンスのエンジニアリング的な側面です。
実務の現場におけるデータサイエンスを理解するための第一歩を学べる内容になっています。
このような方におすすめ
・データサイエンティストとエンジニアの技術的なギャップを埋めたいと考えている人
・データサイエンティストとして、より効率的に日々の業務を行いたいと考えている人
目次
主要目次
I フレーミングの原則
第1章 データサイエンティストの役割
第2章 プロジェクトのワークフロー
第3章 誤差の定量化
第4章 データのエンコードと前処理
第5章 仮説検定
第6章 データの可視化
II アルゴリズムとアーキテクチャ
第7章 アルゴリズムとアーキテクチャの紹介
第8章 比較
第9章 回帰
第10章 分類とクラスタリング
第11章 ベイジアンネットワーク
第12章 次元削減と潜在変数モデル
第13章 因果推論
第14章 高度な機械学習
III ボトルネックと最適化
第15章 ハードウェアの基礎
第16章 ソフトウェアの基礎
第17章 ソフトウェアアーキテクチャ
第18章 CAP定理
第19章 論理ネットワークトポロジノード
参考文献
索引