内容紹介
Apache SparkをPythonから使うための方法とノウハウを網羅!
PySparkとはSparkを実行するためのPython APIです。インメモリ(ソフトウェアを実行する際、使用するプログラムやデータのすべてをメモリ上に読み込み、ハードディスクなどの外部記憶装置を使わないこと)で高速に分散処理ができるフレームワークで、MLlibという機械学習ライブラリが利用できることなどから注目されています。本書は、Apache SparkをPythonから使うための方法とノウハウを書いた書籍です。
このような方におすすめ
Pythonからビッグデータを扱う、データ処理、データサイエンスに携わる技術者。Pythonでデータ処理をしていて、扱うデータのスケールを大きくしたい人。Spark 2.0について知りたい人全般。