• 本

入門PySpark PythonとJupyterで活用するSpark2エコシステム

出版社名 オライリー・ジャパン
出版年月 2017年11月
ISBNコード 978-4-87311-818-5
4-87311-818-2
税込価格 3,672円
頁数・縦 303P 24cm

商品内容

要旨

PythonからSparkを利用するための機能、PySparkを使いこなすテクニックとノウハウ。はじめに高速になったSpark2.0の特徴とアーキテクチャを解説し、構造化及び非構造化データの読み取り、PySparkで利用できる基本的なデータ型、MLlibとMLパッケージによる機械学習モデルの構築を説明。GraphFramesを使ったグラフの操作、ストリーミングデータの読み取り、クラウドへのモデルのデプロイなどの方法を豊富なサンプルと一緒に学ぶ。ローカルでのSpark+Python+Jupyter環境の構築方法も紹介。

目次

1章 Sparkを理解する
2章 耐障害性分散データセット
3章 DataFrame
4章 データのモデリングの準備
5章 MLlib
6章 MLパッケージ
7章 GraphFrames
8章 TensorFrames
9章 Blazeによるポリグロットパーシステンス
10章 Structured Streaming
11章 Sparkアプリケーションのパッケージ化

著者紹介

ドラバス,トマズ (ドラバス,トマズ)   Drabas,Tomasz
シアトル在住のMicrosoftに勤めるデータサイエンティスト。ヨーロッパ、オーストラリア、北米という3つの大陸で先端的なテクノロジー、航空、テレコミュニケーション、金融、コンサルティングといった数多くの分野に関わり、データ分析とデータサイエンスの経験を13年以上にわたって積んできた
リー,デニー (リー,デニー)   Lee,Denny
MicrosoftのAzure Cosmos DBチームのプリンシパルプログラムマネージャー。インターネットスケールのインフラストラクチャ、データプラットフォーム、オンプレミスとクラウド両方の環境の予測分析システムの開発経験を18年以上も持っている、分散システムおよびデータサイエンスの現場のエンジニアである
玉川 竜司 (タマガワ リュウジ)  
Sky株式会社。本業はソフト開発(本データはこの書籍が刊行された当時に掲載されていたものです)