• 本

Apache Spark入門 動かして学ぶ最新並列分散処理フレームワーク

NEXT ONE

出版社名 翔泳社
出版年月 2015年10月
ISBNコード 978-4-7981-4266-1
4-7981-4266-2
税込価格 3,520円
頁数・縦 308P 23cm

商品内容

要旨

本書はApache Sparkの概要からRDDによる処理の仕組み、導入やアプリケーション開発までを解説します。また、「SQLインターフェイス」「機械学習」「ストリーム処理」「グラフ」などApache Spark周辺のライブラリの活用についても説明します。話題のApache Sparkの仕組みとその利用方法を理解することにより、データ処理の新しい潮流を知ることができます。

目次

第1部 導入編(Apache Sparkとは
Sparkの処理モデル
Sparkの導入
Sparkアプリケーションの開発と実行)
第2部 実践編(基本的なAPIを用いたプログラミング
構造化データセットを処理する―Spark SQL
ストリームデータを処理する―Spark Streaming
機械学習を行う―MLlib)

おすすめコメント

Apache Sparkは多数のコンピュータを並列で動かして高速処理を実現する技術です。大量のデータを扱う「ビッグデータ」や「機械学習」、「IoT(Internet of Things:物のインターネット)」などの分野で応用が期待されるOSS(Open Source Software)です。Apache SparkはUCバークレイで提唱されたRDD(Resilient Distributed Datasets)というアーキテクチャを採用しており、メモリを積極的に活用した分散並列処理を実現します。これにより、従来よりも大幅なパフォーマンスアップが期待できます。また、Hadoopとの高い親和性を有しており、YARNやHDFSなどのHadoopのシステムの枠組を使えます。本書はApache Sparkを使うための知識を簡潔かつ実践的に紹介していきます。Apache Sparkでは「機械学習」「グラフ処理」「ストリーミング」処理等々を実現するためのライブラリが標準で利用できますが、各分野への応用も見据えたこれらの活用方法も本書で解説します。Apache Sparkの仕組みとその利用方法を理解することにより、一歩先を行くデータ処理の新しい潮流を知ることができます。