• 本

詳解Apache Spark 大規模データ分析を基礎から、徹底的に

出版社名 技術評論社
出版年月 2016年6月
ISBNコード 978-4-7741-8124-0
4-7741-8124-2
税込価格 3,960円
頁数・縦 337P 23cm

商品内容

要旨

Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。SQLインターフェースや機械学習などの機能が標準で組み込まれ、バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため、さまざまなシーンのデータ分析を強力にサポートします。本書では、Sparkの基礎であるRDDのしくみ、Sparkを構成する各コンポーネントの機能を理解するところからはじめます。さらにSparkクラスタの構築と運用、構造化データを処理するためのDataFrame APIとSpark SQL、ストリーミング処理のためのSpark Streaming、機械学習ライブラリMLlib、グラフ処理のためのGraphXの各コンポーネントの実践的な利用方法を基礎から徹底的に解説します。

目次

第1章 Sparkの基礎
第2章 Sparkの導入
第3章 RDD
第4章 クラスタ構築と運用
第5章 DataFrameとSpark SQL
第6章 Spark Streaming
第7章 MLlib
第8章 GraphX
Appendix YARN

おすすめコメント

Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。 SQLインターフェースや機械学習などの機能が標準で組み込まれ、バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため、さまざまなシーンのデータ分析を強力にサポートします。 本書では、Sparkの分散処理の基礎であるRDDのしくみ、Sparkを構成する各コンポーネントの機能を理解するところからはじめます。 さらにSparkクラスタの構築と運用、構造化データを処理するためのDataFrame APIとSpark SQL、ストリーミング処理のためのSpark Streaming、機械学習ライブラリMLlib、グラフ処理のためのGraphXの各コンポーネントの実践的な利用方法を基礎から徹底的に解説します。 また基本機能の解説だけではなく、多くの実践的な利用例を通してSparkを理解し、アプリケーション作成ができることを目指す構成となっています。「5章 DataFrame APIとSpark SQL」では構造化データを分析するためのインタフェースを利用し、実際に公開されているオープンデータの分析を通してDataFrame APIやSpark SQLの使い方が学べます。「6章 Spark Streaming」ではSparkのストリーミング処理によるアクセスログの集計処理やTwitterのデータ抽出処理の例を通して、Spark Streamingのアプリケーション作成について学べます。「7章 MLlib」ではSparkの機械学習ライブラリによる好みの映画のレコメンドや住宅価格の予測やスパムメッセージの検出する方法を学べます。「8章 GraphX」ではSparkのグラフ処理ライブラリによるユーザの行動ログのグラフ化やアソシエーション・ルールによるアイテムレコメンドの例を通して、GraphXアプリケーションの実装方法が学べます。 SparkはScala、Java、Python、Rのプログラミングインタフェースを提供していますが、本書ではScalaで解説をします。

出版社・メーカーコメント

Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。SQLインターフェースや機械学習などの機能が標準で組み込まれ,バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため,さまざまなシーンのデータ分析を強力にサポートします。本書では,Sparkの分散処理の基礎であるRDDのしくみ,Sparkを構成する各コンポーネントの機能を理解するところからはじめます。さらにSparkクラスタの構築と運用,構造化データを処理するためのDataFrame APIとSpark SQL,ストリーミング処理のためのSpark Streaming,機械学習ライブラリMLlib,グラフ処理のためのGraphXの各コンポーネントの実践的な利用方法を基礎から徹底的に解説します。また基本機能の解説だけではなく,多くの実践的な利用例を通してSparkを理解し,アプリケーション作成ができることを目指す構成となっています。「5章 DataFrame APIとSpark SQL」では構造化データを分析するためのインタフェースを利用し,実際に公開されているオープンデータの分析を通してDataFrame APIやSpark SQLの使い方が学べます。「6章 Spark Streaming」ではSparkのストリーミング処理によるアクセスログの集計処理やTwitterのデータ抽出処理の例を通して,Spark Streamingのアプリケーション作成について学べます。「7章 MLlib」ではSparkの機械学習ライブラリによる好みの映画のレコメンドや住宅価格の予測やスパムメッセージの検出する方法を学べます。「8章 GraphX」ではSparkのグラフ処理ライブラリによるユーザの行動ログのグラフ化やアソシエーション・ルールによるアイテムレコメンドの例を通して,GraphXアプリケーションの実装方法が学べます。SparkはScala,Java,Python,Rのプログラミングインタフェースを提供していますが,本書ではScalaで解説をします。

著者紹介

下田 倫大 (シモダ ノリヒロ)  
株式会社ブレインパッドに所属。SNS企業にてHadoopを用いたソーシャルグラフの解析やレコメンドエンジン開発、広告商品の開発を行う。その過程でマーケティングデータの活用に興味を持ち2013年8月ブレインパッドに入社。同社が開発するプライベートDMP「Rtoaster」の外部DSP/DMP連携や、運用型広告最適化ツール「L2Mixer」の開発を担当。2015年7月より、プロダクトにとらわれず同社のビジネスを技術的側面からサポートする業務に従事している
師岡 一成 (モロオカ カズシゲ)  
株式会社ブレインパッドに所属。新卒入社したSIerで主に小売・流通業の基幹システムの構築に携わる。Hadoopやデータ分析に興味を持ち2012年に株式会社ブレインパッドに入社。Hadoopを用いたログ解析システムや、プライベートDMP「Rtoaster」の広告連携・セグメンテーションツールの開発を担当。現在は全社的な技術支援業務を行っている
今井 雄太 (イマイ ユウタ)  
Hortonworksに所属。2011年に広告配信システムのレポート作成をHadoopを使ってみたのがビッグデータエコシステムとの出会い。2012年から約3年、AWSのソリューションアーキテクトとしてAmazon Elastic MapReduceやAmazon Kinesis、Amazon DynamoDBなどを主な担当。ゲームや広告のワークロードで必要となる分析や集計などをAWS上でいかに快適に実現するかというテーマのもとに活動。2015年にビッグデータつながりでHortonworksに転職、引き続きHadoopやSparkをより便利に利用するためのサービスを仕事にしている
石川 有 (イシカワ ユウ)  
株式会社リクルートテクノロジーズアドバンスドテクノロジーラボに所属。株式会社ミクシィ在籍時にHadoopやHiveなどの分散処理システムに興味を持ち、分析基盤構築からアプリケーション設計、データサイエンス業務まで幅広くこなす。現在は、Apache Sparkの特に機械学習コンポーネントMLlibの開発に従事
田中 裕一 (タナカ ユウイチ)  
日本IBMに所属。Web系・広告系企業にて、Hadoop/Spark/KafkaなどHadoopエコシステムを利用した広告システム(DMP)・行動分析基盤・レコメンド基盤の全体アーキテクチャ設計やプログラミング、最適化、行動解析を担当。Spark/Hadoopエコシステムを筆頭にOSSを組み合わせた大規模なアーキテクチャの設計に従事。2016年にSpark/Hadoopを多様な業種に広げるため、活動の場をIBMに移す(本データはこの書籍が刊行された当時に掲載されていたものです)