詳解Ａｐａｃｈｅ　Ｓｐａｒｋ　大規模データ分析を基礎から、徹底的に/下田倫大／著　師岡一成／著　今井雄太／著　石川有／著　田中裕一／著　小宮篤史／著　加嵜長門／著本・コミック：オンライン書店e-hon

詳解Ａｐａｃｈｅ　Ｓｐａｒｋ　大規模データ分析を基礎から、徹底的に

下田倫大／著　師岡一成／著　今井雄太／著　石川有／著　田中裕一／著　小宮篤史／著　加嵜長門／著

出版社名	技術評論社
出版年月	2016年6月
ISBNコード	978-4-7741-8124-0 （4-7741-8124-2）
税込価格	3,960円
頁数・縦	３３７Ｐ　２３ｃｍ

商品内容

要旨	Ａｐａｃｈ　Ｓｐａｒｋはより高速にビッグデータを処理するための分散処理フレームワークです。ＳＱＬインターフェースや機械学習などの機能が標準で組み込まれ、バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため、さまざまなシーンのデータ分析を強力にサポートします。本書では、Ｓｐａｒｋの基礎であるＲＤＤのしくみ、Ｓｐａｒｋを構成する各コンポーネントの機能を理解するところからはじめます。さらにＳｐａｒｋクラスタの構築と運用、構造化データを処理するためのＤａｔａＦｒａｍｅ　ＡＰＩとＳｐａｒｋ　ＳＱＬ、ストリーミング処理のためのＳｐａｒｋ　Ｓｔｒｅａｍｉｎｇ、機械学習ライブラリＭＬｌｉｂ、グラフ処理のためのＧｒａｐｈＸの各コンポーネントの実践的な利用方法を基礎から徹底的に解説します。
目次	第１章　Ｓｐａｒｋの基礎第２章　Ｓｐａｒｋの導入第３章　ＲＤＤ第４章　クラスタ構築と運用第５章　ＤａｔａＦｒａｍｅとＳｐａｒｋ　ＳＱＬ第６章　Ｓｐａｒｋ　Ｓｔｒｅａｍｉｎｇ第７章　ＭＬｌｉｂ第８章　ＧｒａｐｈＸＡｐｐｅｎｄｉｘ　ＹＡＲＮ

要旨

Ａｐａｃｈ　Ｓｐａｒｋはより高速にビッグデータを処理するための分散処理フレームワークです。ＳＱＬインターフェースや機械学習などの機能が標準で組み込まれ、バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため、さまざまなシーンのデータ分析を強力にサポートします。本書では、Ｓｐａｒｋの基礎であるＲＤＤのしくみ、Ｓｐａｒｋを構成する各コンポーネントの機能を理解するところからはじめます。さらにＳｐａｒｋクラスタの構築と運用、構造化データを処理するためのＤａｔａＦｒａｍｅ　ＡＰＩとＳｐａｒｋ　ＳＱＬ、ストリーミング処理のためのＳｐａｒｋ　Ｓｔｒｅａｍｉｎｇ、機械学習ライブラリＭＬｌｉｂ、グラフ処理のためのＧｒａｐｈＸの各コンポーネントの実践的な利用方法を基礎から徹底的に解説します。

第１章　Ｓｐａｒｋの基礎
第２章　Ｓｐａｒｋの導入
第３章　ＲＤＤ
第４章　クラスタ構築と運用
第５章　ＤａｔａＦｒａｍｅとＳｐａｒｋ　ＳＱＬ
第６章　Ｓｐａｒｋ　Ｓｔｒｅａｍｉｎｇ
第７章　ＭＬｌｉｂ
第８章　ＧｒａｐｈＸ
Ａｐｐｅｎｄｉｘ　ＹＡＲＮ

おすすめコメント

Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。 SQLインターフェースや機械学習などの機能が標準で組み込まれ、バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため、さまざまなシーンのデータ分析を強力にサポートします。本書では、Sparkの分散処理の基礎であるRDDのしくみ、Sparkを構成する各コンポーネントの機能を理解するところからはじめます。さらにSparkクラスタの構築と運用、構造化データを処理するためのDataFrame APIとSpark SQL、ストリーミング処理のためのSpark Streaming、機械学習ライブラリMLlib、グラフ処理のためのGraphXの各コンポーネントの実践的な利用方法を基礎から徹底的に解説します。また基本機能の解説だけではなく、多くの実践的な利用例を通してSparkを理解し、アプリケーション作成ができることを目指す構成となっています。「5章 DataFrame APIとSpark SQL」では構造化データを分析するためのインタフェースを利用し、実際に公開されているオープンデータの分析を通してDataFrame APIやSpark SQLの使い方が学べます。「6章 Spark Streaming」ではSparkのストリーミング処理によるアクセスログの集計処理やTwitterのデータ抽出処理の例を通して、Spark Streamingのアプリケーション作成について学べます。「7章 MLlib」ではSparkの機械学習ライブラリによる好みの映画のレコメンドや住宅価格の予測やスパムメッセージの検出する方法を学べます。「8章 GraphX」ではSparkのグラフ処理ライブラリによるユーザの行動ログのグラフ化やアソシエーション・ルールによるアイテムレコメンドの例を通して、GraphXアプリケーションの実装方法が学べます。 SparkはScala、Java、Python、Rのプログラミングインタフェースを提供していますが、本書ではScalaで解説をします。

出版社・メーカーコメント

Apach Sparkはより高速にビッグデータを処理するための分散処理フレームワークです。SQLインターフェースや機械学習などの機能が標準で組み込まれ，バッチ処理だけでなくストリーミング処理や対話的な処理にも対応できるため，さまざまなシーンのデータ分析を強力にサポートします。本書では，Sparkの分散処理の基礎であるRDDのしくみ，Sparkを構成する各コンポーネントの機能を理解するところからはじめます。さらにSparkクラスタの構築と運用，構造化データを処理するためのDataFrame APIとSpark SQL，ストリーミング処理のためのSpark Streaming，機械学習ライブラリMLlib，グラフ処理のためのGraphXの各コンポーネントの実践的な利用方法を基礎から徹底的に解説します。また基本機能の解説だけではなく，多くの実践的な利用例を通してSparkを理解し，アプリケーション作成ができることを目指す構成となっています。「5章 DataFrame APIとSpark SQL」では構造化データを分析するためのインタフェースを利用し，実際に公開されているオープンデータの分析を通してDataFrame APIやSpark SQLの使い方が学べます。「6章 Spark Streaming」ではSparkのストリーミング処理によるアクセスログの集計処理やTwitterのデータ抽出処理の例を通して，Spark Streamingのアプリケーション作成について学べます。「7章 MLlib」ではSparkの機械学習ライブラリによる好みの映画のレコメンドや住宅価格の予測やスパムメッセージの検出する方法を学べます。「8章 GraphX」ではSparkのグラフ処理ライブラリによるユーザの行動ログのグラフ化やアソシエーション・ルールによるアイテムレコメンドの例を通して，GraphXアプリケーションの実装方法が学べます。SparkはScala，Java，Python，Rのプログラミングインタフェースを提供していますが，本書ではScalaで解説をします。

著者紹介

下田　倫大 (シモダ　ノリヒロ)　　: 株式会社ブレインパッドに所属。ＳＮＳ企業にてＨａｄｏｏｐを用いたソーシャルグラフの解析やレコメンドエンジン開発、広告商品の開発を行う。その過程でマーケティングデータの活用に興味を持ち２０１３年８月ブレインパッドに入社。同社が開発するプライベートＤＭＰ「Ｒｔｏａｓｔｅｒ」の外部ＤＳＰ／ＤＭＰ連携や、運用型広告最適化ツール「Ｌ２Ｍｉｘｅｒ」の開発を担当。２０１５年７月より、プロダクトにとらわれず同社のビジネスを技術的側面からサポートする業務に従事している

師岡　一成 (モロオカ　カズシゲ)　　: 株式会社ブレインパッドに所属。新卒入社したＳＩｅｒで主に小売・流通業の基幹システムの構築に携わる。Ｈａｄｏｏｐやデータ分析に興味を持ち２０１２年に株式会社ブレインパッドに入社。Ｈａｄｏｏｐを用いたログ解析システムや、プライベートＤＭＰ「Ｒｔｏａｓｔｅｒ」の広告連携・セグメンテーションツールの開発を担当。現在は全社的な技術支援業務を行っている

今井　雄太 (イマイ　ユウタ)　　: Ｈｏｒｔｏｎｗｏｒｋｓに所属。２０１１年に広告配信システムのレポート作成をＨａｄｏｏｐを使ってみたのがビッグデータエコシステムとの出会い。２０１２年から約３年、ＡＷＳのソリューションアーキテクトとしてＡｍａｚｏｎ　Ｅｌａｓｔｉｃ　ＭａｐＲｅｄｕｃｅやＡｍａｚｏｎ　Ｋｉｎｅｓｉｓ、Ａｍａｚｏｎ　ＤｙｎａｍｏＤＢなどを主な担当。ゲームや広告のワークロードで必要となる分析や集計などをＡＷＳ上でいかに快適に実現するかというテーマのもとに活動。２０１５年にビッグデータつながりでＨｏｒｔｏｎｗｏｒｋｓに転職、引き続きＨａｄｏｏｐやＳｐａｒｋをより便利に利用するためのサービスを仕事にしている

石川　有 (イシカワ　ユウ)　　: 株式会社リクルートテクノロジーズアドバンスドテクノロジーラボに所属。株式会社ミクシィ在籍時にＨａｄｏｏｐやＨｉｖｅなどの分散処理システムに興味を持ち、分析基盤構築からアプリケーション設計、データサイエンス業務まで幅広くこなす。現在は、Ａｐａｃｈｅ　Ｓｐａｒｋの特に機械学習コンポーネントＭＬｌｉｂの開発に従事

田中　裕一 (タナカ　ユウイチ)　　: 日本ＩＢＭに所属。Ｗｅｂ系・広告系企業にて、Ｈａｄｏｏｐ／Ｓｐａｒｋ／ＫａｆｋａなどＨａｄｏｏｐエコシステムを利用した広告システム（ＤＭＰ）・行動分析基盤・レコメンド基盤の全体アーキテクチャ設計やプログラミング、最適化、行動解析を担当。Ｓｐａｒｋ／Ｈａｄｏｏｐエコシステムを筆頭にＯＳＳを組み合わせた大規模なアーキテクチャの設計に従事。２０１６年にＳｐａｒｋ／Ｈａｄｏｏｐを多様な業種に広げるため、活動の場をＩＢＭに移す（本データはこの書籍が刊行された当時に掲載されていたものです）