Ｓｐａｒｋによる実践データ解析　大規模データのための機械学習事例集/Ｓａｎｄｙ　Ｒｙｚａ／著　Ｕｒｉ　Ｌａｓｅｒｓｏｎ／著　Ｓｅａｎ　Ｏｗｅｎ／著　Ｊｏｓｈ　Ｗｉｌｌｓ本・コミック：オンライン書店e-hon

Ｓｐａｒｋによる実践データ解析　大規模データのための機械学習事例集

Ｓａｎｄｙ　Ｒｙｚａ／著　Ｕｒｉ　Ｌａｓｅｒｓｏｎ／著　Ｓｅａｎ　Ｏｗｅｎ／著　Ｊｏｓｈ　Ｗｉｌｌｓ

出版社名	オライリー・ジャパン
出版年月	2016年1月
ISBNコード	978-4-87311-750-8 （4-87311-750-X）
税込価格	3,740円
頁数・縦	３０９Ｐ　２４ｃｍ

商品内容

要旨	本書は、データサイエンスの４人のエキスパートがＳｐａｒｋでの高度な分析方法を解説するとともに、より実践的なデータサイエンスを学ぶ書籍です。ビッグデータ分析におけるＳｐａｒｋの位置づけを紹介し、ベストな結果を得るためのデータの準備やモデルのチューニングについて解説します。またデータクレンジングのユースケースを通じてＳｐａｒｋとＳｃａｌａによるデータ処理の基本を学習し、Ｓｐａｒｋを使った機械学習の基礎や応用分野における広く使われる一般的なアルゴリズムを紹介します。日本語版では付録として高柳慎一氏と牧山幸史氏による「ＳｐａｒｋＲについて」と千葉立寛氏、小野寺民也氏による「ＳｐａｒｋのＪＶＭ、システムレベルのチューニングによる高速化」を掲載。高度なデータ解析を習得したいデータサイエンティスト必携の一冊です。
目次	ビッグデータの分析ＳｃａｌａとＳｐａｒｋによるデータ分析の紹介音楽のレコメンドとＡｕｄｉｏｓｃｒｏｂｂｌｅｒデータセット決定木を使った森林被覆の予測Ｋ平均クラスタリングを使ったネットワークトラフィックにおける異常の検出潜在意味解析を使ったＷｉｋｉｐｅｄｉａの理解ＧｒａｐｈＸを使った共起ネットワークの分析ニューヨーク市のタクシーの移動データに対する地理空間及び履歴データ分析モンテカルロシミュレーションによる金融リスクの推定ゲノムデータの分析とＢＤＧプロジェクトＰｙＳｐａｒｋとＴｈｕｎｄｅｒを使った神経画像データの分析Ｓｐａｒｋの詳細ＭＬｌｉｂ　Ｐｉｐｅｌｉｎｅｓ　ＡＰＩＳｐａｒｋＲについてＳｐａｒｋのＪＶＭ、ＯＳレベルのチューニングによる高速化

要旨

本書は、データサイエンスの４人のエキスパートがＳｐａｒｋでの高度な分析方法を解説するとともに、より実践的なデータサイエンスを学ぶ書籍です。ビッグデータ分析におけるＳｐａｒｋの位置づけを紹介し、ベストな結果を得るためのデータの準備やモデルのチューニングについて解説します。またデータクレンジングのユースケースを通じてＳｐａｒｋとＳｃａｌａによるデータ処理の基本を学習し、Ｓｐａｒｋを使った機械学習の基礎や応用分野における広く使われる一般的なアルゴリズムを紹介します。日本語版では付録として高柳慎一氏と牧山幸史氏による「ＳｐａｒｋＲについて」と千葉立寛氏、小野寺民也氏による「ＳｐａｒｋのＪＶＭ、システムレベルのチューニングによる高速化」を掲載。高度なデータ解析を習得したいデータサイエンティスト必携の一冊です。

ビッグデータの分析
ＳｃａｌａとＳｐａｒｋによるデータ分析の紹介
音楽のレコメンドとＡｕｄｉｏｓｃｒｏｂｂｌｅｒデータセット
決定木を使った森林被覆の予測
Ｋ平均クラスタリングを使ったネットワークトラフィックにおける異常の検出
潜在意味解析を使ったＷｉｋｉｐｅｄｉａの理解
ＧｒａｐｈＸを使った共起ネットワークの分析
ニューヨーク市のタクシーの移動データに対する地理空間及び履歴データ分析
モンテカルロシミュレーションによる金融リスクの推定
ゲノムデータの分析とＢＤＧプロジェクト
ＰｙＳｐａｒｋとＴｈｕｎｄｅｒを使った神経画像データの分析
Ｓｐａｒｋの詳細
ＭＬｌｉｂ　Ｐｉｐｅｌｉｎｅｓ　ＡＰＩ
ＳｐａｒｋＲについて
ＳｐａｒｋのＪＶＭ、ＯＳレベルのチューニングによる高速化

著者紹介

ライザ，サンディ (ライザ，サンディ)　　Ｒｙｚａ，Ｓａｎｄｙ: Ｃｌｏｕｄｅｒａ社のデータサイエンティストであり、Ａｐａｃｈｅ　Ｓｐａｒｋプロジェクトの活発なコントリビュータ。近年はＣｌｏｕｄｅｒａでのＡｐａｃｈｅの開発をリードしており、Ｓｐａｒｋによるさまざまな分析のユースケースにおける顧客の支援に時間を費やしている。Ｈａｄｏｏｐ　Ｐｒｏｊｅｃｔ　Ｍａｎａｇｅｍｅｎｔ　Ｃｏｍｍｉｔｔｅｅのメンバーでもある

ラサーソン，ユーリ (ラサーソン，ユーリ)　　Ｌａｓｅｒｓｏｎ，Ｕｒｉ: Ｃｌｏｕｄｅｒａ社のデータサイエンティスト。Ｃｌｏｕｄｅｒａでは、Ｈａｄｏｏｐエコシステム中のＰｙｔｈｏｎにフォーカスしている。また、ライフサイエンスやヘルスケアを中心とする広範囲の問題に対して、Ｈａｄｏｏｐを導入する支援をしている。Ｕｒｉは以前、ＭＩＴでバイオメディカルエンジニアリングでＰｈ．Ｄの取得を目指す傍ら、次世代診断の企業であるＧｏｏｄ　Ｓｔａｒｔ　Ｇｅｎｅｔｉｃｓを共同設立した

オーエン，ショーン (オーエン，ショーン)　　Ｏｗｅｎ，Ｓｅａｎ: Ｃｌｏｕｄｅｒａ社でヨーロッパ、中東及びアフリカを担当するデータサイエンスのディレクター。２００９年以来、Ａｐａｃｈｅの機械学習プロジェクトであるＭａｈｏｕｔに対して大きく貢献しており、そのレコメンデーションフレームワークであるＴａｓｔｅを作成した。ｌａｍｂｄａアーキテクチャの原理の上に構築された、Ｈａｄｏｏｐ上の大規模リアルタイム学習のためのＯｒｙｘ（以前はＭｙｒｒｉｘと呼ばれていた）プロジェクトを立ち上げた

ウィルス，ジョシュ (ウィルス，ジョシュ)　　Ｗｉｌｌｓ，Ｊｏｓｈ: Ｃｌｏｕｄｅｒａ社のデータサイエンスのシニアディレクターであり、幅広い業界に渡って、Ｈａｄｏｏｐベースのソリューションを開発するために顧客及びエンジニアと共に働いている。最適化されたＭａｐＲｅｄｕｃｅ及びＳｐａｒｋのパイプラインをＪａｖａで構築するためのＡｐａｃｈｅ　Ｃｒｕｎｃｈプロジェクトの創始者であり、ＶＰでもある。Ｃｌｏｕｄｅｒａに入社する以前は、Ｇｏｏｇｌｅに勤めており、オークションのシステムの仕事をした後、Ｇｏｏｇｌｅ＋の分析インフラストラクチャの開発をリードしていた

石川　有 (イシカワ　ユウ)　　: 株式会社リクルートテクノロジーズのアドバンスドテクノロジーラボに所属。株式会社ミクシィ在籍時にＨａｄｏｏｐやＨｉｖｅなどの分散処理システムに興味を持ち、分析基盤構築からアプリケーション設計、データサイエンス業務まで幅広くこなす。現在は、Ａｐａｃｈｅ　Ｓｐａｒｋの特に機械学習コンポーネントＭＬｌｉｂの開発に従事している（本データはこの書籍が刊行された当時に掲載されていたものです）