Ａｐａｃｈｅ　Ｓｐａｒｋ徹底入門/Ｊｕｌｅｓ　Ｓ．Ｄａｍｊｉ／〔ほか〕著　長谷川亮／〔ほか〕訳本・コミック：オンライン書店e-hon

Ａｐａｃｈｅ　Ｓｐａｒｋ徹底入門

Ｊｕｌｅｓ　Ｓ．Ｄａｍｊｉ／〔ほか〕著　長谷川亮／〔ほか〕訳

出版社名	翔泳社
出版年月	2024年4月
ISBNコード	978-4-7981-8228-5 （4-7981-8228-1）
税込価格	4,400円
頁数・縦	４４７Ｐ　２３ｃｍ

商品内容

要旨	統合型アナリティクスエンジンの仕組みとビッグデータの大規模処理を徹底解説。基本操作からＤｅｌｔａ　ＬａｋｅやＭＬｌｉｂを利用したパイプラインの構築まで紹介。
目次	１　Ａｐａｃｈｅ　Ｓｐａｒｋ入門２　Ａｐａｃｈｅ　Ｓｐａｒｋのダウンロードと入門３　Ａｐａｃｈｅ　Ｓｐａｒｋの構造化ＡＰＩ４　Ｓｐａｒｋ　ＳＱＬとＤａｔａＦｒａｍｅ：組み込みデータソースの紹介５　Ｓｐａｒｋ　ＳＱＬとＤａｔａＦｒａｍｅ：外部データソースとのインタラクション６　Ｓｐａｒｋ　ＳＱＬとＤａｔａｓｅｔ：７　Ｓｐａｒｋアプリケーションの最適化およびチューニング８　構造化Ｓｔｒｅａｍｉｎｇ９　Ａｐａｃｈｅ　Ｓｐａｒｋを用いた信頼性の高いデータレイクの構築１０　ＭＬｌｉｂによる機械学習１１　Ａｐａｃｈｅ　Ｓｐａｒｋによる機械学習パイプラインの管理、デプロイおよびスケール１２　エピローグ：Ａｐａｃｈｅ　Ｓｐａｒｋ　３．ｘ

要旨

統合型アナリティクスエンジンの仕組みとビッグデータの大規模処理を徹底解説。基本操作からＤｅｌｔａ　ＬａｋｅやＭＬｌｉｂを利用したパイプラインの構築まで紹介。

１　Ａｐａｃｈｅ　Ｓｐａｒｋ入門
２　Ａｐａｃｈｅ　Ｓｐａｒｋのダウンロードと入門
３　Ａｐａｃｈｅ　Ｓｐａｒｋの構造化ＡＰＩ
４　Ｓｐａｒｋ　ＳＱＬとＤａｔａＦｒａｍｅ：組み込みデータソースの紹介
５　Ｓｐａｒｋ　ＳＱＬとＤａｔａＦｒａｍｅ：外部データソースとのインタラクション
６　Ｓｐａｒｋ　ＳＱＬとＤａｔａｓｅｔ：７　Ｓｐａｒｋアプリケーションの最適化およびチューニング
８　構造化Ｓｔｒｅａｍｉｎｇ
９　Ａｐａｃｈｅ　Ｓｐａｒｋを用いた信頼性の高いデータレイクの構築
１０　ＭＬｌｉｂによる機械学習
１１　Ａｐａｃｈｅ　Ｓｐａｒｋによる機械学習パイプラインの管理、デプロイおよびスケール
１２　エピローグ：Ａｐａｃｈｅ　Ｓｐａｒｋ　３．ｘ

出版社・メーカーコメント

Ａｐａｃｈｅ　Ｓｐａｒｋの仕組みとビッグデータ向けの大規模処理とＭＬ開発を徹底解説本書は、ビッグデータを主な対象としたデータ分析フレームワークであるＡｐａｃｈｅ　Ｓｐａｒｋ、ｍｌｆｌｏｗ、ｄｅｌｔａ　ｌａｋｅの中級入門書です。「動かしてみる」だけではなく、どのような仕組みになっているのか、どうすれば効率的な実装が行えるかまで踏み込みつつ、データＡＩの実装者がＡｐａｃｈｅ　Ｓｐａｒｋ、ＭＬｆｌｏｗ　およびｄｅｌｔａ　ｌａｋｅを使いこなすための解説を行います。本書では、単純なデータ分析と複雑なデータ分析を実行し、どのように機械学習アルゴリズムを採用していくか、解説していきます。Ａｐａｃｈｅ　Ｓｐａｒｋの導入から解説をはじめ、Ｓｐａｒｋ　ＳＱＬとデータフレーム、データセットを紹介していきます。そこから、Ａｐａｃｈｅ　Ｓｐａｒｋを利用した実践的な機械学習の方法を解説していきます。本書での学習を通じて、次のことが学習できます。・Ｐｙｔｈｏｎ、ＳＱＬ、Ｓｃａｌａ、またはＪａｖａの高レベルの構造化ＡＰＩの学習・Ｓｐａｒｋ　の操作とＳＱＬエンジンの理解・Ｓｐａｒｋ　構成とＳｐａｒｋ　ＵＩを使用したＳｐａｒｋ操作の検査、調整、デバッグ・ＪＳＯＮ、Ｐａｒｑｕｅｔ、ＣＳＶ、Ａｖｒｏ、ＯＲＣ、Ｈｉｖｅ、Ｓ３、またはＫａｆｋａといったデータソースへの接続・構造化ストリーミングを使用してバッチ　データとストリーミング　データの分析を実・オープンソースのＤｅｌｔａ　ＬａｋｅとＳｐａｒｋを使用して信頼性の高いデータ　パイプラインを構築・ＭＬｌｉｂを使用する機械学習パイプラインの開発、ＭＬｆｌｏｗを使用するモデルの管理、本番化・［日本語版オリジナルコンテンツ］ｐａｎｄａｓ　ｄａｔａｆｒａｍｅ、ｓｐａｒｋ　ｄａｔａｆｒａｍｅに関する各種データフレームの使い分け　・［日本語版オリジナルコンテンツ］ＬＬＭやＥｎｇｌｉｓｈ　ＳＤＫ　ｆｏｒ　ＳｐａｒｋなどＡＩを活用した新たなコーディングスタイル、ＬＬＭの利用方法の実践※本書は『Ｌｅａｒｎｉｎｇ　Ｓｐａｒｋ：　Ｌｉｇｈｔｎｉｎｇ－Ｆａｓｔ　Ｄａｔａ　Ａｎａｒｙｔｉｃｓ　２ｎｄ　Ｅｄｉｔｉｏｎ』の邦訳です。

著者紹介

Ｄａｍｊｉ，Ｊｕｌｅｓ　Ｓ． (ＤＡＭＪＩ，ＪＵＬＥＳ　Ｓ．)　　Ｄａｍｊｉ，Ｊｕｌｅｓ　Ｓ．: Ｄａｔａｂｒｉｃｋｓ社のＳｅｎｉｏｒ　Ｄｅｖｅｌｏｐｅｒ　Ａｄｖｏｃａｔｅであり、ＭＬｆｌｏｗのコントリビュータ。Ｓｕｎ　Ｍｉｃｒｏｓｙｓｔｅｍｓ、Ｎｅｔｓｃａｐｅ、＠Ｈｏｍｅ、Ｌｏｕｄｃｌｏｕｄ／Ｏｐｓｗａｒｅ、Ｖｅｒｉｓｉｇｎ、ＰｒｏＱｕｅｓｔ、Ｈｏｒｔｏｎｗｏｒｋｓなどの大手企業でソフトウェアエンジニアとして勤務し、大規模分散システムを構築。オレゴン州立大学、カリフォルニア州立大学、ジョンズ・ホプキンス大学でそれぞれコンピュータサイエンスの学士号と修士号、　Ｐｏｌｉｔｉｃａｌ　Ａｄｖｏｃａｃｙとコミュニケーションの修士号を取得

Ｗｅｎｉｇ，Ｂｒｏｏｋｅ (ＷＥＮＩＧ，ＢＲＯＯＫＥ)　　Ｗｅｎｉｇ，Ｂｒｏｏｋｅ: 顧客のために大規模な機械学習パイプラインを開発するデータサイエンティストのチームを率いるほか、分散機械学習のベストプラクティスに関するコースを指導。以前は、Ｄａｔａｂｒｉｃｋｓのプリンシパル・データサイエンス・コンサルタント。ＵＣＬＡで分散機械学習を中心にコンピュータサイエンスの修士号を取得

Ｄａｓ，Ｔａｔｈａｇａｔａ (ＤＡＳ，ＴＡＴＨＡＧＡＴＡ)　　Ｄａｓ，Ｔａｔｈａｇａｔａ: Ｄａｔａｂｒｉｃｋｓ社のスタッフソフトウェアエンジニアであり、Ａｐａｃｈｅ　Ｓｐａｒｋのコミッター、Ａｐａｃｈｅ　Ｓｐａｒｋ　Ｐｒｏｊｅｃｔ　Ｍａｎａｇｅｍｅｎｔ　Ｃｏｍｍｉｔｔｅｅ（ＰＭＣ）のメンバー。Ａｐａｃｈｅ　Ｓｐａｒｋのオリジナル開発者の一人で、Ｓｐａｒｋ　Ｓｔｒｅａｍｉｎｇ（ＤＳｔｒｅａｍｓ）のリード開発者であり、現在はＳｔｒｕｃｔｕｒｅｄ　ＳｔｒｅａｍｉｎｇとＤｅｌｔａ　Ｌａｋｅのコア開発者の一人。カリフォルニア大学バークレー校でコンピューターサイエンスの修士号を取得

Ｌｅｅ，Ｄｅｎｎｙ (ＬＥＥ，ＤＥＮＮＹ)　　Ｌｅｅ，Ｄｅｎｎｙ: ＤａｔａｂｒｉｃｋｓのＳｔａｆｆ　Ｄｅｖｅｌｏｐｅｒ　Ａｄｖｏｃａｔｅで、Ａｐａｃｈｅ　Ｓｐａｒｋを０．６から使用しています。インターネットスケールのインフラ、データプラットフォーム、オンプレミスおよびクラウド環境の予測分析システムの開発で豊富な経験を持つ、実践的な分散システムおよびデータサイエンスのエンジニアです。また、オレゴン健康科学大学で生物医学情報学の修士号を取得し、企業ヘルスケア顧客向けに強力なデータソリューションを設計・実装した経験を持つ（本データはこの書籍が刊行された当時に掲載されていたものです）