• 本

詳解データレイクハウスアーキテクチャ Delta Lakeを使ったデータAI活用とガバナンス

出版社名 オライリー・ジャパン
出版年月 2025年11月
ISBNコード 978-4-8144-0139-0
4-8144-0139-6
税込価格 6,050円
頁数・縦 356P 24cm

商品内容

要旨

データレイクは膨大なデータを柔軟に扱える一方で、スキーマ管理の複雑さや性能の低下、ガバナンスの難しさなど多くの課題を抱えてきました。本書は、これらの問題を解決するデータレイクハウスアーキテクチャの全貌を解き明かします。オープンソースのDelta Lakeを軸に、ACIDトランザクション、タイムトラベル、スキーマ進化、データ品質管理といった重要機能をわかりやすく解説します。さらに、Apache Sparkとの統合、BIやAI/MLへの応用、運用上のベストプラクティスまで、実践的な知識を網羅しています。データエンジニア、アーキテクト、アナリストにとって必携であり、モダンなデータ基盤を設計・構築する上での指針となる1冊です。

目次

1章 Delta Lakeにおけるレイクハウスフォーマット
2章 Delta Lakeを導入する
3章 Delta Lakeの操作
4章 Delta Lakeエコシステムの詳細解説
5章 Delta Lakeのメンテナンス
6章 Delta Lakeを利用したネイティブアプリケーションの構築
7章 Delta Lakeへのストリーミングの入出力
8章 高度な機能
9章 レイクハウスのアーキテクチャ設計
10章 パフォーマンスチューニング:Delta Lakeでのデータパイプライン最適化
11章 成功するデザインパターン
12章 レイクハウスのガバナンスとセキュリティの基礎
13章 メタデータ管理、データフロー、リネージ
14章 Delta Sharingプロトコルでのデータ共有

出版社・メーカーコメント

Delta Lakeで築く、次世代データ基盤の教科書!本書は、データエンジニア、データサイエンティスト、データアナリスト向けに、Delta Lakeを活用して信頼性の高いデータレイクハウスを本番環境で運用するための実践的なガイドです。ベストプラクティス、最適化技術、実際のシナリオが含まれており、大規模なDelta Lakeベースのシステムを導入・維持する際に直面する課題を乗り越える方法を詳しく解説した実践的なガイドブックです。

著者紹介

リー,デニー (リー,デニー)   Lee,Denny
Unity Catalog、Apache Spark、MLflowのコントリビュータで、Delta Lakeのメンテナ、Databricksのプリンシパルデベロッパーアドボケート。インターネット規模のデータプラットフォームや予測分析・AIシステムの開発者としての豊富な経験を持つ、実践的な分散システムおよびデータサイエンスの実践的エンジニアである。現在の技術的な専門分野は、AI、分散システム、Unity Catalog、Delta Lake、Apache Spark、深層学者、機械学習、ゲノミクスなどの技術に注力している
ウェントリング,トリステン (ウェントリング,トリステン)   Wentling,Tristen
Databricksのソリューションアーキテクトで、小売業界の顧客を中心に活動している。元データサイエンティストで、ストリーミングアプリケーションの本番化に関するベストプラクティスやeコマース向けの生成AIアプリケーションの構築などのブログ記事も執筆している。技術的な仕事以外では、読書や海水浴を楽しんでいる。数学の修士号と応用数学の理学士号を持つ
ヘインズ,スコット (ヘインズ,スコット)   Haines,Scott
DatabricksのBeacon(Databricksが認定したコミュニティエキスパートや技術的リーダーを指す呼称)であり、15年以上データ、分散システム、リアルタイムアプリケーションに携わってきた。Yahoo!にてデータに関するキャリアを開始し、Twilio、そして最近ではNikeに在籍した。彼はData Circusというコンサルティング会社を経営している
バブ,プラシャンス (バブ,プラシャンス)   Babu,Prashanth
Databricks認定デベロッパーであり、リファレンスアーキテクチャ、ベストプラクティス、フレームワーク、MVP、プロトタイプを構築することで、顧客のユースケースの設計と実装を支援し、顧客がデータを価値に変えることを成功に導く
長谷川 亮 (ハセガワ リョウ)  
大手銀行、スタートアップ、外資系IT、そして複数の戦略コンサルティングファームにて、10年以上にわたりクラウド、オープンソース、ビッグデータ領域に従事。特にデータチーム構築やMLOpsを専門とする。2021年よりDatabricks Japanにてプロフェッショナルサービスおよびトレーニングサービスの立ち上げをリード。現在は複数のスタートアップでAI Nativeな組織構築、AI/SaaSプロダクト開発に携わりながら、日本国内におけるレイクハウスとData+AIガバナンスの導入を推進中
倉光 怜 (クラミツ サトシ)  
2022年にDatabrickfに入社。自動車・製造業界、通信業界を担当するソリューションアーキテクトのマネージャー。これまで、SIer、AWSで自動車業界を中心にクラウドの導入を技術支援。Databricks Japan入社後もコネクテッドカー・自動運転、工場IoTといったビッグデータのアーキテクチャ支援やデータ・AIの活用を推進
小谷 尚太郎 (コタニ ショウタロウ)  
2022年にDatabricks入社、現在シニアソリューションアーキテクト。Databricksパートナーの技術支援に従事している。前職では外資の監査法人系コンサルティングファームにて、データサイエンティストとして機械学習を用いた会計監査の高度化支援やR&D業務、ソリューション開発に携わっていた。早稲田大学大学院修了
竹下 俊一郎 (タケシタ シュンイチロウ)  
2020年にDatabricksに入社。金融、小売業界を担当するソリューションアーキテクトでチームマネージャー。これまで一貫してビッグデータ・アナリティクス導入支援やデータガバナンス実装・データ活用推進に従事。レイクハウスこそが我が国のデータ+AI文化を変えると本気で思っている人間のつもり(本データはこの書籍が刊行された当時に掲載されていたものです)