• 本

PythonによるWebスクレイピング

第3版

出版社名 オライリー・ジャパン
出版年月 2025年6月
ISBNコード 978-4-8144-0122-2
4-8144-0122-1
税込価格 3,960円
頁数・縦 333P 24cm
シリーズ名 PythonによるWebスクレイピング

商品内容

要旨

Webスクレイピングとは、インターネットからデータを機械的に集め、必要な情報を抽出する技術のことです。2019年の第2版発刊から約5年が経過し、生成AIの台頭で情報を得る方法も大きく変わりましたが、本当に欲しい情報を正しくピンポイントで得るためには、依然としてWebスクレイピングについての知識とスキルが必要です。本書では、インターネット上の膨大な情報の中から、生成AIや検索エンジンだけでは集められない本当に必要な正しい情報を入手する方法を、基礎からていねいに解説し、データの抽出、格納、収集後のクリーニング、さらにはJavaScriptの実行、OCRを含めた自然言語処理、並列処理などの高度なトピックもカバー。プログラミングテクニックとテクノロジー全般だけでなく、法律面の解説も加え、問題に遭遇した際の対処法まで紹介します。

目次

1部 スクレイパーの作成(インターネットの仕組み
Webスクレイピングの適法性と倫理
Webスクレイピングアプリケーション
スクレイパーの開発
高度なHTMLのパース ほか)
2部 高度なスクレイピング(データの読み込み
汚いデータの取り扱い
自然言語の読み込みと書き込み
フォームとログインを介したクローリング
JavaScriptのスクレイピング ほか)

出版社・メーカーコメント

Webスクレイピングについての深い知識と広いテクニックで本当に欲しい情報を確実に取得する!2019年の第2版発刊から約5年が経過し、生成AIの台頭で情報を得る方法も大きく変わりましたが、本当に欲しい情報を正しくピンポイントで得るためには、依然としてWebスクレイピングについての知識とスキルが必要です。本書では、インターネット上の膨大な情報の中から、生成AIや検索エンジンだけでは入手できない本当に必要な情報を入手する方法を、基礎からていねいに解説し、データの抽出、データの格納、データ収集後のクリーニング、さらには、JavaScript実行、OCRを含めた自然言語処理、並列処理などの高度なトピックに加えて法律面の解説など、プログラミングテクニックとテクノロジー全般だけでなく、問題に遭遇した際の対処法まで紹介します。

著者紹介

ミッチェル,ライアン (ミッチェル,ライアン)   Mitchell,Ryan
2013年からWebスクレイピングおよびデータサイエンスに関する書籍を執筆。また、『Web Scraping with Python』、『Python Essential Training』をはじめ、6つのLinkedIn学習コースを担当する。Webスクレイピング、アプリケーションセキュリティ、データサイエンスのエキスパートとして、ワークショップの主催するほか、Data DayやDEF CONといった多くのイベントで講演を行う。オーリン工科大学卒業、ハーバド大学Extension Schoo!のソフトウェア工学修士およびデータサイエンス修了。現在はGerson Lehrman Groupの主席ソフトウェアエンジニアとして、同社の検索チームでPythonによる機械学習およびデータサイエンスを担当する。定期的にWebスクレイピングプロジェクトのコンサルティングを小売、金融、製薬業界向けに行う。ノースイースタン大学やオーリン工科大学でカリキュラムコンサルタントや非常勤講師も務める
嶋田 健志 (シマダ タケシ)  
主にWebシステムの開発に携わるフリーランスのエンジニア
新井 翔太 (アライ ショウタ)  
保険業界向けSaaSを手がける株式会社hokan所属のWebエンジニア(本データはこの書籍が刊行された当時に掲載されていたものです)