• 本

Pythonスクレイピングの基本と実践 データサイエンティストのためのWebデータ収集術

impress top gear

出版社名 インプレス
出版年月 2018年12月
ISBNコード 978-4-295-00528-5
4-295-00528-2
税込価格 3,630円
頁数・縦 300P 24cm

商品内容

要旨

基本からベストプラクティス、実例までデータサイエンスの教授が解説!HTTP/HTML/CSSといった基本技術の仕組み、フォーム/ログイン/Cookie/JavaScriptへの対応、クローラーの開発、データサイエンス指向の事例まで収録。

目次

第1部 Webスクレイピングの基礎(イントロダクション―スクレイピングの考え方、Pythonの準備
HTTPでWebと対話してみよう―HTTPとrequestsライブラリの基本事項
Webのスープをかき回そう―HTML+CSSページからの情報収集の基本)
第2部 高度なWebスクレイピング(POSTメソッドやクッキーなどへの対処法
JavaScriptへの対処法
スクレイピングからクローリングへ―Webクローラー開発のポイント)
第3部 Webスクレイピングの実践入門(管理と法律に関する問題
有用なツールとベストプラクティス
データサイエンス指向の実践サンプル―ファッションデータ/ニュース記事/商品レビューなどの収集と分析)

著者紹介

ブルーク,セッペ・バンデン (ブルーク,セッペバンデン)   Broucke,Seppe vanden
ベルギーのルーヴァンカトリック大学経済経営学部でデータサイエンスとプロセスサイエンスを専門とする助教授。ビジネスデータマイニング、ビジネスアナリティクス、機械学習、プロセス管理、プロセスマイニングを研究の対象としており、その成果を国際的な学術誌やトップカンファレンスで発表している。また、高度なアナリティクス、ビッグデータ、情報管理コースの授業に加え、業界や企業を対象とした講義も熱心に行っている
バエセン,バート (バエセン,バート)   Baesens,Bart
ベルギーのルーヴァンカトリック大学でビッグデータとアナリティクスの教授を務めるほか、イギリスのサウサンプトン大学でも講師として教壇に立っている。ビッグデータとアナリティクス、信用リスクモデリング、不正検出、マーケティングアナリティクスなど幅広い分野の研究を手がけており、200以上の科学論文や数冊の著書を執筆(本データはこの書籍が刊行された当時に掲載されていたものです)