• 本

クローリングハック あらゆるWebサイトをクロールするための実践テクニック

出版社名 翔泳社
出版年月 2017年9月
ISBNコード 978-4-7981-5051-2
4-7981-5051-7
税込価格 2,948円
頁数・縦 321P 21cm

商品内容

要旨

あらゆるWebサイトをクロールするための実践テクニック。

目次

1 クローラーを支える技術
2 HTTPをより深く理解する
3 文字化けと戦う
4 スクレイピングの極意
5 認証を突破せよ!
6 クローリングの応用テクニック
7 JavaScriptと戯れる

おすすめコメント

Webアプリケーション、Webサービスを開発/運用するエンジニアは、HTML/HTTPやWebサーバなどWeb技術の仕組みや基礎的な知識をおさえておかなければなりません。 本書では、実サービスでの大規模なWebクローラーの開発/運用経験をもとに、Webクローラーを支える、HTTP、文字コード、HTML、認証、Ajax/JSONなど、Webエンジニアがおさえておくべきポイントやテクニックを学びます。 クローラーから見たWebサイトの仕組みとその実情に加えて、現実に即した実践的かつ効率的なクローリングの方法論についても解説します。 ○実例をもとにHTTPやHTMLなどWebの仕組みを深く知ることができる ○大規模なWebクローラーの開発/運用ノウハウを知ることができる ○Webサイトの運営者(クロールされる側)もクローラーに関する知見を得ることができる

著者紹介

竹添 直樹 (タケゾエ ナオキ)  
株式会社ビズリーチ所属。プログラマ。業務の傍らOSS活動や書籍などの執筆を行っており、GitBucket、Apache PredictionIQ、Scalatraなどのコミッタを務める一方、『Scalaパズル』を翻訳、『Java逆引きレシピ』『Scala逆引きレシピ』『Seasar2徹底入門SAStruts/S2JDBC対応』などを執筆(いずれも翔泳社刊)
島本 多可子 (シマモト タカコ)  
株式会社ビズリーチに勤務中。技術者でいたいと思い現職へ。ここ数年は「Scala」「オープンソース」をキーワードに、Webアプリケーションの開発に携わってきたが、最近はもっぱらApache Spark StreamingとAWS‐Kinesisのお世話に追われている。オープンソースのGitHubクローン「GitBucket」の開発も行う
田所 駿佑 (タドコロ シュンスケ)  
株式会社ビズリーチ所属のScalaエンジニア
萩野 貴拓 (ハギノ タカヒロ)  
株式会社ビズリーチAI室所属。求人検索エンジニア「スタンバイ」のクローラー運用や検索品質の最適化、データマイニングなどを担当した後、現在は機械学習のシステム基盤構築に従事
川上 桃子 (カワカミ モモコ)  
株式会社ビズリーチスタンバイ事業部で業務委託として勤務中。求人検索エンジン「スタンバイ」のクローリング定義のメンテナンスを行っている(本データはこの書籍が刊行された当時に掲載されていたものです)