Gungho::Component::RobotRules.ja - robots.txtの処理を行う
# 組み込み components: - RobotRules # RobotRules設定 robot_rules: storage: module: DB_File config: filename: /path/to/storage.db
Gungho::Component::RobotRulesはクローラーを書く以上必ず実装しなければならない robots.txtの処理を行うコンポーネントです。このコンポーネントを使用することに より、全てのリクエストに対しrobots.txtを適切に適応し、許可無くページを クロールすることを避けられます。
Gungho::Component::RobotRulesが組み込まれると、Gunghoに取得要求のあった全ての HTTPリクエストに対し、まずRobotRulesストレージから現在処理中のURLに対応する Ruleオブジェクトを取得します。存在しない場合は新規に取得を開始し、その リクエストは待機リストに送られます(Providerには戻されません)。その後robots.txt を取得した後ルールを作成した時点で(もちろんrobots.txtが存在しない場合は 空ルールが作られます)その待機リストから該当のリクエストが再度robots.txtに 記されていたルールにのっとって取得可能かチェックされます。
RobotRulesコンポーネントを初期化します。
robots.txtをパースするパーサーオブジェクトを初期化します
ルールを格納するストレージを初期化します。 ストレージはrobot_rules.storage.moduleにモジュール名を指定する事で 好きなストレージを指定する事ができます。
Gunghoのhandle_responseをオーバーライドし、それがRobotRules.pmから出された リクエストだった場合は適切な処理を行います。
Gunghoのsend_requestをオーバーライドし、そのリクエストが取得可能かどうか 確認します。
リクエストが取得可能かどうか確認します。 戻り値が1の場合は取得可能、0の場合は取得負荷です。 戻り値が-1だった場合はrobots.txtが存在しないため、取得を行います。 戻り値が-2だった場合は既にrobots.txtは取得中です。
robots.txtの取得待ちのリクエストをProviderにpushback_request()経由で で渡します。
robots.txt取得待ちリクエストのリストにリクエストを追加します。
robots.txtをパースし、結果をストレージに格納します。
WWW::RobotRules::Parser Gungho::Component::RobotRules::Storage::DB_File Gungho::Component::RobotRules::Storage::Cache
To install Gungho, copy and paste the appropriate command in to your terminal.
cpanm
cpanm Gungho
CPAN shell
perl -MCPAN -e shell install Gungho
For more information on module installation, please visit the detailed CPAN module installation guide.