| Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente |
| bloquer_les_robots_crawlers_non_souhaites [2023/12/15 18:08] – [Pourquoi ?] Flaz | bloquer_les_robots_crawlers_non_souhaites [2024/12/09 08:29] (Version actuelle) – [Parasites] Flaz |
|---|
| ===== Pourquoi ? ===== | ===== Pourquoi ? ===== |
| |
| Les robots d'exploration (crawlers) peuvent devenir les principaux consommateurs de ressources((Processeur, bande passante…)) d'un serveur. Le but poursuivi dans cette fiche est de bloquer les robots non souhaités (indésirables) tout en laissant les autres parcourir et indexer les sites visés. | Les robots d'exploration (crawlers) peuvent devenir les principaux consommateurs de ressources((Processeur, bande passante…)) d'un serveur hébergeant des sites web. Le but poursuivi dans cette fiche est de bloquer les robots non souhaités (indésirables) tout en laissant les autres parcourir et indexer les sites visés. |
| |
| Dans le cas traité, on souhaite bloquer deux types d'//indésirables// : | Dans le cas traité, on souhaite bloquer deux types d'//indésirables// : |
| * les //parasites// qui opèrent à visage découvert, | * les //parasites// qui opèrent à visage découvert, |
| * les //usurpateurs// qui se font passer pour un robots souhaitable((Au sens où la plupart des responsables web souhaitent leur visite : Google, Bing, Yahoo!… )). | * les //usurpateurs// qui se font passer pour un robot «souhaitable»((Au sens où la plupart des responsables web souhaitent leur visite : Google, Bing, Yahoo!… )). |
| |
| ===== Identification ===== | ===== Identification ===== |
| - La détection s'appuie sur les journaux d'Apache et ne peut donc intervenir qu'après coup, c'est-à-dire à partir d'un événement renseigné dans un journal. | - La détection s'appuie sur les journaux d'Apache et ne peut donc intervenir qu'après coup, c'est-à-dire à partir d'un événement renseigné dans un journal. |
| - Le blocage s'applique à toute requête émise depuis l'IP d'origine, pas uniquement les requêtes web traitées par Apache (effet de bord) | - Le blocage s'applique à toute requête émise depuis l'IP d'origine, pas uniquement les requêtes web traitées par Apache (effet de bord) |
| - Le blocage être persistant, de quelques secondes à toujours. | - La persistance du blocage est paramètrable de quelques secondes à toujours. |
| |
| En pratique : | En pratique : |
| </code> | </code> |
| //La sous-expression contenant "HTTP:X-FORWARDED-FOR" n'éclaire pas notre propos. Elle est néanmoins nécessaire pour traiter correctement le cas où la requête transite par un Réseau de Diffusion de Contenu (RDC ou CDN).// | //La sous-expression contenant "HTTP:X-FORWARDED-FOR" n'éclaire pas notre propos. Elle est néanmoins nécessaire pour traiter correctement le cas où la requête transite par un Réseau de Diffusion de Contenu (RDC ou CDN).// |
| | |
| | == Extension == |
| | |
| | Cette technique est facilement applicable à d'autres //crawlers// dont on souhaite tester l'identité. Par exemple, Apple fournit les [[https://support.apple.com/fr-fr/HT204683|indications permettant d'authentifier l'Applebot]]. On en tire la règle suivante : |
| | <code> |
| | <If "%{HTTP_USER_AGENT} =~ /Applebot/ && ! -n %{HTTP:X-FORWARDED-FOR}"> |
| | Require host .applebot.apple.com |
| | </If> |
| | </code> |
| |