Différences

Ci-dessous, les différences entre deux révisions de la page.

--- bloquer_les_robots_crawlers_non_souhaites [2023/12/15 18:08] – [Pourquoi ?] Flaz
+++ bloquer_les_robots_crawlers_non_souhaites [2024/12/09 08:29] (Version actuelle) – [Parasites] Flaz
@@ Ligne 3: / Ligne 3: @@
 ===== Pourquoi ? =====
-Les robots d'exploration (crawlers) peuvent devenir les  principaux consommateurs de ressources((Processeur, bande passante…)) d'un serveur. Le but poursuivi dans cette fiche est de bloquer les robots non souhaités (indésirables) tout en laissant les autres parcourir et indexer les sites visés.
+Les robots d'exploration (crawlers) peuvent devenir les  principaux consommateurs de ressources((Processeur, bande passante…)) d'un serveur hébergeant des sites web. Le but poursuivi dans cette fiche est de bloquer les robots non souhaités (indésirables) tout en laissant les autres parcourir et indexer les sites visés.
 Dans le cas traité, on souhaite bloquer deux types d'//indésirables// :
   * les //parasites// qui opèrent à visage découvert,
-  * les //usurpateurs// qui se font passer pour un robots souhaitable((Au sens où la plupart des responsables web souhaitent leur visite : Google, Bing, Yahoo!… )).
+  * les //usurpateurs// qui se font passer pour un robot «souhaitable»((Au sens où la plupart des responsables web souhaitent leur visite : Google, Bing, Yahoo!… )).
 ===== Identification =====
@@ Ligne 44: / Ligne 44: @@
   - La détection s'appuie sur les journaux d'Apache et ne peut donc intervenir qu'après coup, c'est-à-dire à partir d'un événement renseigné dans un journal.
   - Le blocage s'applique à toute requête émise depuis l'IP d'origine, pas uniquement les requêtes web traitées par Apache (effet de bord)
-  - Le blocage être persistant, de quelques secondes à toujours.
+  - La persistance du blocage est paramètrable de quelques secondes à toujours.
 En pratique :
@@ Ligne 126: / Ligne 126: @@
 </code>
 //La sous-expression contenant "HTTP:X-FORWARDED-FOR" n'éclaire pas notre propos. Elle est néanmoins nécessaire pour traiter correctement le cas où la requête transite par un Réseau de Diffusion de Contenu (RDC ou CDN).//
+== Extension ==
+Cette technique est facilement applicable à d'autres //crawlers// dont on souhaite tester l'identité. Par exemple, Apple fournit les [[https://support.apple.com/fr-fr/HT204683|indications permettant d'authentifier l'Applebot]]. On en tire la règle suivante :
+<code>
+<If "%{HTTP_USER_AGENT} =~ /Applebot/ && ! -n %{HTTP:X-FORWARDED-FOR}">
+  Require host .applebot.apple.com
+</If>
+</code>