bloquer_les_robots_crawlers_non_souhaites

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
bloquer_les_robots_crawlers_non_souhaites [2023/12/15 18:08] – [Pourquoi ?] Flazbloquer_les_robots_crawlers_non_souhaites [2024/01/09 10:12] (Version actuelle) – [Usurpateurs] Flaz
Ligne 3: Ligne 3:
 ===== Pourquoi ? ===== ===== Pourquoi ? =====
  
-Les robots d'exploration (crawlers) peuvent devenir les  principaux consommateurs de ressources((Processeur, bande passante…)) d'un serveur. Le but poursuivi dans cette fiche est de bloquer les robots non souhaités (indésirables) tout en laissant les autres parcourir et indexer les sites visés.+Les robots d'exploration (crawlers) peuvent devenir les  principaux consommateurs de ressources((Processeur, bande passante…)) d'un serveur hébergeant des sites web. Le but poursuivi dans cette fiche est de bloquer les robots non souhaités (indésirables) tout en laissant les autres parcourir et indexer les sites visés.
  
 Dans le cas traité, on souhaite bloquer deux types d'//indésirables// : Dans le cas traité, on souhaite bloquer deux types d'//indésirables// :
   * les //parasites// qui opèrent à visage découvert,   * les //parasites// qui opèrent à visage découvert,
-  * les //usurpateurs// qui se font passer pour un robots souhaitable((Au sens où la plupart des responsables web souhaitent leur visite : Google, Bing, Yahoo!… )).+  * les //usurpateurs// qui se font passer pour un robot «souhaitable»((Au sens où la plupart des responsables web souhaitent leur visite : Google, Bing, Yahoo!… )).
  
 ===== Identification ===== ===== Identification =====
Ligne 126: Ligne 126:
 </code> </code>
 //La sous-expression contenant "HTTP:X-FORWARDED-FOR" n'éclaire pas notre propos. Elle est néanmoins nécessaire pour traiter correctement le cas où la requête transite par un Réseau de Diffusion de Contenu (RDC ou CDN).// //La sous-expression contenant "HTTP:X-FORWARDED-FOR" n'éclaire pas notre propos. Elle est néanmoins nécessaire pour traiter correctement le cas où la requête transite par un Réseau de Diffusion de Contenu (RDC ou CDN).//
 +
 +== Extension ==
 +
 +Cette technique est facilement applicable à d'autres //crawlers// dont on souhaite tester l'identité. Par exemple, Apple fournit les [[https://support.apple.com/fr-fr/HT204683|indications permettant d'authentifier l'Applebot]]. On en tire la règle suivante :
 +<code>
 +<If "%{HTTP_USER_AGENT} =~ /Applebot/ && ! -n %{HTTP:X-FORWARDED-FOR}">
 +  Require host .applebot.apple.com
 +</If>
 +</code>
  
bloquer_les_robots_crawlers_non_souhaites.1702660114.txt.gz · Dernière modification : 2023/12/15 18:08 de Flaz