Outils pour utilisateurs

Outils du site


bloquer_les_robots_crawlers_non_souhaites

Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
bloquer_les_robots_crawlers_non_souhaites [2023/12/15 18:09] – [Pourquoi ?] Flazbloquer_les_robots_crawlers_non_souhaites [2024/01/09 10:12] (Version actuelle) – [Usurpateurs] Flaz
Ligne 7: Ligne 7:
 Dans le cas traité, on souhaite bloquer deux types d'//indésirables// : Dans le cas traité, on souhaite bloquer deux types d'//indésirables// :
   * les //parasites// qui opèrent à visage découvert,   * les //parasites// qui opèrent à visage découvert,
-  * les //usurpateurs// qui se font passer pour un robots souhaitable((Au sens où la plupart des responsables web souhaitent leur visite : Google, Bing, Yahoo!… )).+  * les //usurpateurs// qui se font passer pour un robot «souhaitable»((Au sens où la plupart des responsables web souhaitent leur visite : Google, Bing, Yahoo!… )).
  
 ===== Identification ===== ===== Identification =====
Ligne 126: Ligne 126:
 </code> </code>
 //La sous-expression contenant "HTTP:X-FORWARDED-FOR" n'éclaire pas notre propos. Elle est néanmoins nécessaire pour traiter correctement le cas où la requête transite par un Réseau de Diffusion de Contenu (RDC ou CDN).// //La sous-expression contenant "HTTP:X-FORWARDED-FOR" n'éclaire pas notre propos. Elle est néanmoins nécessaire pour traiter correctement le cas où la requête transite par un Réseau de Diffusion de Contenu (RDC ou CDN).//
 +
 +== Extension ==
 +
 +Cette technique est facilement applicable à d'autres //crawlers// dont on souhaite tester l'identité. Par exemple, Apple fournit les [[https://support.apple.com/fr-fr/HT204683|indications permettant d'authentifier l'Applebot]]. On en tire la règle suivante :
 +<code>
 +<If "%{HTTP_USER_AGENT} =~ /Applebot/ && ! -n %{HTTP:X-FORWARDED-FOR}">
 +  Require host .applebot.apple.com
 +</If>
 +</code>
  
bloquer_les_robots_crawlers_non_souhaites.1702660148.txt.gz · Dernière modification : 2023/12/15 18:09 de Flaz