Het blokkeren van verkeer van gpotato.net en andere irritante crawlers

Blog

Het blokkeren van verkeer van gpotato.net en andere irritante crawlers

Je hebt hard gewerkt om je nieuwe (e-commerce) site de lucht in te krijgen en je zit natuurlijk elke dag in Google Analytics te kijken hoe het staat met het verkeer. Dan zie je ineens een trend ontstaan, de statistieken schieten omhoog, this site is booming! Bring the champaign. Of toch niet? Iets voelt niet goed. Net live en nu al een succes, en dat zonder linkbuilding? Klopt dat wel. Toch iets verder kijken… gpotato.net? Wat is dat nou weer? moet je hebben gedacht, bekend verhaal? Hier lees je hoe vaak ik dit al ben tegen gekomen en dat ik er onlangs toch weer ingetrapt bent en hoe je er vanaf kan komen.

Gpotato – wat is het?
Het lijkt erop dat Gpotato.net onderdeel is van Gpotato.com, een online multiplayer gameportal, maar ik kan me niet voorstellen dat een gameportal allerlei e-commerce gerelateerde websites aan het crawlen en spideren is. Ondanks dat de domeinnamen Gpotato.com en Gpotato.net beiden in oktober 2005 zijn geregistreerd kan ik me op basis van de verschillende DNS gegevens en activiteiten niet voorstellen dat deze bij elkaar horen. Of ze nou wel of niet bij elkaar horen, dit soort verkeer wil je niet hebben dus weg ermee. Wat gpotato.net is? Een crawler, dat is zeker, en sommige zeggen dat Ebay erachter zit, concurrentie analyse zeg maar…

Waarom zou ik Gpotato.net blokkeren?
Er zijn verschillende redenen om het verkeer te blokkeren. Niet alleen geeft het verkeer een non-representatieve indruk van je webstatistieken, het kost ook (onnodig) veel resources. Dit kan de user experience van andere gebruikers beïnvloeden. Zeker wanneer je de webserver hebt geconfigureerd om goed te cachen kan het gebeuren dat er onnodig veel wordt gecached van pagina’s die eigenlijk niet of nauwelijks worden bezocht. Voornaamste reden voor mij is toch wel het resource verhaal. De statistieken zijn ook op te lossen door een filter toe te voegen aan bijvoorbeeld Google analytics op de IP-range van gpotato.net (ik wordt bezocht door 38.99.82.191 maar blokkeren van de hele range zeker in de analytics is geen slecht idee : 38.99.82.*).

Zijn er nog meer irritante webcrawlers?

Uiteraard. Veel gehoorde klachten zijn er over Kambasoft en Semalt. Deze zou je op eenzelfde wijze kunnen blokkeren als hieronder wordt beschreven.

Hoe blokkeer ik gpotato.net?

Om het verkeer van gpotato.net te blokkeren dien je het .htaccess bestand aan te passen. Deze vind je in elke directory, maar begin met de .htaccess file je root folder. Voeg daar de volgende regels aan toe om gpotato.net te blokkeren:

#Block traffic van Gpotato.net
RewriteCond %{HTTP_REFERER} gpotato\.net [NC] 
RewriteRule .* - [F]  
#Block Kambasoft 
RewriteEngine on RewriteCond %{HTTP_REFERER} kambasoft\.com$ [NC] 
RewriteRule .* - [F]  
#Block Semalt 
RewriteEngine on RewriteCond %{HTTP_REFERER} semalt\.com$ [NC] 
RewriteRule .* - [F]

Omdat dit soms niet genoeg is blokkeer ik ook vaak op IP-adres niveau de toegang door het volgende aan .htaccess toe te voegen (dit is alleen de IP-rang van Gpotato.net, niet die van Semalt en Kambasoft):

## Block traffic van bepaalde IP ranges ## 
Order Allow,Deny 
# Gpotato / Ebay(?) 
deny from 38.99.82. 
Allow from all

Mocht dit nog steeds onvoldoende zijn dan kan je de hele IP-range ook opvoeren in je firewall rules om te blokkeren. Maar vooralsnog ga ik ervan uit dat dit voldoende moet zijn.

Succes!


  • augustus 5, 2014
  • Geschreven door mark

Meer rendement uit uw website of webshop?