GoogleBot’s killing spree

 

GoogleBot najlepszym przyjacielem webmastera? Zwykle tak. Ale nie wtedy, gdy dzięki niemu nagle siada Twoja strona. I cały serwer.

Jeśli ktoś tu przypadkiem zagląda „ot tak” (bo lubi, bo przypadkiem kliknął w zakładkę czy link w historii etc.), dziś przed 20 występowały problemy z wejściem na moją stronę (a także kilka innych, które trzymam na tym samym koncie). Najpierw był problem z połączeniem z bazą danych, potem już wszystko siadło.

Wysłałem maila do supportu i po kilku minutach przyszła odpowiedź:

Incoming traffic to your sites was blocked, likely due to a resource abuse issue. I can not locate any information as to why this was done and therefor I have removed the block.

Moje pytanie o szczegóły i kolejna odpowiedź supportu:

This was actually done due to a large amount of connections to your
account, all loading index.php. The load generated was enough to cause
the server to require a reboot.

O cholera… Jeśli coś potrafi zmusić do restartu serwer z czterema prockami Intel(R) Xeon(TM) 2.80GHz i kilkoma GB RAM-u, to nie są to przelewki.

Zaczynamy namierzanie sprawcy. Informacja od supportu, że problem sprawia plik „index.php” mówi mi niewiele, bo takich plików mam tu kilka (dla różnych domen). Zaczynamy przeglądać access i error logi. Bingo.

Cała masa wpisów typu:

/1441-sjakisplik.html
Http Code: 404 Date: Feb 02 01:48:00 Http Version: HTTP/1.1 Size in Bytes: –
Referer: –
Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

No taaak… Wszystko jasne. Była sobie kiedyś pewna subdomena zawierająca sporo (spoooooro) dość dobrze zindeksowanych podstron. Strona i subdomena została usunięta dość dawno, o czym Google postanowiło sobie dziś upewnić. Wysłali więc swojego GoogleBota, który zaczął sprawdzać wszystkie podstrony jakie miał w swoim indeksie. No i się zaczęło.

Site5 posiada w konfiguracji domyślnie coś na kształt catch-all dla domen (domain-wildcards). Czyli przykładowo wejście na foobar.topa.pl przenosiło automatycznie na topa.pl, podobnie sprawa się ma z pozostałymi domenami. Jest tam obecnie pojedynczy plik PHP, który jedynie zliczał wejścia, ale jeśli przemnożymy to przez ilość podstron, których naraz szukał GoogleBot… Wszystkie jego próby pobrania danego pliku powodowały automatyczne przejście na stronę główną topa.pl i wywołanie tego nieszczęsnego pliku. . Boli…

Nic, drobna zmiana w konfiguracji, zamiana pliku PHP na statyczny HTML, wytłumaczenie sprawy przed adminem… Działa. I mam nadzieję, że będize dalej wszystko poprawnie działać.

Wpis opublikowany 2 lutego 2007
Tagi: , , , , ,
Kategorie: Bez kategorii

Zobacz również:

Komentarze do wpisu "GoogleBot’s killing spree"

  1. A czy przypadkiem w Narzędziach Google dla Webmasterów nie można ustawić częstotliwości odwiedzin bota?

    Autor komentarza, piątek, 2 lut 2007 #

  2. Teoretycznie można… ale…
    – domena już nie istnieje
    – strona już nie istnieje
    – sitemap dla tej strony nigdy nie istniał :)

    Autor komentarza, piątek, 2 lut 2007 #

  3. Ale nabroiłem :D

    Autor komentarza, sobota, 3 lut 2007 #

  4. Google DoS? :-))

    Autor komentarza, sobota, 3 lut 2007 #

  5. W sumie niezły sposób ataku ;) Wyłudzasz gdzieś u znajomego konto, robisz prosty index.php + .htaccess tworząc stronę z nieograniczoną ilością podstron, czekasz aż się ich trochę poindeksuje, i usuwasz stronę ;) ^G zrobi resztę ;)

    Autor komentarza, niedziela, 4 lut 2007 #

Robisz zakupy w internecie?
Pomagaj ZA DARMO przy okazji
4000 organizacji społecznych i ponad 1000 sklepów