ONieruchomosci

Regułki w htaccess'ie

Polecane posty

Mój plik htaccess zawiera takie coś:

Options FollowSymLinks All
Options +FollowSymlinks All
RewriteEngine On

RewriteCond %{HTTP_USER_AGENT} ^Gigabot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Baiduspider [OR]
RewriteCond %{HTTP_USER_AGENT} ^ichiro [OR]
RewriteCond %{HTTP_USER_AGENT} ^Lorkyll [OR]
RewriteCond %{HTTP_USER_AGENT} ^aipbot* [OR]
RewriteCond %{HTTP_USER_AGENT} ^arachnofilia* [OR]
RewriteCond %{HTTP_USER_AGENT} ^aspseek* [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ask\sJeeves* [OR]
RewriteCond %{HTTP_USER_AGENT} ^attach [OR]
RewriteCond %{HTTP_USER_AGENT} ^Avant\sBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^BackWeb [OR]
RewriteCond %{HTTP_USER_AGENT} ^Bandit [OR]
RewriteCond %{HTTP_USER_AGENT} ^BatchFTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Buddy [OR]
RewriteCond %{HTTP_USER_AGENT} ^ChinaClaw [OR]
RewriteCond %{HTTP_USER_AGENT} ^Collector [OR]
RewriteCond %{HTTP_USER_AGENT} ^Copier [OR]
RewriteCond %{HTTP_USER_AGENT} ^Crescent [OR]
RewriteCond %{HTTP_USER_AGENT} ^CherryPicker [OR]
RewriteCond %{HTTP_USER_AGENT} ^DA [OR]
RewriteCond %{HTTP_USER_AGENT} ^DISCoPump [OR]
RewriteCond %{HTTP_USER_AGENT} ^DownloadDemon [OR]
RewriteCond %{HTTP_USER_AGENT} ^DownloadWonder [OR]
RewriteCond %{HTTP_USER_AGENT} ^Downloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Drip [OR]
RewriteCond %{HTTP_USER_AGENT} ^DIIbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^eCatch [OR]
RewriteCond %{HTTP_USER_AGENT} ^EirGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExpressWebPictures [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EyeNetIE [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailSiphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailWolf [OR]
RewriteCond %{HTTP_USER_AGENT} ^ExtractorPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^EmailCollector [OR]
RewriteCond %{HTTP_USER_AGENT} ^FileHound [OR]
RewriteCond %{HTTP_USER_AGENT} ^FlashGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetRight [OR]
RewriteCond %{HTTP_USER_AGENT} ^GetSmart [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go!Zilla [OR]
RewriteCond %{HTTP_USER_AGENT} ^Go-Ahead-Got-It [OR]
RewriteCond %{HTTP_USER_AGENT} ^gotit [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^GrabNet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Grafula [OR]
RewriteCond %{HTTP_USER_AGENT} ^HMView [OR]
RewriteCond %{HTTP_USER_AGENT} ^HTTrack [OR]
RewriteCond %{HTTP_USER_AGENT} ^InterGET [OR]
RewriteCond %{HTTP_USER_AGENT} ^InternetNinja [OR]
RewriteCond %{HTTP_USER_AGENT} ^Iria [OR]
RewriteCond %{HTTP_USER_AGENT} ^ia_archiver [OR]
RewriteCond %{HTTP_USER_AGENT} ^InternetSeer.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^JetCar [OR]
RewriteCond %{HTTP_USER_AGENT} ^JOC [OR]
RewriteCond %{HTTP_USER_AGENT} ^JustView [OR]
RewriteCond %{HTTP_USER_AGENT} ^lftp [OR]
RewriteCond %{HTTP_USER_AGENT} ^likse [OR]
RewriteCond %{HTTP_USER_AGENT} ^Link [OR]
RewriteCond %{HTTP_USER_AGENT} ^LinkWalker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Magnet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mag-Net [OR]
RewriteCond %{HTTP_USER_AGENT} ^MassDownloader [OR]
RewriteCond %{HTTP_USER_AGENT} ^Memo [OR]
RewriteCond %{HTTP_USER_AGENT} ^MIDowntool [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mirror [OR]
RewriteCond %{HTTP_USER_AGENT} ^MisterPiX [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*NEWT [OR]
RewriteCond %{HTTP_USER_AGENT} ^Mozilla.*Indy [OR]
RewriteCond %{HTTP_USER_AGENT} ^MSFrontPage [OR]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft.URL [OR]
RewriteCond %{HTTP_USER_AGENT} ^Microsoft.URL [OR]
RewriteCond %{HTTP_USER_AGENT} ^Navroad [OR]
RewriteCond %{HTTP_USER_AGENT} ^NearSite [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetAnts [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetSpider [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetVampire [OR]
RewriteCond %{HTTP_USER_AGENT} ^NetZip [OR]
RewriteCond %{HTTP_USER_AGENT} ^NICErsPRO [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ninja [OR]
RewriteCond %{HTTP_USER_AGENT} ^Octopus [OR]
RewriteCond %{HTTP_USER_AGENT} ^OfflineExplorer [OR]
RewriteCond %{HTTP_USER_AGENT} ^PageGrabber [OR]
RewriteCond %{HTTP_USER_AGENT} ^PapaFoto [OR]
RewriteCond %{HTTP_USER_AGENT} ^pcBrowser [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pockey [OR]
RewriteCond %{HTTP_USER_AGENT} ^Pump [OR]
RewriteCond %{HTTP_USER_AGENT} ^Ping [OR]
RewriteCond %{HTTP_USER_AGENT} ^psbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^RealDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^Reaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Recorder [OR]
RewriteCond %{HTTP_USER_AGENT} ^ReGet [OR]
RewriteCond %{HTTP_USER_AGENT} ^Siphon [OR]
RewriteCond %{HTTP_USER_AGENT} ^SiteSnagger [OR]
RewriteCond %{HTTP_USER_AGENT} ^sitecheck.internetseer.com [OR]
RewriteCond %{HTTP_USER_AGENT} ^SmartDownload [OR]
RewriteCond %{HTTP_USER_AGENT} ^Snake [OR]
RewriteCond %{HTTP_USER_AGENT} ^SpaceBison [OR]
RewriteCond %{HTTP_USER_AGENT} ^Stripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^Sucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^SuperHTTP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Surfbot [OR]
RewriteCond %{HTTP_USER_AGENT} ^tAkeOut [OR]
RewriteCond %{HTTP_USER_AGENT} ^Teleport\sPro [OR]
RewriteCond %{HTTP_USER_AGENT} ^Vacuum [OR]
RewriteCond %{HTTP_USER_AGENT} ^VoidEYE [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebImageCollector [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSucker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebAuto [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebCopier [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebFetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebReaper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebSauger [OR]
RewriteCond %{HTTP_USER_AGENT} ^Website [OR]
RewriteCond %{HTTP_USER_AGENT} ^Webster [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebStripper [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebWhacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebZIP [OR]
RewriteCond %{HTTP_USER_AGENT} ^Wget [OR]
RewriteCond %{HTTP_USER_AGENT} ^Whacker [OR]
RewriteCond %{HTTP_USER_AGENT} ^Widow [OR]
RewriteCond %{HTTP_USER_AGENT} ^WebEMailExtrac.* [OR]
RewriteCond %{HTTP_USER_AGENT} ^[Ww]eb[Bb]andit [OR]
RewriteCond %{HTTP_USER_AGENT} ^VMBot [OR]
RewriteCond %{HTTP_USER_AGENT} ^e-SocietyRobot [OR]
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^Nusearch Spider [OR]
RewriteCond %{HTTP_USER_AGENT} ^EasyDL [OR]
RewriteCond %{HTTP_USER_AGENT} ^findlinks [OR]
RewriteCond %{HTTP_USER_AGENT} ^MJ12bot [OR]
RewriteCond %{HTTP_USER_AGENT} ^ealuloq [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xenu [OR]
RewriteCond %{HTTP_USER_AGENT} ^boitho.com-dc [OR]
RewriteCond %{HTTP_USER_AGENT} ^NutchCVS [OR]
RewriteCond %{HTTP_USER_AGENT} ^pehape [OR]
RewriteCond %{HTTP_USER_AGENT} ^Vespa\sCrawler [OR]
RewriteCond %{HTTP_USER_AGENT} ^cfetch [OR]
RewriteCond %{HTTP_USER_AGENT} ^Xaldon
RewriteRule .* - [F]

Ogólnie przeglądając logi mam w miarę spokój z dziwnymi botami.

Zastanawia mnie jednak taka duża lista w pliku htaccess. Na wirtualce stoi kilkanaście domen i w każdej z nich jest taki pliczek.

Czy to może znacząco obciążać apache?

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Nie - ot taki standardzik :)

//edit

w sumie lepiej żeby serwer przetworzył taką listę, niż zapytania tych wszystkich robotów już na stronie

Edytowano przez jubi

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Podobnie rozmyślałem,

dawniej często boty szalejąc po moich stronach zaorywały łączenie z bazą,

o transfer się nie martwię ponieważ firmy hostingowe od jakiegoś czasu oferują spore limity.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Czy to może znacząco obciążać apache?
Każde żądanie HTTP powoduje przetworzenie pliku .htaccess, więc jeśli plik .htaccess jest stosunkowo "duży", a wywołań jest wiele będzie to powodowało dodatkowe obciążenie serwera. Dlatego lepszym rozwiązaniem jest umieszczenie [o ile jest taka możliwość] pewnych reguł w pliku konfiguracyjnym serwera wczytanym tylko raz przy pierwszym starcie serwera HTTP...

:D


redbanner.png

 

HTTP 200 usługi IT - Dariusz Janicki | Realizacja serwisów ww oraz oprogramowania.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

To są dane z 2004r.

Można gdzieś znaleźć uaktualnienie? Pewnie dużo tych robotów już zmieniło nazwe.


.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Całkiem możliwe, że część botów z listy nie istnieje lub funkcjonuje pod nową nazwą.

Tydzień przed publikacją list na tym forum aktualizowałem spis pod kątem nowych botów, czyli te które przeszły tą zaporę. Pojawiło się około 15 nowych biegaczy.

Mając wirtualne konto, przykładowo na home.pl chyba nie da rady wprowadzić tych regułek dla serwera aby raz były wczytywane?

Jedyna sprawa to kompromis, czyli aktualizowanie listy botów i pozostawienie tylko tych najuciążliwszych (zauważyłem, że niektóre z nich wpadł raz, góra dwa i więcej się nie pojawiły, analizowałem okres 8 miesięcy).

Edytowano przez ONieruchomosci

Udostępnij ten post


Link to postu
Udostępnij na innych stronach
Mając wirtualne konto, przykładowo na home.pl chyba nie da rady wprowadzić tych regułek dla serwera aby raz były wczytywane?
Zgadza się, nie da rady. Musisz mieć uprawnienia ROT-a...

redbanner.png

 

HTTP 200 usługi IT - Dariusz Janicki | Realizacja serwisów ww oraz oprogramowania.

Udostępnij ten post


Link to postu
Udostępnij na innych stronach

Bądź aktywny! Zaloguj się lub utwórz konto

Tylko zarejestrowani użytkownicy mogą komentować zawartość tej strony


  • Kto przegląda   0 użytkowników

    Brak zalogowanych użytkowników przeglądających tę stronę.