Jump to content

Lista robotów sieciowych z odnośnikami do wątków


Recommended Posts

Czy jest ktoś z Was zainteresowany stworzeniem i updatowaniem listy robotów które indexują nasze serwisy ale także tych które zżerają nam transfer, łykają adresy e-mail, są wysłane jako reklama bądź do innych celów skanują nasze strony?

[edit] w zwiazku z tym że w dalszej części wątku pojawiają się sugestie aby blokować zostawię mały skrypcik PHP jak to robić. czasem brak User-Agenta więc dodajemy do całej zabawy IP.


$ua = $_SERVER[HTTP_USER_AGENT];

$ip = $_SERVER[REMOTE_ADDR];



if (   eregi("fragment nazwy robota", $ua)  

   || eregi("fragment nazwy kolejnego robota", $ua) 

 // powielamy eregi

   || $ip == "blokowany numer IP" 

   || $ip == "kolejny blokowany numer IP"  

 // powielamy IP

 ) {



// wysyłamy podejrzanego robota w kosmos np. za pomocą header("location: http:// odchlankosmosu.commm"); 



} else {



// wyświetlamy treść



}

User-Agent: msnbot/1.0 (+http://search.msn.com/msnbot.htm)

ip: 65.54.188.101

nazwa: msnbot.msn.com

[info]

osobny wątek

User-Agent: Googlebot/2.1 (+http://www.google.com/bot.html)

ip: 66.249.64.79

nazwa: crawl-66-249-64-79.googlebot.com

[info]

osobny wątek

User-Agent: Szukacz/1.5 (robot; www.szukacz.pl/jakdzialarobot.html; info@szukacz.pl)

ip: 193.218.115.6

nazwa: robot.szukacz.pl

[info]

osobny wątek

User-Agent: Gigabot/2.0 (gigablast.com)

ip: 64.62.168.9

nazwa: 64.62.168.9

[info]

[edit] okzauje się że jednak nie tylko szukacz przenosi język, Gigabot także i przychodzi z "en"

osobny wątek

User-Agent: LWP::Simple/5.803

ip: 70.84.128.244

nazwa: 244.70-84-128.reverse.theplanet.com

[edit] wszystko wskazuje że to "referrer log spam"

osobny wątek

User-Agent: brak

ip: 212.14.41.6

nazwa: bork.ksiaznica.szczecin.pl

[edit] wydaje mi się że to był "referrer log spam"

User-Agent: EmeraldShield.com WebBot (http:// www. emeraldshield.com/webbot.aspx)

ip: 24.227.118.54

nazwa: rrcs-24-227-118-54.se.biz.rr.com

osobny wątek

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Link to post
Share on other sites
  • Replies 111
  • Created
  • Last Reply

Top Posters In This Topic

Top Posters In This Topic

Popular Posts

Chyba masz rację. Ja mam konto na baidu, mam nawet pobrany specjalny skrypt, który ładuje mapę witryny do baidu. Bo Baidu w ten sposób umożliwia właśnie ładowanie map witryn. Ale i tak, to co wyszukuj

Czy jest ktoś z Was zainteresowany stworzeniem i updatowaniem listy robotów które zżerają nam transfer, łykają adresy e-mail, są wysłane jako reklama bądź do innych celów skanują nasze strony?

Z przyjemnością, jeszcze rok temu miałem dużą aktualną listę tego co po mnie łazi, teraz z braku czasu nie aktualizowana.

Tutaj?

Szy.

Link to post
Share on other sites
Tutaj?

tak chyba tu będzie najlepsze miejsce, mogę przykleić ten post i mozemy wrzucać tu adresy ale bez wielkich dyskusji, dyskusje na temat poszczególnych robotów mozemy prowadzić w osobnych wątkach, ja jestem bardzo zainteresowany co po moich stronach łazi.

Szy, a może ogólnie zrobimy z tego wątku centrum informacji o robotach sieciowych i będziemy liknować do poszczególnych postów jeśli były rozpoczęte dyskusje albo jeśli się rozpoczną?

ale Wap'ów chyba nie będziemy ciąć? :)

User-Agent: Nokia6610I/1.0 (3.10) Profile/MIDP-1.0 Configuration/CLDC-1.0 (Google WAP Proxy/1.0)

IP: 64.233.167.4

host: 64.233.167.4

lang: en

User-Agent: SonyEricssonT610/R301 Profile/MIDP-1.0 Configuration/CLDC-1.0 (Google WAP Proxy/1.0)

IP: 64.233.167.4

host: 64.233.167.4

lang: en

[edit] dodałem jeszcze jednego WAP'a ale nie ma sensu chyba w ogóle nic z nimi robić

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Link to post
Share on other sites
Lista odpowiednia do tematu

lista tak, ale z wątku chciałem zrobić takie centrum informacji o robotach sieciowych, w sumie nie tylko niechcianych, do pierwszego wątku postaram się dodać kilka znanych robotów i dać odnośniki do dyskusji na forum PiO

a póki co mam trzy kolejne, które pierwszy raz na oczy widziałem

User-Agent: WorldWideWeb-X/3.1 (+http:// www. worldwideweb-x.com/)

IP: 67.167.114.21 | host: c-67-167-114-21.client.comcast.net

IP: 68.164.0.34 | host: h-68-164-0-34.chcgilgm.dynamic.covad.net

User-Agent: updated/0.1beta (updated.com; http:// www. updated.com; crawler@updated.com)

IP: 38.119.96.107

nazwa: 38.119.96.107

[edit]

User-Agent: pipeLiner/0.10 (PipeLine Spider; http://www.pipeline-search.com/webmaster.html)

IP: 24.106.39.250

nazwa: rrcs-24-106-39-250.west.biz.rr.com

[edit]

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Link to post
Share on other sites

Ja mam u siebie owego updated z błędem w u-a :):

'updated/0.1beta (updated.com; http://www.updated.com; crawler@updated.om)'

oraz, na W. w lutym, powyżej 100 zapytań:

UA: appie 1.1 (www.walhello.com)

IP: 80.60.35.143, 84.104.217.36, 84.104.217.38

UA: http://www.almaden.ibm.com/cs/crawler [fc12]

IP: 66.147.154.3

UA: pipeLiner/0.7 (PipeLine Spider; http://www.pipeline-search.com/webmaster.html; webmaster@pipeline-search.com)

IP: 24.106.39.250

Ten almaden.ibm, pamietam, że od dawna się pojawia, a wyleciało mi z głowy co to. Piotr, pamiętasz?

Szy.

Link to post
Share on other sites

pare dni temu wyczyscilem cala baze.. no ale mam pare agentow (kazdy grubo setka requestow per doba):

UA: fukuiben (http://www.ibgakuin.ac.jp/~net/java/tes/fukui1.cgi)

IP: 211.120.209.3

Host: po.ibgakuin.ac.jp

UA: sohu-search

IP: 220.181.26.69

Host: 220.181.26.69

UA: DELTASCAN

harvester adresow email, uzywaja ludki z NEO, blokujcie bo to to jest szybsze w zbieraniu linkow niz msnbot..

Link to post
Share on other sites
blokujcie bo to to jest szybsze w zbieraniu linkow niz msnbot

blokujcie albo zabezpieczajcie swoje e-maile - więcej o zabezpieczeniu adresu e-mail w wątku: ANTYSPAM - jak się chronić i wyglądać profesjonalnie

mam jeszcze ze trzy:

User-Agent: ZoomSpider - wrensoft.com

ip: 81.190.43.231

nazwa: host-81-190-43-231.szczecin.mm.pl

[info] czyżby to szookacz.pl ?

User-Agent: SurveyBot/2.3 (Whois Source)

nazwa: www.whois.sc

ip: 64.246.161.190

[info] wygląda, że to tylko sprawdzarka whois

ua: ia_archiver

ip: 209.237.238.179

nazwa: crawl29-public.alexa.com

[info] - nic dodać, nic ująć

wyciągnięte z wątku Maćka:

User-Agent: ichiro/1.0 (ichiro@nttr.co.jp)

ip: 210.173.179.57

nazwa: csr040.goo.ne.jp

osobny wątek

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Link to post
Share on other sites

dwa egzotyki:

UA: ShowTags/1.0 libwww/5.4.0

IP: 66.132.157.20

Host: spotmy .com

[info] nie wiadomo co to

UA: brak

IP: 80.53.166. 202

Host: idsl. lexell. com. pl

[info] j.w + szybki speed = radze zblokowac

na razie nie moge stwierdzic czy to cos pobiera robots.txt - pozniej dam znac.

-- edit --

w/w nie pobieraja pliku robots.txt - warto wiec wrzucic na czarna liste.

UA: CydralSpider/1.9 (Cydral Web Image Search; http://www. cydral. com)

IP: 213. 246.63. 116

[info] wyszukiwarka zdjec. jej funkcjonalnosc pozostawia niestety wiele do zyczenia, klikajac np. w miniaturke zdjecia wcale nie otwiera sie zdjecie powiekszone.. :)

a ciekawe co to za tajniak.. :-k

193. 218.115. 6 - - [20/Feb/2005:20:49:13 +0100] "GET /robots.txt HTTP/1.1" 200 219 "-" "-"

[edit by Piotrek] to IP szukacza

Link to post
Share on other sites
ciekawe co to takiego

wejscia z telefonow :hello: swego czasu mialem tego duzo u siebie. zobacz post w ktorym czlowiek z G. probuje ustalic format jap. numerow tel.

i 3 nowe do kolekcji ;)

UA: SiteXpert

IP: 81. 190.41. 43

Host: host-81-190-41-43. szczecin. mm.pl

[info] czyzby znowu szook ?

UA: lwp-trivial/1.40

IP: 64. 136.59. 131

[info] nie wiem co to, ale 'spam log' to raczej nie jest, bo referer ma pusty

UA: Mozilla/5.0 (compatible; BecomeBot/2.2.1; MSIE 6.0 compatible; +http://www .become. com/webmasters.html)

IP: 213 .41.67. 34

Host: hosting-34.67. rev.fr. colt .net

[info] ze strony "Become is crawling the web to build a next generation search engine."

Link to post
Share on other sites

złapane

User-Agent: NetSprint -- 2.0

IP: 217.153.57.115

host: 217.153.57.115

User-Agent: Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)

ip: 66.196.91.130

host: lj1350.inktomisearch.com

zastanawia mnie czym się różni

User-Agent: Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

IP: 66.249.66.112

host: crawl-66-249-66-112.googlebot.com

od

User-Agent: Googlebot/2.1 (+http://www.google.com/bot.html)

IP: 66.249.64.30

host: crawl-66-249-64-30.googlebot.com

:?

- buduj content metodą drag&drop i łatwo zgarnij SEO backlinki z msDrop

- wideoporadniki jak korzystać z msDrop

Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

  • Recently Browsing   0 members

    No registered users viewing this page.


×
×
  • Create New...

Important Information

We have placed cookies on your device to help make this website better. You can adjust your cookie settings, otherwise we'll assume you're okay to continue. Terms of Use Privacy Policy