Skocz do zawartości

Curl_proxy a Google


k0l3c
 Udostępnij

Rekomendowane odpowiedzi

Pobieram dane za pomocą curla przez proxy i wszystko działa ok, ip się zmienia itd.

Ale Google kieruje mnie na stronę "sorry".

Dla czego bierze mnie jako robota? przesyłam header, chodzi o ciasteczka?

$hand = curl_init();
curl_setopt($hand, CURLOPT_URL, 'https://www.google.pl/search?hl=pl&q='.urlencode($fraza) .'&start=' .$start_od = $z*$wynikow_na_stronie);
curl_setopt($hand, CURLOPT_RETURNTRANSFER, true);
curl_setopt($hand, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows; U; Windows NT 6.1; pl-PL; rv:1.9.0.10) Gecko/2009042316 Firefox/3.0.10 (.NET CLR 3.5.30729)'); 
curl_setopt($hand, CURLOPT_HTTPPROXYTUNNEL, 0);
curl_setopt($hand, CURLOPT_PROXY, '60.191.220.241:3128');
curl_setopt($hand, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($hand, CURLOPT_CUSTOMREQUEST,'GET');
curl_setopt ($hand, CURLOPT_HEADER, 1);

$output = curl_exec($hand);
print_r($output);

Proxy na bank działa, bo wywoływałem strony do jego sprawdzania, ban odpada bo ani razu nie otrzymałem wyników, tylko od razu 301

penguins.jpg

Odwiedzaj regularnie mój blog o seo na lukaszt.pl podobno warto ;)

Odnośnik do komentarza
Udostępnij na innych stronach

IP tego proxy jest zbanowane przez Google :) ?

Ja robie to tak:

mam 130 proxy świeżych z proxymarket.

mam funkcje opartą o curl ktora próbuje pobrać SERP :)

do while, dopóki nie znajdzie na pobranym źródle np. <cite> :)

czyli każde połaczenie losuje inne proxy i ponawia połączenie dopóki nie znajdzie <cite> :)

Proste ;)

// Podstawowa zasada:

// Losowe UserAgent i losowe IP co każde połączenie --> unikniesz bana na proxy :)

// przydatne ua: https://www.useragentstring.com/pages/useragentstring.php

Edytowane przez THI

a9177b36246d7ce96fa698c9971dd36b.png

Sprzęt akwarystyczny kupuj w moim - sklep akwarystyczny.

adwokat częstochowa - Radca prawny Grzegorz Ledwoń. Pomoc w sprawie odszkodowanie.

Odnośnik do komentarza
Udostępnij na innych stronach

Musisz się wysilić i wysłać bardziej rozbudowany nagłówek HTTP CURLOPT_HTTPHEADER niż to co masz obecnie.

----

Możesz podejrzeć w przeglądarce jakie są składowe nagłówka i podobne zastosować w żądaniu HTTP GET

https://addons.mozilla.org/pl/firefox/addon...e-http-headers/ :)

Edytowane przez Mion

HTTP 200 usługi IT -> Dariusz Janicki | Realizacja serwisów www oraz oprogramowania w PHP / C# / Golang / Node.js / MySQL/ Laravel

Odnośnik do komentarza
Udostępnij na innych stronach

Jeśli chcesz dodać odpowiedź, zaloguj się lub zarejestruj nowe konto

Jedynie zarejestrowani użytkownicy mogą komentować zawartość tej strony.

Zarejestruj nowe konto

Załóż nowe konto. To bardzo proste!

Zarejestruj się

Zaloguj się

Posiadasz już konto? Zaloguj się poniżej.

Zaloguj się
 Udostępnij

  • Ostatnio przeglądający   0 użytkowników

    • Brak zarejestrowanych użytkowników przeglądających tę stronę.
×
×
  • Dodaj nową pozycję...

Powiadomienie o plikach cookie

Umieściliśmy na Twoim urządzeniu pliki cookie, aby pomóc Ci usprawnić przeglądanie strony. Możesz dostosować ustawienia plików cookie, w przeciwnym wypadku zakładamy, że wyrażasz na to zgodę. Warunki użytkowania Polityka prywatności