Artikelformat

Wie man Public Proxy Server mit Scrapebox findet

Wenn man mit Scrapebox arbeiten will, werden dazu unbedingt Proxy Server benötigt. Diese Proxies werden nicht dafür gebraucht um anonym zu bleiben, sondern damit die eigene IP Adresse nicht von Suchmaschinen oder Anti Spam Plugins wie Askimet gesperrt wird (Askiment speichert zwar nicht nur die IP Adresse sondern auch die URL, aber darauf komme ich an anderer Stelle noch mal zu sprechen).

Mit Scrapebox ist es möglich, URLs von den Suchmaschinen Google, Yahoo, Bing und AOL zu harvesten. Allerdings erlauben alle diese Suchmaschinen nur eine gewisse Anzahl von automatischen Abfragen pro Tag pro IP. Versucht man mehr als die erlaubte Anzahl von Anfragen pro Tag zu machen, wird die eigene IP Adresse einfach von den Suchmaschinen gebannt. Das ist zwar nur ein temporärer Bann und deshalb nicht besonders schlimm, aber es hindert einen daran weitere Urls zu harvesten.

Hier kommen dann die Proxy Server ins Spiel. Scrapebox benutzt je nachdem wie man es in den Optionen eingestellt hat, einen Proxy Server nur für eine Abfrage und wechselt bei der nächsten Abfrage auf den nächsten Proxy. Je mehr Proxy Server man also benutzt, desto mehr Abfragen kann man machen und desto mehr URLs erhält man.

Das in Scrapebox intregrierte Tool um Public Proxies zu finden, kann man natürlich auch für alle möglichen anderen Zwecke benutzen. Wer Scrapebox benutzt, benutzt vielleicht auch Tools wie AMR, Xrumer, Bookmarking Demon, etc. Für diese Tools werden ebenfalls Proxy Server gebraucht.

Allerdings sollte man diese Public Proxies in Scrapebox nur zum Sammeln von Urls benutzen und nicht wenn man mit Scrapebox automatisch Kommentare posten will. Public Proxies sind ziemlich instabil und können schnell und plötzlich ausfallen und das führt oft dazu das man viel weniger Kommentare posten kann als eigentlich möglich wären. Zusätzlich sind Public Proxies auch meistens ganz schön langsam, so dass man dadurch viel Zeit verliert.

Wie findet man nun also gut funktionierende Proxy Server mit Scrapebox?

Scrapebox kommt standardmäßig gleich mit einer kleinen mitgelieferten Liste von Public Proxy Servern, die man abfragen und testen kann. Allerdings ist es nicht grade empfehlenswert diese Public Proxy Server zu benutzen. Der Grund liegt auf der Hand, jeder andere Scrapebox Benutzer der sich nicht nach eigenen Quellen für Proxy Server umschaut benutzt die gleichen Public Proxies. Und dementsprechend schnell werden diese Public Proxies dann natürlich auch gebannt. Wenn 1000 Leute die gleichen Public Proxies benutzen und damit Google abfragen geht das nicht lange gut.

Wenn man auf andere Public Proxy Quellen zugreift, dann hat man zumindest die Chance das nicht jeder andere der sie auch benutzt ausgerechnet Suchmaschinen damit abfragt.

Deutlich besser ist es also sich ein paar andere Quellen für Public Proxy Server zu besorgen. Entweder man sucht manuell in Google danach, oder man benutzt Scrapebox dafür. Ich würde den Weg mit Scrapebox empfehlen, warum sich per Hand abmühen wenn man doch schon eine Software besitzt, die das bequem für einen erledigen kann 😉

Folgende Google Footprints eignen sich gut um Public Proxy Server mit Scrapebox zu finden:

Suche nach Textfiles und den gängigsten Public Proxy Ports:

filetype:txt +”:8080″ +”:3128″ +”:80″
filetype:txt +”:8080″ +”:3128″ +”:80″ + “latest”
filetype:txt +”:8080″ +”:3128″ +”:80″ + “new”

Suche nach Webseiten, die das Wort Proxy in der URL haben und im Text der Webseite “free proxy list” vorkommt:

inurl:proxy + intext:”free proxy list”
inurl:proxy + intext:”free proxy list” + “latest”
inurl:proxy + intext:”free proxy list” + “new”

Zusätzlich zu den Keywords “latest” und “new” sollte man den Suchzeitraum in Scrapebox auch noch auf 24 Stunden eingrenzen. “Latest” und “new” funktionieren nicht immer, da nicht jede Seite die beiden Wörter benutzt. Weiter als auf 24 Stunden braucht man die Suche nicht einzugrenzen, da Public Proxies sowieso nur eine sehr begrenzte Lebenszeit haben.

Mit den Footprints sollte man nun einige URLs die Public Proxies enthalten gefunden haben und im Scrapebox Harvester haben. Die URLs speichert man jetzt einfach wie gewohnt in einem Textfile ab und dieses Textfile kann man dann ganz einfach in den Proxy Harvester laden (Manage —> Harvest Proxies —> Add Source —>From a File).

Nun muss man die Proxies natürlich erst mal testen ob sie überhaupt funktionieren.

Aber auf keinen Fall sollte man vorher vergessen, die doppelten Proxies erst mal zu entfernen bevor man sie testet. Ansonsten verschwendet man nur unnötig Zeit damit die gleichen Proxies mehrmals zu testen:

Cleanup —> Remove Duplicate Proxies

Proxy Einstellungen:

Settings —> Adjust Time Out Settings —> Proxy Harvester Timeout —> 50 Sekunden

Legt fest wann Scrapebox den Harvest Versuch abbricht. 50 Sekunden ist ein ganz guter Mittelwert, ansonsten dauert es einfach zu lange viele Proxies zu finden.

Settings —> Maximum Connections —> Proxy Harvester —-> zwischen 30 und 100

Hier muss jeder selbst ausprobieren, was die eigene Internet Verbindung so hergibt. Auf einem VPS kann man es problemlos auf 100 gleichzeitige Connections stellen. Für eine “normale” DSL Leitung kann 100 zuviel sein. Entweder frißt es einem dann die komplette Bandbreite so dass man nichts mehr anderes gleichzeitig machen kann oder es kann auch passieren das sich der Router bei zu vielen gleichzeitigen Abfragen aufhängt.

Settings —> Adjust multi-threaded harvester proxy retries —> 5

Legt fest wie viele verschiedene Proxy Server Scrapebox für ein Keyword versucht. Sollte Proxy 1 bereits von den Suchmaschinen gebannt worden sein, wird Proxy 2 versucht, etc. Bei großen Keyword Listen von 10.000 oder mehr sollte man es nicht auf mehr als 5 stellen, da es ansonsten einfach zu lange dauert.

Bewerte diesen Artikel
1 Stern2 Sterne3 Sterne4 Sterne5 Sterne

21 Bewertung(en), durchschnittlich: 5,00 von 5

Loading...

Schreibe einen Kommentar

Pflichtfelder sind mit * markiert.