• Willkommen im Geoclub - dem größten deutschsprachigen Geocaching-Forum. Registriere dich kostenlos, um alle Inhalte zu sehen und neue Beiträge zu erstellen.

GC Spider 2.0

peter.poetzi

Geocacher
Hallo,

ich habe hier einen neuen Spider für Geocaching.com geschrieben:

vorteile:
Man muss sich nicht anmelden, um die Koordinaten zu erhalten!

Es wird zwar nur die Liste heruntergeladen, man muss also die Cache-Beschreibung noch extra spidern, hierfür braucht man auch keinen Usernamen mehr, da man die Koordinaten ja schon hat!

der Traffic wird erheblich reduziert, es werden nur solche datensätze geliefert:
Edit by Schnueffler
Quellcode auf Wunsch des Autors entfernt


Es können bis zu 500 Caches auf einmal gespidert werden.

Es wird nicht Mittelpunkt+Radius gespidert sondern ein Rechteck, dessen kanten (links long, oben lat,rechts long, unten lat) definiert sind.

ich habe 1357 Caches in 5 Sekunden gespidert!

hier ist der Quellcode den ich benutzt habe:
Edit by Schnueffler
Quellcode auf Wunsch des Autors entfernt
 

ElliPirelli

Geoguru
Groundspeak Terms of Use schrieb:
5. Access and Interference

Much of the information on the Site is updated on a real time basis and is proprietary or is licensed to Groundspeak by our users or third parties. You agree that you will not use any robot, spider, scraper or other automated means to access the Site for any purpose without our express written permission. Additionally, you agree that you will not: (a) take any action that imposes, or may impose in our sole discretion an unreasonable or disproportionately large load on our infrastructure; or (b) interfere or attempt to interfere with the proper working of the Site or any activities conducted on the Site or other measures we may use to prevent or restrict access to the Site.

Fettung und Farbe von mir. Quelle: http://www.geocaching.com/about/termsofuse.aspx
 

jmsanta

Geoguru
smiley_emoticons_xmas_popcorn_essen.gif
 

ca$hpirat

Geocacher
Theoretisch betreffen die Groudspeak Guidelines aber nur angemeldete Nutzer. Für alle anderen gilt die robots.txt.
 

jhohn

Geomaster
ca$hpirat schrieb:
Theoretisch betreffen die Groudspeak Guidelines aber nur angemeldete Nutzer.
Nicht nur theoretisch.

ca$hpirat schrieb:
Für alle anderen gilt die robots.txt.
Und das ist nur eine Bitte an die man sich nicht unbedingt halten muss.

ElliPirelli schrieb:
Groundspeak Terms of Use schrieb:
Die Groundspeak ToU interessieren für diesen Spieder kein bisschen, da man diese erst mit der Anmeldung bestätigt, man sich mit diesem Stück Code aber gar nicht anmeldet.
 

quercus

Geowizard
naja, und wie viel traffic kann man in 5 sec schon erzeugen. da ist jeder aufruf einer einzelnen seite ja deutlich mehr. ach ja ... darum geht es ihnen ja dann doch gar nicht ;)
 
OP
P

peter.poetzi

Geocacher
Die Terms of Use gelten wirklich nicht, da man sich ja nicht einloggt!

Somit ist diese Methode sogar "legaler" als das spidern!

und in der robots.txt steht zwar:
Code:
Disallow: /iis/*
Disallow: /login/*
Disallow: /admin/*
Disallow: /map/*
Disallow: /email/*
Disallow: /my/*
Disallow: /gps/*
Disallow: /bait.asp
aber
Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen. Man spricht hier auch von „freundlichen“ Webcrawlern.
Wikipedia
 
sehr schöner hack (und nein, ich benutze cachewolf nicht zum spidern)

das steht und fällt natürlich mit der kartenansicht.
laut http://feedback.geocaching.com/geocaching/topics/muggles_can_find_caches_when_not_logged_in_using_geocaching_maps_page
sieht es groundspeak nicht als problem, dass nichtangemeldete benutzer caches auf der karte sehen können.

aber wenn ich als gs was dagegen tun wollte, würde ich die caches auf der karte ein wenig verschieben. durch die größe der cacheicons fällt das nicht weiter auf, wenn man den cache 10-20 m verschoben auf der karte anzeigt. wenn es soweit kommt, kann man ja dann bei ein paar festgelegten caches die tatsächliche position mit der auf der karte vergleichen.
 

jmsanta

Geoguru
peter.poetzi schrieb:
aber
Das Protokoll ist rein hinweisend und ist auf die Mitarbeit des Webcrawlers angewiesen. Man spricht hier auch von „freundlichen“ Webcrawlern.
Wikipedia
Sehr entlarvend, danke dafür!
Freundlichkeit ist demnach also eine von dir als überflüssig gewertete Tugend - na dann...

Warum nur muss ich dabei gerade wieder an Pippi Langstrumpf denken?
2 x 3 macht 4
Widdewiddewitt und Drei macht Neune !!
Ich mach' mir die Welt
Widdewidde wie sie mir gefällt
 

Marcel123

Geocacher
ah ok, das geht also über die karte
naja, ich hab nicht mal nen cachewolf installiert, hat mich einfach nur interessiert

gruß
Marcel
 

~Idefix~

Geocacher
Ich denk mal laut...

Ich weiß, dass ich Morgen irgendwo hin fahre, lade mir kurz die Caches in 10km Umkreis runter, hole mir die GC-Votes und spider dann die Beschreibungen der Handvoll Caches mit >=4 Sternen...
Irgendwie gefällt mir die Vorstellung.
 

Wutschkow

Geomaster
~Idefix~ schrieb:
Ich weiß, dass ich Morgen irgendwo hin fahre, lade mir kurz die Caches in 10km Umkreis runter, hole mir die GC-Votes und spider dann die Beschreibungen der Handvoll Caches mit >=4 Sternen...
Und dafür bräuchte es nicht mal die Koordinaten, sondern nur die Waypoints. Die reichen, um die GCVotes einzulesen und dann zu filtern. Und was übrig bleibt, kann man dann auch regulär spidern.

Das wäre eine Funktion, die mir auch gut gefallen würde. So könnte man GCVote sehr effektiv nutzen, um sich in einer Gegend die "Rosinen" rauszupicken, ohne allzuviel Traffic zu erzeugen. Die Eckpunkte anzugeben, fände ich allerdings etwas mühsam. Da wäre es praktischer, wenn man in der GUI eine Koordinate angeben kann, die sich in der Mitte des Rechtecks befinden soll (so wie es jetzt beim Karten-Kacheln gelöst ist, oder?).
 

arbor95

Geoguru
ohne und mit Anmeldung erhält man auch die Gefundenen mit, wobei man bei Anmeldung vermutlich erkennen kann welche das sind.
ums Zentrum ist ja nur eine Frage des Seitenaufrufs (wo eh das Zentrum angegeben werden muss).
 
OP
P

peter.poetzi

Geocacher
das zentrum wird automatisch ausgerechnet, allerdings nur weil gc.com das gleiche macht; lässt man die zentrums-parameter weg, erhält man genau das gleiche, allerdings könnte man solche abfragen leichter aussortieren.

@araber95
wirst du diese funktion jetzt einbauen?

Peter
 
Oben