Instagram, Scrapen & Erfassen von Location-URLs

Vor ein paar Tagen übernahmen wir von Roland Berger ein Projekt, welches u.a. die Trends und Kommunikationen aus den öffentlichen Räumen diverser Locations erfassen und bewerten soll.
Hier ist das Anlegen und Erfassen möglichst vieler Instagramlocations aus einem städtischen Raum eines der Hauptaufgaben der Datenerfassungsprozedur und ich entschied mich für den Weg über den Google-Index.

(1) Aufrufen der Indexurl
site:instagram.com/explore/locations/ „stadt land objekt“

(2) URLscraper
memo7.clear;
try
ovElements := WebBrowser2.OleObject.Document.all;
for i := 0 to (ovElements.Length - 1) do
begin
if (pos('?hl', ovelements.item(i))=0) and (pos('https://www.instagram.com/explore/locations/', ovelements.item(i))<>0) and (pos('&prev=search',ovelements.item(i))=0) and (pos('https://www.google.com/',ovelements.item(i))=0) then
begin
memo7.Lines.Add(ovElements.item(i));
end;
end;
except
end;
memo7.lines.BeginUpdate;
KillDuplicates(memo7.lines);
memo7.lines.EndUpdate;

(3) Bereinigung und Aufbereitung der Daten
Ausgehend von der Beispielurl https://www.instagram.com/explore/locations/1026498374/eltonel-bar/ wird nun die URLstruktur dahingehend sichtbar und logisch, dass der Ort des Locationcodes „1026498374“ erfassbar ist. Dieser wird aus der ursprünglichen Zeichenkette (hier: URL-String) mit Hilfe einer geeigneten Funktion extrahiert und zwecks Tiefenanalyse der Locationmedien in die Datenbank(en) gespeichert.

Schreibe einen Kommentar