Instagram – Zielgruppenerfassungen via Locations, Projektstart

Vor einigen Tagen entschied ich mich dazu, die Erfassungsfunktionen von CSV in SQLite zu wechseln.

Hierbei hat die entsprechende Datenbankdatei folgende Struktur (Einrichtungsprozedur):

procedure TForm1.LocationsMain1Click(Sender: TObject);
begin
with sql_befehle do
begin
clear;
lines.Add('drop table if exists locations;');
lines.Add('CREATE TABLE `locations` (');
lines.Add(' `id` integer primary key AUTOINCREMENT,');
lines.Add('`url` varchar(400),');
lines.Add('`tag` varchar(800),');
lines.Add('`likes` varchar(400),');
lines.Add('`comments` varchar(400),');
lines.Add('`erstellzeit` varchar(400),');
lines.Add('`post_id` varchar(1600),');
lines.Add('`username` varchar(400),');
lines.Add('`location` varchar(400),');
lines.Add('`filter` varchar(400),');
lines.Add('`pruefzeit` varchar(400)');
lines.Add(');');
lines.Add('vacuum;');
end;
fdquery3.ExecSQL(sql_befehle.text);
end;

Mit Datenbankwechsel wurde der Scraper so optimiert, dass an einem typischen Arbeitstag zwischen 1200 und 4500 Locations zu max. 1500 Einträge erfasst werden können. Erste Testläufe mit dem Raum Paris / Frankreich ergaben eine Ausbeute von ~400.000 Einträgen mit Aktivitäten von ~200.000 Accounts (Unique!).

[Todo] API für die Analysedatenbanken (Hashtags & Co.)

Nach ca. 1Mio Datensätzen und vielen Gesprächen mit den Tester_innen entschied ich mich zu einem Aufbau einer geeigneten Zugriffs-API. Diese wird folgende Funktionen umfassen:

[Basis]
– Erfassen der Anzahl: Datensätze und hinterlegten Hashtags
– Erfassen der Prüfzeitpunkte: Datum

[Analyse, Datensätze]
– Abfrage der Taggruppen bezogen auf Datum und Datumsraum (Datum X – Datum Y)
– Abfrage einzelner Tags bezogen auf Datum und Datumsraum (Datun X – Datum Y)
– Vergleich von verschiedenen Tags hinsichtlich Reichweiten- und Abstandsveränderungen (Datum und Datumsraum)

[Textanalyse]
– Übergabe von Texten an die API und Rückgabe der gefundenen Tags zzgl. deren Reichweiten- und Abstandsmetriken
– Übergabe der Texte an die API und Rückgabe der Taggruppen oder (!) der reichweitenstarken Tags aus den Taggruppen

Die Resultate werden im JSON oder XML-Format gestaltet und da die API natürlich primär die Bedürfnisse der Wobus & Lehmann GbR und den zu betreuenden Kund_innen zu befriedigen hat, wird die API im „freien“ Modus stark eingeschränkt werden.