News: Zusammenlegung der Instagramprojekte

Per sofort wird der Support für das Projekt „Hashtag-DB“ / „Reichweitenanalysen v. Hashtags“ eingestellt und mit dem Themenkomplex „InstaLOC“ zusammen geführt.
Der Zugang zu den Datenbanken, generiert zwischen 2015/16 und 2018, ist für Externe ab dem heutigen Datum geschlossen.

Ausnahmen sind Geschäftspartner_innen und Kund_innen.

Link zum Archiv: https://www.pontipix.de/werkzeuge-tools/hashtag-projekt/

[Updatenotiz] Hashtagprojekt und die weiteren Pläne

Geänderte Rahmenbedingungen und viele Gespräche mit den lieben Betatester_innen führten zu einer Umplanung der Softwareentwicklung. Der aktuelle Client wird in zwei Module aufgegliedert:

(a) Datenbankmodul
– Recherche und Auswertung der Rohdatenpakete aus dem Hashtagprojekt
– Reportings, Reportingmodule
– Textanalysemodul

(b) API-Modul
– Anbindung an die API-Endpoints (Media, User, Locations), wie bereits im Bot umgesetzt
– Screening von Accounts
– Reportings, Reportingmodule

Da die Algorithmen bereits in anderen Projekten existieren, wird der Versionswechsel relativ schnell erledigt sein und ich rechne mit einer Einführung in das Tagesgeschäft innerhalb der aktuellen Woche.

Hashtagprojekt – Datenbankabfragen

Mit Bekanntgabe des Projektes und Freigabe der Rohdatenpakete erreichen mich immer wieder Anfragen zu möglichen Queries. Die nachfolgenden Beispiele bilden einen Teil unserer Dateninterpretationssoftware ab.

[Prüfzeitpunkte]
select datum from example.tags group by datum;
Funktion: Ausgabe aller Prüfzeitpunkte.

[Häufungsauflistungen]
select haeufung from example.tags group by haeufung;
Funktion: Ausgabe aller erfassten Häufungen, unabhängig von Tag und Erfassungsdatum

[komplette Tagauflistung(en)]
(1) Pauschale Auflistung
select tag from example.tags group by tag;
Funktion: Auflistung aller erfassten Tags
(2) Auflistung inkl. Häufungen
select tag, haeufung from example.tags group by tag;
Funktion: Auflistung aller erfassten Tags inkl. deren Häufungen
(3) Auflistung inkl. Häufungen, nach Häufungsfilter
(3.1) absteigend
select tag, haeufung from example.tags where haeufung >=1000 group by tag order by haeufung desc;
Funktion: Auflistung aller Tags inkl. deren Häufungen, ab einer Mindesthäufung (absteigend nach Häufung)
(3.2) aufsteigend
select tag, haeufung from example.tags where haeufung >=1000 group by tag order by haeufung asc;
Funktion: Auflistung aller Tags inkl. deren Häufungen, ab einer Mindesthäufung (aufsteigend nach Häufung)

[Recherche(n)]
(1) Wortrecherche
select tag from example.tags where tag like 'leipzig%' group by tag;
Funktion: Ausgabe aller Tags, wo das gesuchte Wort am Anfang der Ergebnisse steht.
select tag from example.tags where tag like '%leipzig' group by tag;
Funktion: Ausgabe aller Tags, wo das gesuchte Wort am Ende der Ergebnisse steht.
(1.2) Wortrecherche mit Ausgabe der Häufungen
select tag, haeufung from example.tags where tag like 'leipzig%' group by tag;
select tag, haeufung from example.tags where tag like '%leipzig' group by tag;
(1.3) Wortrecherche nach Datum
select tag from example.tags where tag like 'leipzig%' and datum = '31.12.2016' group by tag;
select tag from example.tags where tag like '%leipzig' and datum = '31.12.2016' group by tag;
Bei beiden Ausgabebefehlen muss (!) im Vorfeld abgeklärt werden, ob in der Datenbank Einträge zum gesuchten Datum existieren.
(1.4) Wortrecherche nach Häufung
select tag, haeufung from example.tags where tag like 'kinder%' and haeufung > 1000 group by tag;
(1.5) Wortrecherche nach Häufung mit Datumsauflistung(en)
select tag, haeufung, datum from example.tags where tag = 'zimmer' and haeufung > 1000;

(2) Gruppenrecherche(n)
select tag from example.tags where tag like 'kind%' and tag like '%garten%' group by tag;
Funktion: Ausgabe aller Tags mit den Wortbestandteilen „Kind“ (Position: Anfang) und „Garten“ (Position: Egal)
select tag from example.tags where tag like 'kind%' and tag like '%garten' group by tag;
Funktion: Ausgabe aller Tags mit den Wortbestandteilen „Kind“ (Position: Anfang) und „Garten“ (Position: Ende)

[Erklärungen und Hinweise]
Die genannten Beispiele lassen sich im SQLite-Studio via Hauptmenü [Werkzeuge]=>[SQL-Editor] benutzen und wir nutzen einen Teil der o.g. Liste für die Features des eigenen Rechercheclients und Instagrambot. Durch die große Datenansammlung (freigegeben: ~70 Mio Datensätze) können die Zeiträume zwischen Abfrage und Ergebnispräsentation – je nach Hardware, Betriebssystem – zwischen 5 und 20 Sekunden andauern und ich empfehle bei intensiveren Rechercheprozeduren eine Auslagerung auf SSD-Platte (Bearbeitungsdauer ca. halbiert!).

Hashtagprojekt – Einblicke in die Datenbank, Tagliste(n) und Queries

Der angedockte Client wurde um entsprechende Exportfunktionen erweitert und das Projekt beherbergt folgende Datensätze:

(a) Queries
Diese Angaben beschreiben die Tags, welche via API als Suchanfrage verarbeitet werden.

Downloads
searchview_0-9.zip
searchview_a-z.zip

(b) erfasste Tags
Diese Angaben sind das Ergebnis aus (a). Bitte hier beachten, dass die Listen ungewichtet sind und keine Häufungen ausgeben.

Downloads
tagview_0-9.zip
tagview_a-f.zip
tagview_g-m.zip
tagview_n-s.zip
tagview_t-z.zip

Hashtagprojekt – Reportings (Beta!) – Version 0.1b

Das Projekt erlaubt nun eine Detailbegutachtung von einem der erfassten Tags. Die Reportingfunktion lässt sich über die folgende Befehlszeile abrufen „analyse:tag“ (Beispiele: analyse:geschenk, analyse:winter, analyse:schnee, analyse:vater usw.) und sie liefert über die EMail-Schnittstelle diese Daten zurück:

(1) Tagschau / Tagüberblick
Download: geschenk_10012017.pdf
Das Dokument zeigt die Häufungsentwicklung des Wortes „geschenk“ inklusive der Veränderung in % und die 10 wichtigsten „Untertags“.

(2) Tabelle: Häufungsentwicklung des analysierten Tags
Download: geschenk_haeufung_10012017.xlsx
Diese Datei zeigt die Rohdaten aus der Datenbank und beschreibt die Häufungsveränderung je Updatezeitraum.

(3) Tabelle: Rohdatenauflistung, Untertags
Download: geschenk_liste_10012017.xlsx
Diese Datei zeigt alle erfassten Thementags inklusive der aktuellen Häufung zum letzten Updatedatum an, welche die Zeichenkette „geschenk“ in sich tragen. Sie zeigt auch die Abweichung zum analysierten Tag „geschenk“ in %.

[Updatenotiz] Das Hashtagprojekt (Instagram) – Datenbankentwicklung(en)

Der Umfang der Datenbank beträgt aktuell 45549889 Datensätze mit einem ungefähren Ergebnisvolumen von 1380000 je Updateturnus. Die Datenbankdatei umfasst zum aktuellen Datum 2.56 GB und wächst um 300 MB je Update. Mich hat diese Entwicklung natürlich stark überrascht und eine Freigabe der kompletten Daten in Form einer geeigneten Webanwendung wird leider nicht mehr möglich sein. „Wir“ haben nach einigen Diskussionen uns daher dazu entschlossen, dass „wir“ ausgewählten Kolleg_innen und den Kund_innen bei Bedarf die Datei per DVD heraus kopieren werden.

Download: Datenbankentwicklung – Überblick.
Die folgenden Dateien verdeutlichen die Eintragsentwicklungen der Datensammlung.
(a) Exceltabelle
dbueberblick.xlsx
(b) Verlaufsdiagram


Ab sofort wird einmal je Tag ein Update durchgeführt und hierüber die Grenzen der Datenbank und deren Performanceprobleme getestet (aktuell: ca. 5 Sek. je kleine Abfrage). Weil doch nun öfters An- und Nachfragen zum Projekt hier eintrudeln, möchte ich an dieser Stelle unsere Bedingungen oder Befindlichkeiten klären:
Alle Anfragen zum Projekt oder auch Testanfragen können per Telefon oder eMail (siehe Impressum!) abgesendet werden. In den Gesprächen werde ich allerdings folgende Sachen abklopfen:
– Was genau hast Du mit den Daten vor?
– Welche konkreten Vorstellungen hast Du von Instagram, was machst Du da und sind Deine Projekte „organisch“? (kein Spam usw.)
– Wie möchtest Du Dich in das Projekt einbringen?
– Welchen Hintergrund hast Du? (Forschung, Agentur, Socialmediaberatung, Socialmediaoptimierung)
Bei Kontaktaufnahme bitte ich auch zu beachten, dass ich zwar bzgl. des Projektes viele Infos ausdiskutieren lasse, jedoch dass konkretere Beratungen oder Beratungsleistungen zu ganz speziellen Projekten prinzipiell im Rahmen unserer Dienstleistungen und Angebote abgearbeitet werden.

[Updatenotiz] – Hashtagprojekt (Instagram), Reports

Um die Reportings enorm zu erleichtern, habe ich an die Datenanalysesoftware eine geeignete PDF-Exportfunktion angebunden. Irgendwo in diesem Blog befinden sich Hinweise darauf, dass der Hashtaganalysekomplex mit Hilfe von Delphi realisiert und gepflegt wird. Für Interessierte Entwickler_innen verweise ich bzgl. der durchaus schwierigen PDF-Problematik auf:

(1) Forum (synopse)
(2) PDF-Engine v. „Synopse“

Einige interessante Hinweise, Quellcodes und „Tutorials“ befinden sich im verlinkten Forum.

Zu den Analysereports:
Ich orientiere mich hier bewusst an das Layout der bekannten SEO-Datendienstleister und folgende Beispiele sind realisiert:

(1) Einzelprüfung
Die Einzelprüfung ist mit dem Schnittstellenbefehl „tagabfrage“ vergleichbar, sie bezieht sich auf das Datum des letzten Datensatzes und beinhaltet die Häufungsentwicklung des abgefragten Tags, der Themenwelt (oder: ähnliche Tags) und einigen erklärenden Schaubildern.

Download / Beispiele: weihnachten.pdf, microsoft.pdf, release.pdf, reporting.pdf, software.pdf, xmas.pdf

(2) Mehrfachprüfungen
Diese Prüfung bezieht sich aktuell auf zwei Tags, wird später ggf. auf ein höheres Volumen ausgeweitet.

Download / Beispiele: weihnachten_geschenk.pdf, weihnachten_tannenbaum.pdf

Beide Reportingverfahren werden ab Wochenende den Betatester_innen und Kund_innen via eMail-Schnittstelle zur Verfügung gestellt.

Weil wir intern noch einige Gestaltungsdiskussionen führen, sind folgende Erweiterungen der PDF-basierten Reports „angedacht:
– Häufungsentwicklungen via Schaubild der aufgeführten „TOP-10“ aus den Themenwelten
– Vergleich von X Tags bzgl. deren Häufungsentwicklungen via prozentualer Abweichung
– geringfügige Layoutanpassungen

In einer Konzeptdiskussion kamen wir hier zum Ergebnis, dass eine dauerhafte Beobachtung geposteter Medien inklusive der Fotos, der Tags, der Kommentare, der ID-Codes und der Likes interessant sein kann, um in die Bewertung klassische Interaktions-Metriken einfliessen zu lassen und quasi „nebenbei“ potentielle Influencer zu identifizieren. Die Realisierung eines geeigneten Algorithmus ist zwar relativ problemlos, jedoch werde ich mich dieser Aufgabe in der arbeitsfreien Jahreswendezeit widmen.

Updatenotiz: Datenbank – Hashtagprojekt

Das folgende Diagram beschreibt das Datenbankvolumen in seiner Entwicklung seit Relaunch des Systems:

Download: dbueberblick

Zur Erklärung:
Die Bezeichnung „Unique-Tags“ beschreibt die Summe der gefundenen und „einzigartigen“ Terms / Tags  und die Bezeichnung „Datensätze“ gibt Aufschluss darüber, wieviele Datensätze (also: unique-tag, Häufung) im kompletten Zeitraum erfasst worden sind.

Die Exporte wurden ebenfalls etwas modifiziert. Diese liefern ab sofort die Ergebnisse – wahlweise – in den Formaten „.xlsx“ und „.csv“ über die EMail-Schnittstelle zurück. Beispiele sind (a) Liste => „Theater“ (ungenau) und (b) Wolke => „Theater“ (ungenau).