Hashtagprojekt – Reportings (Beta!) – Version 0.1b

Das Projekt erlaubt nun eine Detailbegutachtung von einem der erfassten Tags. Die Reportingfunktion lässt sich über die folgende Befehlszeile abrufen „analyse:tag“ (Beispiele: analyse:geschenk, analyse:winter, analyse:schnee, analyse:vater usw.) und sie liefert über die EMail-Schnittstelle diese Daten zurück:

(1) Tagschau / Tagüberblick
Download: geschenk_10012017.pdf
Das Dokument zeigt die Häufungsentwicklung des Wortes „geschenk“ inklusive der Veränderung in % und die 10 wichtigsten „Untertags“.

(2) Tabelle: Häufungsentwicklung des analysierten Tags
Download: geschenk_haeufung_10012017.xlsx
Diese Datei zeigt die Rohdaten aus der Datenbank und beschreibt die Häufungsveränderung je Updatezeitraum.

(3) Tabelle: Rohdatenauflistung, Untertags
Download: geschenk_liste_10012017.xlsx
Diese Datei zeigt alle erfassten Thementags inklusive der aktuellen Häufung zum letzten Updatedatum an, welche die Zeichenkette „geschenk“ in sich tragen. Sie zeigt auch die Abweichung zum analysierten Tag „geschenk“ in %.

[Updatenotiz] Das Hashtagprojekt (Instagram) – Datenbankentwicklung(en)

Der Umfang der Datenbank beträgt aktuell 45549889 Datensätze mit einem ungefähren Ergebnisvolumen von 1380000 je Updateturnus. Die Datenbankdatei umfasst zum aktuellen Datum 2.56 GB und wächst um 300 MB je Update. Mich hat diese Entwicklung natürlich stark überrascht und eine Freigabe der kompletten Daten in Form einer geeigneten Webanwendung wird leider nicht mehr möglich sein. „Wir“ haben nach einigen Diskussionen uns daher dazu entschlossen, dass „wir“ ausgewählten Kolleg_innen und den Kund_innen bei Bedarf die Datei per DVD heraus kopieren werden.

Download: Datenbankentwicklung – Überblick.
Die folgenden Dateien verdeutlichen die Eintragsentwicklungen der Datensammlung.
(a) Exceltabelle
dbueberblick.xlsx
(b) Verlaufsdiagram


Ab sofort wird einmal je Tag ein Update durchgeführt und hierüber die Grenzen der Datenbank und deren Performanceprobleme getestet (aktuell: ca. 5 Sek. je kleine Abfrage). Weil doch nun öfters An- und Nachfragen zum Projekt hier eintrudeln, möchte ich an dieser Stelle unsere Bedingungen oder Befindlichkeiten klären:
Alle Anfragen zum Projekt oder auch Testanfragen können per Telefon oder eMail (siehe Impressum!) abgesendet werden. In den Gesprächen werde ich allerdings folgende Sachen abklopfen:
– Was genau hast Du mit den Daten vor?
– Welche konkreten Vorstellungen hast Du von Instagram, was machst Du da und sind Deine Projekte „organisch“? (kein Spam usw.)
– Wie möchtest Du Dich in das Projekt einbringen?
– Welchen Hintergrund hast Du? (Forschung, Agentur, Socialmediaberatung, Socialmediaoptimierung)
Bei Kontaktaufnahme bitte ich auch zu beachten, dass ich zwar bzgl. des Projektes viele Infos ausdiskutieren lasse, jedoch dass konkretere Beratungen oder Beratungsleistungen zu ganz speziellen Projekten prinzipiell im Rahmen unserer Dienstleistungen und Angebote abgearbeitet werden.

Projekt: Instagram-Hashtagdatenbank, Datenbankupdate und weitere Pläne

Die angelegte Datenbank hat nun den folgenden Umfang:

Datenbanküberblick:
Unique-Tags:556022
Anzahl: Tagdatensätze:1579353
Anzahl: Abfragepunkte:28818
Anzahl: Kategorien:117
Letztes Prüfdatum: 18.11.2016

Die hinterlegten Kategorien und Abfragepunkte decken derzeit relativ stark die meisten erfassbaren Themen des Alltags ab und ich werde die finale Version auf ein Volumen von ~3-5 Mio Unique-Tags erweitern.

Neben den realisierten Abfragefunktionen (Tagliste, Tagwolke) sind die folgenden Erweiterungen geplant:

(1) Detailabfragen nach Häufung
– Tagliste und Wolke inklusive der tagesaktuellen Häufung
– Erweiterung der Wolken um Durchschnittshäufungen
(2) Wortpaarprüfungen
– Ausgabe (allgemein, inkl. Häufungen) nach Wortzusammensetzungen (weihnachten+geschenk, geburtstag+geschen, usw.)
– Formate: Taglisten und Tagwolken
(3) Häufungsentwicklungen
– Einzelabfragen und Wortpaare
(4) Textanalysen
– Gegenproben von Texten auf die Datenbank
– Ausgabe der Häufungen
– Ausgabe der durchschnittlichen Häufungen
– Ausgabe der gefundenen Tags als Promovorschlag für die Socialmedia
(5) Alertsystem, Triggersystem
– Infosystem zu geänderten Häufungen
– Infosystem zu „neuen“ Tags
– Infosystem zu „neuen“ Wortpaaren
– Alerts: täglich, wöchentlich etc.

Wir diskutieren und analysieren derzeit intern noch diverse Datenfreigabemöglichkeiten neben der bekannten EMail-Schnittstelle. Im Moment sind die folgenden Optionen bei uns im Gespräch:
(a) Datenauszüge in den Formaten: XLS, JSON, SQL, CSV
(b) Reportings analog zu bspw. XOVI und andere Datendienstleister (PDF)

Projekt: Instagram-Hashtagdatenbank, Abfrage von Tagwolken

Die Abfragelogik für das Generieren dieser Hashtagwolken hat das folgende Schema:

wolke:[term],[mindesthäufung],[modus],[varianten],[limit]

Erklärungen zu den Variablen:
[term] beschreibt den gesuchten Begriff
[mindesthäufung] beschreibt, die Mindesthäufung der auszugebenden Wolkenelementen (=>Zahl)
[modus] beschreibt die Ausgabegenauigkeit
[varianten] beschreibt die Anzahl der auszugebenden Wolkenvarianten (=>Zahl)
[limit] beschreibt das Maximalvolumen der auszugebenden Wolkenelementen (=>Zahl)

Aktuelle Möglichkeiten von [modus] sind „ungenau“ (Term befindet sich irgendwo in den Zeichenketten) , „anfang“ (Term befindet sich am Anfang der Zeichenketten) und „ende“ (Term befindet sich am Ende der Zeichenketten).

Um nun an die gewünschten Ergebnisse zu gelangen, werden die zusammengesetzten Befehlszeilen via EMail-Betreff an die System-Adresse geschickt. Ich bitte hier zu beachten, dass diese „System-Adresse“ ausschließlich nach Rücksprache mit Anne oder mir freigegeben wird.

Beispiele sind:
wolke:leipzig,100,anfang,10,6
Variante: 1
#leipzighalle #leipzigleben #leipziglove #leipziggram #leipzigerbuchmesse2014 #leipzigtattoo
Variante: 2
#leipzigerbuchmesse2014 #leipzig #leipzigtravel #leipzigblogger #leipzigzoo #leipzig_downtown
Variante: 3
#leipziggay #leipzig_city #leipzigerbuchmesse2015 #leipzigartig #leipzigerleben #leipzigcitygirl
Variante: 4
#leipziggram #leipzigerland #leipzigtattooartist #leipzigerbuchmesse2015 #leipzigtravel #leipzigart
Variante: 5
#leipzigerland #leipziglovers #leipziggoesusa #leipzigart #leipziggram #leipzig_deine
Variante: 6
#leipzighalle #leipzigerbuchmesse2015 #leipzigerzoo #leipzigram #leipzig2013 #leipzigliebe
Variante: 7
#leipzigmarkt #leipzigtattooartist #leipzigcity #leipzigcityviews #leipzigtravel #leipzigram
Variante: 8
#leipzigerland #leipzig_deine #leipzigtattoo #leipzigerbuchmesse2016 #leipziglovee #leipzig2014
Variante: 9
#leipzig2013 #leipzigerbuchmesse2016 #leipzigerleben #leipziglove #leipzigerbuchmesse2015 #leipzig
Variante: 10
#leipzigerstr #leipziglife #leipzigtattooartist #leipzigarena #leipziger #leipziggermany

wolke:leipzig,100,ende,10,6
Variante: 1
#plagwitzleipzig #flughafenleipzig #leipzig #baumwollspinnereileipzig #visitleipzig #halloleipzig
Variante: 2
#iloveleipzig #lieblingsleipzig #ig_leipzig #thisisleipzig #leipzig #spinnereileipzig
Variante: 3
#weihnachtsmarktleipzig #spinnereileipzig #visitleipzig #leipzig #baumwollspinnereileipzig #thisisleipzig
Variante: 4
#visitleipzig #spinnereileipzig #weihnachtsmarktleipzig #plagwitzleipzig #flughafenleipzig #thisisleipzig
Variante: 5
#weihnachtsmarktleipzig #baumwollspinnereileipzig #plagwitzleipzig #leipzig #iloveleipzig #halloleipzig
Variante: 6
#thisisleipzig #baumwollspinnereileipzig #iloveleipzig #visitleipzig #ig_leipzig #halloleipzig
Variante: 7
#iloveleipzig #ig_leipzig #halloleipzig #thisisleipzig #leipzig #plagwitzleipzig
Variante: 8
#baumwollspinnereileipzig #plagwitzleipzig #ig_leipzig #spinnereileipzig #flughafenleipzig #weihnachtsmarktleipzig
Variante: 9
#flughafenleipzig #weihnachtsmarktleipzig #visitleipzig #thisisleipzig #baumwollspinnereileipzig #halloleipzig
Variante: 10
#ig_leipzig #plagwitzleipzig #lieblingsleipzig #halloleipzig #iloveleipzig #leipzig

wolke:leipzig,100,ungenau,10,6
Variante: 1
#leipzigbynight #leipzigerzoo #leipzigblogger #iloveleipzig #leipzigliest #leipziglove
Variante: 2
#leipzigerland #leipzigerplatz #leipzigtattoo #leipzigmarkt #leipzigskyline #leipzigläuft
Variante: 3
#leipzigerplatz #leipzigbookfair #leipzigcitygirls #leipzigblogger #leipziglife #leipzigcity
Variante: 4
#leipzigram #ig_leipzig #leipzigerbuchmesse #leipzighalleairport #leipzigerbuchmesse2016 #leipzigskyline
Variante: 5
#meinleipziglobichmir #leipzigartig #leipzigbookfair #leipzigläuft #erfurtleipzighalle #leipziglovee
Variante: 6
#leipzigtrip #leipzigerbuchmesse2015 #leipzigliebe #leipzigzoo #leipzigerbuchmesse2016 #leipzigerplatz12
Variante: 7
#leipzigerland #leipzigerbuchmesse2016 #flughafenleipzighalle #leipzigtravel #plagwitzleipzig #leipzigwest
Variante: 8
#visitleipzig #lieblingsleipzig #leipziglife #leipzigcityviews #leipzigtripp #leipzigtravel
Variante: 9
#leipziglife #erfurtleipzighalle #leipzigtattootermine #leipzig2013 #leipzigzoologicalgarden #leipzigerbuchmesse2015
Variante: 10
#flughafenleipzighalle #plagwitzleipzig #leipziggirl #leipzigerweihnachtsmarkt #leipzigtravel #leipziglovers

Projekt: Instagram-Hashtagdatenbank, Datenbanküberblick

Der folgende Datenbankauszug lässt sich über die freigeschaltete EMail-Schnittstelle mit Hilfe des Befehls „überblick“ abholen.

Unique-Tags: 57510
Anzahl: erfasste Tags:509918
Anzahl: Abfragepunkte:3754
Anzahl: Kategorien:55
Anzahl: Prüfungen:11
Letztes Prüfdatum: 13.11.2016

Zeitstempel – Überblick: 13.11.2016 15:11:47

Erklärungen zu den Angaben:
„Unique-Tags“ beschreibt die erfassten Einzeltags.
„Anzahl: erfasste Tags“ beschreibt die Einzeltags inklusive deren Entwicklungen über die Prüfzeiträume.
„Anzahl: Abfragepunkte“ beschreibt die Anzahl der Suchabfragen an den Tagsearch-API-Endpoint.
„Anzahl: Kategorien“ beschreibt die Kategorien, welche die Abfragepunkte einordnen (Sport, Essen & Trinken, Mode, etc.).
„Anzahl: Prüfungen“ beschreibt die durchgeführten Abfragen der an den Tagsearch-API-Endpoint bzgl. aller Kategorien.
„Letztes Prüfdatum“ beschreibt das Datum der letzten durchgeführten Prüfung.
„Zeitstempel – Überblick“ beschreibt den Zeitstempel des generierten Datenbanküberblicks

[Updatenotiz] Instagrammonitoring, Recherchen und die Hashtags

Nach einigen Diskussionen rund um die Freigabefunktionen der Datensätze, sind wir intern endlich zu einem Resultat gekommen.

Die Monitoringanwendung wird um eine eMail-basierte Schnittstelle erweitert. Dies sieht so aus:

– Freigabe der „berechtigten“ Personen über deren Absender-Mailadresse via Datenbankeintrag im System
– eventuell: Einführung eines Quota-Systems (XYZ-Abfragen je Person …)
– Abfrageschema: Subject => Abfragebefehl, Body => Inhalte

Über die Aufbereitungen der Resultate werden wir intern und in Absprache mit den Kund_innen noch intensiv diskutieren.
Ich werde die Entwicklung der Abfrageschemata und die entsprechenden Befehle hier dokumentieren.

Updatenotiz – Instagramanalyse, Hashtags & Co.

Nach der Organisation der Datenbank – ich verwende übrigens „SQLite“ – haben wir uns intern zu einer Erweiterung des Analysesystems entschieden. Ein entsprechendes Update wird im Laufe der aktuellen Arbeitswoche ausgerollt und es umfasst dann:

(1) Instagram-Account-Beobachtung
– thematische Erfassung von Accounts mit schwachem Bezug zu „Influencermarketing“
– Erfassung der Grunddaten (Profil, Statement, Anzahl: Posts | Abos | Fans)
– EVENTUELL: komplettes Screening der Feeds inkl. der Beitragsauswertung nach Likes und Comments

(2) Reporting, Abfragen und das Gewinnen von Erkenntnissen aus den Datensätzen
– Orientierung an der alten Webversion
– Ausgabe: Themenwolken, je nach Abfragemodus (Wortbestandteil, genaues Wort, Zusammenhang mit bestimmten Häufungen)
– Diagramme => Häufungsentwicklungen
– Diagramme => Aufsummierung der erfassten Tags zu den Themen
– Diagramme => Accountentwicklungen auf basis der Grunddaten

Ich denke derzeit noch über ein geeignetes Modell der Abfrageübermittlung nach. Da das System hier auf einem lokalem Rechner mit Internetzugang läuft, werde ich mit hoher Wahrscheinlichkeit die Abfragen und Rückgaben der Ergebnisse via eMail einprogrammieren.

Datenbankexport des Projektes „Hashtagdatenbank“

Das Online-Hashtagprojekt wird heute geschlossen und Ihr könnt den Datenbankexport (Stand: Juni – 2016) hier:
Download: Datenbankexport (ZIP, JSON) herunter laden.

Zur Struktur und den Inhalten der Datei:
(1) id => Eintrag-ID aus der Ursprungsdatenbank
(2) tag => Erfasster Hashtag
(3) haeufung => Erfasste Häufung des Tags
(4) id_einst => kann ignoriert werden
(5) datum => Tag der Tag- und Häufungserfassung
(6) prjid => Projektbezug aus der Ursprungsdatenbank, kann ignoriert werden
(7) status => kann ignoriert werden
(8) wochentag => Umgerechneter Wochentag aus „datum“

Updatenotiz zum Projekt „Instagram-Hashtag-Datenbank“

Nach einigen interessanten Diskussionen und Beobachtungen entschieden wir uns zu einem Systemwechsel.

Dies bedeutet:
– die Scripte und die Datenbanken werden zeitnah vom Server gelöscht
– die Reichweitendaten (Zeitraum: Sommer – 2015 bis Sommer 2016) werden archiviert und in das DB-Management eine Windows-Anwendung übertragen
– Reichweitenprüfzeiträume werden auf mindestens 15 Minuten getaktet

Durch den Übertrag auf eine Windows-Anwendung werden vor allem tiefergehende Interpretationsmöglichkeiten zu den Tags, den Themenwelten und den Medienhäufungen // Reichweiten möglich.
Ich werde mich bei passender Gelegenheit auf diesem Blog zu den Reports äußern und ggf. Beispieldatensätze veröffentlichen.

Postzeitpunkte bei Instagram

In irgendeinem angeblichen Profiforum für „Socialmedia“ tauchte neulich wieder einmal diese typische und abgeschrieben wirkende These von speziellen Postzeiträumen auf. Diese beinhaltet vor allem die Antwort auf die Frage, wann in den Sozialen Medien die Aktivität „Posten“ denn überhaupt Sinn machen würde. Die Inhalte der Diskussion drehten sich vor allem um eine dieser Infografiken und die Tatsache, dass besagte Infografik von einem der bekannten Promis der Szene „Influencermarketing“ erfunden und publiziert wurde. Auf mein Nachfragen zu der Datengrundlage, zu den Studien und natürlich auch zu klaren, nachvollziehbaren und belastbaren Praxisbeispielen erklärte mir der anwesende „Experte“, dass man hier nicht weiter diskutieren möchte, weil die Infografik eben von DEM Experten gestaltet wurde.
Nun ist diese – fast schon klassische – Argumentationslinie für mich so unfassbar unlogisch, dass mich heute die Muse küsste und das Ergebnis ist die Skizzierung der folgenden Monitoringstrategie.

Ich gehe hierbei von den folgenden Annahmen aus:
(1) Der sinnvolle Postzeitpunkt ist abhängig von der Aktivität der Accounts.
(2) Der sinnvolle Postzeitpunkt ist abhängig von der Aktivität der Accounts zu den anvisierten Themen.
(3) Der sinnvolle Postzeitpunkt ist abhängig von der Aktivität der Accounts und der Annahme (Likes, Comments, etc.) der Fanbase des Accounts.

Wenn diese drei Gedankengänge in eine konkrete Prozedur übertragen werden müssen, kann ich mir das folgende Schema vorstellen:

for … to … do
begin
gettags(suchwort1|suchwort2|suchwortx);
=> uebertrag_db;
getmedia_recent(suchwort1|suchwort2|suchwortx);
=> uebertrag_db;
warte => zeiteinheit
end

Überblick zu den skizzierten Funktionen:
(1) gettags
Hier bietet sich dieser Endpoint an: https://api.instagram.com/v1/tags/{tag-name}?access_token=ACCESS-TOKEN. Dieser liefert im Ergebnis eine Zahl aus, welche die aktuelle Medienhäufung zu dem übergebenen Tag abbildet. Verändert sich diese Zahl, deutet das darauf hin, dass eine bestimmte und auch nutzbare Aktivität oder ein Trend ablesbar sein KANN.

(2) getmedia_recent
Der interessante Endpoint für diese Funktion ist: https://api.instagram.com/v1/tags/{tag-name}/media/recent?access_token=ACCESS-TOKEN und hier werden die Grunddaten der gefundenen Posts ausgegeben. Hierunter versteht man bei Instagram interessante Sachen wie bspw. der konkrete Zeitstempel (also: der Postzeitpunkt) und Aktivitätsindikatoren wie Likes und Comments.

Jetzt bleibt natürlich die Frage, was man mit den erhobenen Daten im Detail anstellen kann.
Nunja: Die aus „gettags“ ausgelesenen Medienhäufungen erlauben die Sichtung von Schwankungen je Beobachtungszeitraum und können so erklären, zu welchem konkreten Tageszeitpunkt besonders viele Menschen bei Instagram eigenständig Fotos posten. Natürlich könnte man hier annehmen, dass besonders viele Spammer und Selbstdarsteller aktiv sind und bei diesem Problem rate ich natürlich zu einer Gegenprobe auf eine ergänzende Datenquelle. Diese wird durch die Abfrage „getmedia_recent“ realisiert und genau hier kommen die Aktivitätsindikatoren „Comments“ und „Likes“ ins Beobachtungsspiel. Diese Zahlen werden entsprechend gespeichert und liefern durch eventuell sichtbare Schwankungen die Grundlage für weitere Interpretationen und Strategien rund um die Identifikation des geeigneten Postzeitpunktes.

Abschliessend stellt sich eine Frage: „Wozu braucht man diesen komischen Zeitraum oder Zeitpunkt?“ und wir haben das Thema mehrfach intern oder mit den Kund_innen durchdiskutiert. Natürlich ist die Erfassung der o.g. Daten durchaus interessant, wir stellen jedoch immer wieder bei der Accountpflege und Accountpromotion fest, dass die Zielgruppen zu völlig verschiedenen und nicht kalkulierbaren Zeitpunkten aktiv werden, Fans werden, Liken oder auch Kommentare absetzen. Eine konkrete Ausrichtung von Postaktivitäten auf vermutete sinnvolle Zeitpunkte wird von uns im Moment als nicht zielführend betrachtet und eigentlich ist lediglich das zeitpunktbasierte „Liken“ interessant. Ich kann mir allerdings durchaus vorstellen, dass ich unseren Instagram-Bot um eine tiefergehende Recherchefunktion zu der Problematik erweitere und die gewonnenen Datensätze in geeigneter Form an Interessierte weiter gebe.