Datenfreigabe 3_3: Hashtagdatenbank (Quelle: Instagram – API)

URL: https://www.pontipix.de/datenbank_downloads/hashtagdb_main.zip 

(Hinweis: gepackt ca. 13GB, entpackt ca. 40GB)

Die DB-Tabelle beinhaltet folgende Spalten:

ID, Tag (Hashtag), Haeufung, Datum

Zur Erläuterung:

ID und Tag / Hashtag sind selbsterklärend. Die Häufung ist die ausgelesene Gesamtanzahl aller Postings unterhalb des Hashtags zum jeweiligen Datum. 

#1 Basisabfragen

(a) Abfrage -> Anzahl: Datensätze

select count(*) from tags;

Ergebnis: 949.781.647

(b) Abfrage -> Anzahl: Datensätze / 2016

select count(*) from tags where datum like ‚%.2016%‘;

Ergebnis: 33.876.572

(c) Abfrage -> Alle Zeitstempel

select distinct datum from tags;

Ergebnis: 423, verteilt auf 2016, 2017, 2018

#2 Inhaltliche Abfragen

(a) Substrings

select * from tags where tag like ‚%leipzig%‘;

(b) Strings

select * from tags where tag = ‚berlin‘;

Für das Auslesen u. ggf. Interpretieren benötigt man eine geeignete Software (SQLite-Studio, Knime etc.). Die Datensätze sind aus 2016 bis 2018 und dienten während der Erhebung für Contentmarketingrecherchen und andere Aufgaben.

Analysesoftware für die Hashtagdatenbank, erste Screenshots

Nachfolgend die ersten Screenshots aus der Versions 0.3Beta.

Funktionsliste und ToDo für die Version 0.4Beta:
– Abschaltung der „Einzelaufnahme“ und Übertrag der Funktionen auf die jeweils gewählte Monatsdatenbank
– Häufungsentwicklungen: Wechsel vom 2-Tagmodell auf Liste mit wahlweise Vergleichsfunktion via Diagram
– Gestaltungsmodul für die Diagramme: Farben, Fonts etc.

Projekt: Instagram-Hashtagdatenbank, Datenbankupdate und weitere Pläne

Die angelegte Datenbank hat nun den folgenden Umfang:

Datenbanküberblick:
Unique-Tags:556022
Anzahl: Tagdatensätze:1579353
Anzahl: Abfragepunkte:28818
Anzahl: Kategorien:117
Letztes Prüfdatum: 18.11.2016

Die hinterlegten Kategorien und Abfragepunkte decken derzeit relativ stark die meisten erfassbaren Themen des Alltags ab und ich werde die finale Version auf ein Volumen von ~3-5 Mio Unique-Tags erweitern.

Neben den realisierten Abfragefunktionen (Tagliste, Tagwolke) sind die folgenden Erweiterungen geplant:

(1) Detailabfragen nach Häufung
– Tagliste und Wolke inklusive der tagesaktuellen Häufung
– Erweiterung der Wolken um Durchschnittshäufungen
(2) Wortpaarprüfungen
– Ausgabe (allgemein, inkl. Häufungen) nach Wortzusammensetzungen (weihnachten+geschenk, geburtstag+geschen, usw.)
– Formate: Taglisten und Tagwolken
(3) Häufungsentwicklungen
– Einzelabfragen und Wortpaare
(4) Textanalysen
– Gegenproben von Texten auf die Datenbank
– Ausgabe der Häufungen
– Ausgabe der durchschnittlichen Häufungen
– Ausgabe der gefundenen Tags als Promovorschlag für die Socialmedia
(5) Alertsystem, Triggersystem
– Infosystem zu geänderten Häufungen
– Infosystem zu „neuen“ Tags
– Infosystem zu „neuen“ Wortpaaren
– Alerts: täglich, wöchentlich etc.

Wir diskutieren und analysieren derzeit intern noch diverse Datenfreigabemöglichkeiten neben der bekannten EMail-Schnittstelle. Im Moment sind die folgenden Optionen bei uns im Gespräch:
(a) Datenauszüge in den Formaten: XLS, JSON, SQL, CSV
(b) Reportings analog zu bspw. XOVI und andere Datendienstleister (PDF)

Projekt: Instagram-Hashtagdatenbank, Abfrage von Tagwolken

Die Abfragelogik für das Generieren dieser Hashtagwolken hat das folgende Schema:

wolke:[term],[mindesthäufung],[modus],[varianten],[limit]

Erklärungen zu den Variablen:
[term] beschreibt den gesuchten Begriff
[mindesthäufung] beschreibt, die Mindesthäufung der auszugebenden Wolkenelementen (=>Zahl)
[modus] beschreibt die Ausgabegenauigkeit
[varianten] beschreibt die Anzahl der auszugebenden Wolkenvarianten (=>Zahl)
[limit] beschreibt das Maximalvolumen der auszugebenden Wolkenelementen (=>Zahl)

Aktuelle Möglichkeiten von [modus] sind „ungenau“ (Term befindet sich irgendwo in den Zeichenketten) , „anfang“ (Term befindet sich am Anfang der Zeichenketten) und „ende“ (Term befindet sich am Ende der Zeichenketten).

Um nun an die gewünschten Ergebnisse zu gelangen, werden die zusammengesetzten Befehlszeilen via EMail-Betreff an die System-Adresse geschickt. Ich bitte hier zu beachten, dass diese „System-Adresse“ ausschließlich nach Rücksprache mit Anne oder mir freigegeben wird.

Beispiele sind:
wolke:leipzig,100,anfang,10,6
Variante: 1
#leipzighalle #leipzigleben #leipziglove #leipziggram #leipzigerbuchmesse2014 #leipzigtattoo
Variante: 2
#leipzigerbuchmesse2014 #leipzig #leipzigtravel #leipzigblogger #leipzigzoo #leipzig_downtown
Variante: 3
#leipziggay #leipzig_city #leipzigerbuchmesse2015 #leipzigartig #leipzigerleben #leipzigcitygirl
Variante: 4
#leipziggram #leipzigerland #leipzigtattooartist #leipzigerbuchmesse2015 #leipzigtravel #leipzigart
Variante: 5
#leipzigerland #leipziglovers #leipziggoesusa #leipzigart #leipziggram #leipzig_deine
Variante: 6
#leipzighalle #leipzigerbuchmesse2015 #leipzigerzoo #leipzigram #leipzig2013 #leipzigliebe
Variante: 7
#leipzigmarkt #leipzigtattooartist #leipzigcity #leipzigcityviews #leipzigtravel #leipzigram
Variante: 8
#leipzigerland #leipzig_deine #leipzigtattoo #leipzigerbuchmesse2016 #leipziglovee #leipzig2014
Variante: 9
#leipzig2013 #leipzigerbuchmesse2016 #leipzigerleben #leipziglove #leipzigerbuchmesse2015 #leipzig
Variante: 10
#leipzigerstr #leipziglife #leipzigtattooartist #leipzigarena #leipziger #leipziggermany

wolke:leipzig,100,ende,10,6
Variante: 1
#plagwitzleipzig #flughafenleipzig #leipzig #baumwollspinnereileipzig #visitleipzig #halloleipzig
Variante: 2
#iloveleipzig #lieblingsleipzig #ig_leipzig #thisisleipzig #leipzig #spinnereileipzig
Variante: 3
#weihnachtsmarktleipzig #spinnereileipzig #visitleipzig #leipzig #baumwollspinnereileipzig #thisisleipzig
Variante: 4
#visitleipzig #spinnereileipzig #weihnachtsmarktleipzig #plagwitzleipzig #flughafenleipzig #thisisleipzig
Variante: 5
#weihnachtsmarktleipzig #baumwollspinnereileipzig #plagwitzleipzig #leipzig #iloveleipzig #halloleipzig
Variante: 6
#thisisleipzig #baumwollspinnereileipzig #iloveleipzig #visitleipzig #ig_leipzig #halloleipzig
Variante: 7
#iloveleipzig #ig_leipzig #halloleipzig #thisisleipzig #leipzig #plagwitzleipzig
Variante: 8
#baumwollspinnereileipzig #plagwitzleipzig #ig_leipzig #spinnereileipzig #flughafenleipzig #weihnachtsmarktleipzig
Variante: 9
#flughafenleipzig #weihnachtsmarktleipzig #visitleipzig #thisisleipzig #baumwollspinnereileipzig #halloleipzig
Variante: 10
#ig_leipzig #plagwitzleipzig #lieblingsleipzig #halloleipzig #iloveleipzig #leipzig

wolke:leipzig,100,ungenau,10,6
Variante: 1
#leipzigbynight #leipzigerzoo #leipzigblogger #iloveleipzig #leipzigliest #leipziglove
Variante: 2
#leipzigerland #leipzigerplatz #leipzigtattoo #leipzigmarkt #leipzigskyline #leipzigläuft
Variante: 3
#leipzigerplatz #leipzigbookfair #leipzigcitygirls #leipzigblogger #leipziglife #leipzigcity
Variante: 4
#leipzigram #ig_leipzig #leipzigerbuchmesse #leipzighalleairport #leipzigerbuchmesse2016 #leipzigskyline
Variante: 5
#meinleipziglobichmir #leipzigartig #leipzigbookfair #leipzigläuft #erfurtleipzighalle #leipziglovee
Variante: 6
#leipzigtrip #leipzigerbuchmesse2015 #leipzigliebe #leipzigzoo #leipzigerbuchmesse2016 #leipzigerplatz12
Variante: 7
#leipzigerland #leipzigerbuchmesse2016 #flughafenleipzighalle #leipzigtravel #plagwitzleipzig #leipzigwest
Variante: 8
#visitleipzig #lieblingsleipzig #leipziglife #leipzigcityviews #leipzigtripp #leipzigtravel
Variante: 9
#leipziglife #erfurtleipzighalle #leipzigtattootermine #leipzig2013 #leipzigzoologicalgarden #leipzigerbuchmesse2015
Variante: 10
#flughafenleipzighalle #plagwitzleipzig #leipziggirl #leipzigerweihnachtsmarkt #leipzigtravel #leipziglovers

Projekt: Instagram-Hashtagdatenbank, Datenbanküberblick

Der folgende Datenbankauszug lässt sich über die freigeschaltete EMail-Schnittstelle mit Hilfe des Befehls „überblick“ abholen.

Unique-Tags: 57510
Anzahl: erfasste Tags:509918
Anzahl: Abfragepunkte:3754
Anzahl: Kategorien:55
Anzahl: Prüfungen:11
Letztes Prüfdatum: 13.11.2016

Zeitstempel – Überblick: 13.11.2016 15:11:47

Erklärungen zu den Angaben:
„Unique-Tags“ beschreibt die erfassten Einzeltags.
„Anzahl: erfasste Tags“ beschreibt die Einzeltags inklusive deren Entwicklungen über die Prüfzeiträume.
„Anzahl: Abfragepunkte“ beschreibt die Anzahl der Suchabfragen an den Tagsearch-API-Endpoint.
„Anzahl: Kategorien“ beschreibt die Kategorien, welche die Abfragepunkte einordnen (Sport, Essen & Trinken, Mode, etc.).
„Anzahl: Prüfungen“ beschreibt die durchgeführten Abfragen der an den Tagsearch-API-Endpoint bzgl. aller Kategorien.
„Letztes Prüfdatum“ beschreibt das Datum der letzten durchgeführten Prüfung.
„Zeitstempel – Überblick“ beschreibt den Zeitstempel des generierten Datenbanküberblicks

Datenbankexport des Projektes „Hashtagdatenbank“

Das Online-Hashtagprojekt wird heute geschlossen und Ihr könnt den Datenbankexport (Stand: Juni – 2016) hier:
Download: Datenbankexport (ZIP, JSON) herunter laden.

Zur Struktur und den Inhalten der Datei:
(1) id => Eintrag-ID aus der Ursprungsdatenbank
(2) tag => Erfasster Hashtag
(3) haeufung => Erfasste Häufung des Tags
(4) id_einst => kann ignoriert werden
(5) datum => Tag der Tag- und Häufungserfassung
(6) prjid => Projektbezug aus der Ursprungsdatenbank, kann ignoriert werden
(7) status => kann ignoriert werden
(8) wochentag => Umgerechneter Wochentag aus „datum“