Datenbanken, Bigdata und die Aufbereitung der Abfragen

Nach Durchsicht der aktuellen Datenbasis aus den Projekten „HashtagDB“ und „InstaLOC“ musste ich etwas nachdenken und mir eine Lösung zur Aufbereitung der extremen Datenfülle überlegen. Das Problem ist, dass zwar via SQLite-Studio und der integrierten SQL-basierten Abfragemöglichkeiten gute Abfrage- und Auswertungsmöglichkeiten vorliegen, jedoch lassen sich keinerlei Gewichtungsprozeduren hier realisieren. Ein angedachter Lösungsweg war die Anbindung von Excel via der bereitgestellten API. Trotz (technischer) Realisierbarkeit tauchten auf verschiedenen Rechnern immer wieder Ressourcenprobleme auf. Ich entschied mich heute (final) für eine 3-Stufenlösung:

(1) Vorgewichtung
Die Vorgewichtung erfolgt via SQLite-Studio in Form der – hier dokumentierten – Abfragen. Wir, oder ein geschulter Externer, setzen entsprechende Metaebenenanfragen an die Datenbanken ab und extrahieren die Ergebnisse im Standard-CSV-Format.
Metaebenenanfragen können sein:
(a) Gib mir alle Tagwolken aus dem Zeifenster 08-2018 aus, die mind. zum Inhalt „urlaub“ haben und in dem Raum Leipzig gepostet wurden.
(b) Zeige mir die beliebtesten Postings aus dem Raum Berlin mit Inhalt „Schmuck“.

(2) Nachgewichtung
Die Nachgewichtung erfolgt hier mit Hilfe einer kleinen Software. Diese importiert die Ergebnisse aus der „Vorgewichtung“ und liefert über geeignete Berechnungsfunktionen Interpretationshinweise zu:
(a) Welche Beziehungen existieren zwischen den Hashtags?
(b) Welche Beziehungen existieren zwischen den Tags, den Locations und den aktiven Accounts?
(c) Wer gewichtet Trends in welchem Zeitfenster, an welcher Location?

(3) Interpretation und Reporting
Die Nachgewichtungssoftware exportiert die generierten Gewichtungsergebnisse in ein geeignetes Standarformat, welches von Openoffice und Excel akzeptiert wird. Die grafische Auswertung und die Aufbereitung für nachgelagerte Beratungsgespräche und Interpretationen im Team / bei den Kund_innen findet genau in diesem Umfeld statt.

Privat vertrete ich den Anspruch an die absolute Transparenz bzgl. der Rohdaten / der Datensätze. Ich habe aber auch, nach verdammt vielen Diskussionen, verstanden, dass 4-20GB große Datensätze von Geschäftsfreund_innen und Kund_innen nicht behandelbar sind. Daher der skizzierte Kompromis der Aufbereitung via Excel, Powerpoint & Co. und Quercheck auf die gefilterten Daten aus der „Nachgewichtung“.

Anfragen, Hinweise oder Nachfragen gerne via Kommentar, eMail oder Telefon.

Schreibe einen Kommentar