Mini-„Recap“ zur OTMR2019

Am 11. 10. besprach ich mit interessierten Teilnehmer_innen einige Aspekte der Arbeiten an den Datenbanksystemen rund um „InstaLoc2.0“.

Die Veranstaltung wurde von der sympathischen Kanzlei „Spirit Legal“ organisiert und meine anfängliche Skepsis (Inhalte, hoher Verkaufsdruck) wurde durch diverse Vorabgespräche und die Speakerliste beseitigt.

Aber nun zu den Eindrücken.

Die Veranstaltung startete mit einer Keynote von Glacier Kwong und hier wurde das interessierte Publikum über die aktuelle Situation in HongKong und Überwachungstendenzen seitens der staatlichen Obrigkeit(en) und Konzernen via Daten/BigData informiert. Obwohl die dargebotenen Informationen für mich (privat+geschäftlich) nicht neu waren, passte diese Keynote sehr gut. Der Grund ist: man muss permanent auch in der professionellen Benutzung und Verwertung der Plattformen auf die Gefahren des Mißbrauchs hinweisen.

Wegen meinem Interesse an u.a. konkreten Einsatzszenarien der Ergebnisse aus dem Feld der datengetriebenen Marktforschung schaute ich mir die Session von Petra Lukaschewski und Michael Benz an.

Michael Benz stellte in einem ca. 30 Minuten-Slot die Funktionsweise(n) und Logiken von „Whyapply“ vor. Es geht hierbei um eine besondere Form der Mitarbeiter_innen-Akquise via Einholen von groben Projektideen zwecks Vorabsichtung potentiell interessanter Köpfe. Soweit ich das System verstanden habe, veröffentlichen pot. Arbeitgeber_innen bei Whyapply eine besondere Form der Wettbewerbe um Ideen zur Lösung aktueller (Mini)probleme.

Petra Lukaschewski klärte das interessierte Publikum zum nachhaltigen Teamaufbau auf. Mich faszinierte hier, dass offensichtlich ein enormer Nachholebedarf beim Management konkreter Arbeits+Gehaltsverhandlungen existiert und die Gesprächspartner_innen gerade auch im Kampf um die besten Köpfe (offensichtlich) externe Hilfe zwingend notwendig eingekauft werden muss.

Ganz kurz schaute ich in den Vortrag von Dr. Jonas Kahl und Thomas Busch rein. Beide sprachen erstaunlich praxisnah über die Arbeit am Problem der Sperr- u. Löschpraxis von u.a. Tweets u. Twitteraccounts. Mir wurden hier einige Beispiele präsentiert und wir diskutierten auch über technische Muster und das Problem, dass engagierte Anwält_innen (leider) wenig Zugang zu uns Nerds haben. Vielleicht ergeben sich hier in den eventuellen Nachgesprächen weitere Kommunikationskanäle?

Fazit:

Wenn ich mir den üblichen Szene/Branche-Veranstaltungskatalog anschaue, sticht die OTMR durch den klaren Bezug auf einen richtigen Austausch von Expertenwissen hervor. Branchentypische Verkaufsgespräche entdeckte ich nicht und ich kann den Besuch dieser Veranstaltung definitiv empfehlen. Zielgruppen wären: Entscheidungsträger_innen aus sämtlichen Marketingsparten, Geschäftsführer_innen mit Bezug u./o. Entscheidungsbedarf rund um die Marketingstrategien und sämtliche Marketingdienstleister_innen inkl. Agenturen.

Ein Engagement bei der OTMR2020 ist für mich aktuell denkbar. :-)

InstaLoc2.0, aktuelle Entwicklungen und erste Länderdarstellungen

Vor ca. 3 Wochen beendete ich den Update von InstaLOC1.0 auf InstaLOC2.0. Dies wurde u.a. notwendig, da Instagram tiefgreifendere API-Änderungen durchgeführt hatte und daher wurden die Scrapingalgorithmen umgestellt.

Im Aufwand steckt natürlich auch ein Vorteil und der ergibt ein Datensatzvolumen von 2 Mio Stück je Arbeitstag Arbeitscomputer.

Folgende Bilder zeigen einige erfasste Länder.

Folgende Bilder zeigen Weltkarten mit Filter auf diverse (Luxus)marken

Seltsame Beobachtungen bei dem Handling der InstaLOC 2.0 Datenbanken (Speicher)

Die Zusammenführungen der Rohdaten via Location-IDs (Facebookcodierung/Instagram) mit den Geodaten aus Openstreetmap entdeckte ich folgendes Problem:

Die Abarbeitungen der Queries müllt mir meine C-Partition zu und verbraucht unlogischen Speicher, obwohl die Arbeiten bspw. auf den Partitionen D, E und F laufen.

Diese Baustelle wurde über den Befehl:

PRAGMA temp_store_directory = ‚f:\‘

gelöst. Interessant ist auch, dass diese Anweisung (via SQLitestudio) die Schreib- und Lesegeschwindigkeiten extrem beschleunigt, sofern der Hauptteil der Arbeiten auf der internen SSD-Platte läuft (ca. 3000MB/Sek.).

Wieder einmal bin ich darüber erstaunt, wieviel man im BIGDATA-Bereich lernen kann. :-)

Finalisierung von InstaLOC 1.0 (Beta) und weitere Datenauszüge

Vor einigen Tagen konnte ich die Datenerfassungsprozedur „InstaLOC 1.0 (BETA)“ finaliseren und mit den Openstreetmapmetadaten zusammen führen (siehe hierzu die Texte aus dem Blog).

Hier nun einige Basisdatenauszüge:

(1) 5000 beliebteste Tagwolken aus Deutschland
Link: https://bit.ly/2GoHgc1
Bit.ly-Statistik: https://bit.ly/2GoHgc1+

(2) 5000 beliebteste Tagwolken aus Bayern
Link: https://bit.ly/2S6mpeX
Bit.ly-Statistik: https://bit.ly/2S6mpeX+

(3) 5000 beliebteste Tagwolken aus Erfurt
Link: https://bit.ly/2UPRzce
Bit.ly-Statistik: https://bit.ly/2UPRzce+

(4) 5000 beliebteste Tagwolken aus Leipzig
Link: https://bit.ly/2QFKmgw
Bit.ly-Statistik: https://bit.ly/2QFKmgw+

(5) 5000 beliebteste Tagwolken aus Sachsen
Link: https://bit.ly/2Bvv8A3
Bit.ly-Statistik: https://bit.ly/2Bvv8A3+

Das Datenformat ist CSV und die Spalten sind: Tagwolke+Likes+Comments+Anzahl->Tags. Die Sortierung ist Likes->absteigend und die Tagzählung wurde mit der Anweisung length(tag) - length(replace(tag, ',', ''))+1 realisiert.

Bei Interesse an weiteren Einblicken freue ich mich auf einen Anruf oder eine eMail.

InstaLOC + Openstreetmap = Zusammenlegung und Erweiterung der Analyseoptionen

Durch die Zusammenführung beider Datenbanken wird eine wechselseitige Analyse auf Basis von

CREATE TABLE locations (
id INTEGER PRIMARY KEY AUTOINCREMENT,
lat STRING,
long STRING,
name STRING,
osm_type STRING,
house_number STRING,
road STRING,
city STRING,
county STRING,
state_district STRING,
state STRING,
postcode STRING,
country STRING,
country_code STRING,
suburb STRING,
building STRING,
ruins STRING,
city_district STRING,
commercial STRING,
museum STRING,
library STRING,
aerodome STRING,
raceway STRING,
hamlet STRING,
hotel STRING,
clothes STRING,
parking STRING,
theatre STRING,
restaurant STRING,
footway STRING,
residental STRING,
supermarket STRING,
attraction STRING,
memorial STRING,
school STRING,
mall STRING,
beach STRING,
place_of_worship STRING,
hairdresser STRING,
stadium STRING,
bank STRING,
viewpoint STRING,
neigbourhood STRING,
university STRING,
car STRING,
zoo STRING,
fuel STRING,
bakery STRING,
bar STRING,
bus_stop STRING,
artwork STRING,
guest_house STRING,
village STRING,
cycleway STRING,
industrial STRING,
town STRING,
retail STRING,
wood STRING,
adress29 STRING,
residential STRING,
locality STRING,
garden STRING,
track STRING,
fast_food STRING,
pharmacy STRING,
picnic_site STRING,
castle STRING,
water STRING,
theme_park STRING,
golf_course STRING,
fort STRING,
car_wash STRING,
chemist STRING,
pedestrian STRING,
books STRING,
clinic STRING,
playground STRING,
community_centre STRING,
travel_agency STRING,
swimming_pool STRING,
sports_centre STRING,
hospital STRING,
florist STRING,
public_building STRING,
arts_centre STRING,
town_hall STRING,
cafe STRING,
pub STRING,
car_rental STRING,
fire_station STRING,
college STRING,
information STRING,
construction STRING,
viewpoint STRING
);

erlaubt. Themenwelten und Zielgruppen lassen sich nun auf Basis von hinterlegten Hotels, Straßen, PLZ, Stadtteilen oder auch Restaurants anstellen.

Projekt InstaLOC, aktueller Datenbestand (Stand: 27.11.2018)

Heute wurde ein Update der InstaLOC-Systeme veranlasst. Die Hauptdatendatei umfasst nun ~40GB mit folgenden Grundzahlen:

(1) Unique Beiträge: 64.000.547
(2) Unique (codierte) Usernames: 14.980.773
(3) Unique Locations: 2.096.459 (vorher: 1.7 Mio)

Eine Besonderheit wird hier von den Tagwolken eingenommen. Diese sind mit der aktuellen Abfragelogik nicht mehr als „Distinct“ in einer annehmbaren Geschwindigkeit auslesbar. Sehr wahrscheinlich werde ich einen Berechnungsdurchlauf in der kommenden Nacht durchführen lassen.

Das Projekt wurde, nach Rückmeldung(en) der vielen Geschäftsfreund_innen und Kund_innen, umkonzeptioniert, so dass externe Datenquellen angedockt werden können. Hier wurde ein spezielles Problem (final) gelöst, welches so beschrieben werden kann:

Die konkrete Bestimmung von Städten auf Basis der Instagramlocationangaben ist teilweise fehlerhaft / nicht möglich.
Die konkrete Bestimmung von Stadtteilen und deren Vergleichbarkeiten innerhalb EINER Stadt ist auf Basis der Instagramlocationangaben nur eingeschränkt möglich.

Die Ausgangslage wurde nun so entschärft:

(a) Export der Locationdaten in Form einer Distinct-Anweisung.
(b) Extrakt der Angaben „lat“, „long“ und „name“ aus dem Datenexport via for-to-do-schleife.
(c) Übergabe von „lat“ und „long“ an die Openstreetmap-API, Extrakt der Resultate und Speichern in eine neue Datenbankdatei.

Für die nachfolgenden Beispiele gilt:
„The Database made available under the Open Database License: http://opendatacommons.org/licenses/odbl/1.0/. Any rights in individual contents of the database are licensed under the Database Contents License: http://opendatacommons.org/licenses/dbcl/1.0/

Der Datenbestand umfasst (jeweils unique):
164.222 Eintragungen / 1.7 Mio
24.185 Stadtteile
221 Länder zu 203 Ländercodes
1630 States (Bundesländer etc.)
1131 State Districts (Bezirke etc.)
9715 County (Gemeinden, Regionen etc.)

Download Beispieldaten, Überblick (PDF)
Länder+Ländercodes
Länder+Ländercode+Aufzählung-Städte/a>
Berlin+Stadtteil+PLZ
Srilanka+Stadt+Stadtteil+PLZ
China+Stadt+Stadtteil+PLZ
Indien+Stadt+Stadtteil+PLZ
BRD+Stadt+Stadtteil+PLZ
USA+Stadt+Stadtteil+PLZ

Da die Abgleichsprozedur noch aktiv geschaltet ist, werden sich die Werte mit sehr hoher Wahrscheinlichkeit verändern. Interessant ist hier die zukünftige Beobachtung der TOP-Länder aus der 2. Beispieldatei.

Die verbleibenden 1.5 Mio Eintragungen werden „sehr wahrscheinlich“ in den nächsten 1 1/2 Wochen komplett abgearbeitet und mit Finalisierung wird das Recherchekonzept um einen weiteren Prüfpunkt erweitert. Folgende Szenarien sind dann „denkbar“

(a) Gezielte Analyse von Stadtteilen auf:
-> Zielgruppen
-> Trends via Kombination aus Tags, Tagwolken, Summe Likes + Comments, Zeitstempel
(b) Vergleich von Stadtteilen
(c) Vergleich von Städten auch auf Stadtteilebene
(d) Querprüfung auf Städte, Länder, Stadtteile etc. bzgl. der generellen Aktivitäten im Medium „Instagram“

Weitere Ideen, Anregungen oder Lust auf Austausch? Gern unter den bekannten Telefonnummern und office(at)pontipix.de

Datenauszugsfreigabe „InstaLOC“ (Stand: 12.11.2018)

Download: http://pontimania.de/_dbdownload/testauszuege.zip

Inhalt sind 3 Exceltabellen:
(a) Testdaten nach der Tagsuche „Urlaub“
(b) Testdaten nach der Locationsuche „Bayern“
(c) Testdaten nach der Locationsuche „Germany“.

Die Tabellen (b) und (c) beziehen sich auf Substrings, welche in der Spalte „Location“ befinden und die Beispieldatensätze haben ein festgelegtes (!) Limit i.H.v. 50.000 Zeilen. Die Dateien haben die Inhalte: Tags, Anzahl Likes + Comments, Locationangaben, Zeitstempel.

Je nach Abfrage und Projekt lassen sich folgende Fragen beantworten:

(a) Wieviele User schreiben in welchem Zeitfenster über den Urlaub an welchen Orten?
(b) Welche Orte werden an Hotspots von welchen Usergruppen besucht und was wird da geschrieben?
(c) Welche User / Usergruppen neigen zur Trendbildung an welchen Orten und / oder zu welchen Tags (Themen, Themenwelten)?
(d) Welche Orte werden zu welchen Zeitfenstern|Jahreszeiten|Monaten besonders stark frequentiert und was wird da geschrieben?
(e) An welchen Orten machen lokale Marketingkampagnen Sinn? (gemessen am Kommunikationsvolumen, Inhalte)
(f) Welche Emotionen werden mit Orten + Trends verbunden? (gemessen an Tags, Uservolumen, Sprachfarbe, Piktogramme und Fotofilter)
(g) Was wird mit Produkten vebrinden? (gemessen an Tags neben den Branchentags, Locations)
(h) Existiert eine Zielgruppe für mein Produkt? (gem. an Location, Tags, Taggestaltung, Zeitstempel)?
(i) Wo befindet sich meine Zielgruppe? (Query: Tag|Tagkombination auf Location)

Konkretere Antworten auf diese und weitere Fragen beantworte ich gern nach Projektsichtung und Teambesprechungen. Kontakt: office(at)pontipix.de oder via den üblichen Kanälen (siehe Impressum).

Statusupdate. InstaLOC: Zusammenführung und Bereinigung (Duplicate!) der Datenbanken

Heute wurde der vorhandene Datenbestand aus den einzelnen Dateien zusammengeführt und entsprechend gespeichert.
Der Befehl für den technischen Vorgang ist:

INSERT INTO instaloc_main.locations(url,tag,likes,comments,erstellzeit,post_id,username,location,filter,pruefzeit) select url,tag,likes,comments,erstellzeit,post_id,username,location,filter,pruefzeit FROM _main_10112018.locations group by url;

Die Datenbank hat folgende Daten

Speicher: ca 30GB

Analysierbar sind:
49.676.379 Beiträge
36.574.115 Tagwolken
12.705.076 (codierte) Nutzer
1.794.336 Loations
23.358.582 Zeitstempel

Etablierung der Zielgruppenforschung im Instagramumfeld und erste Zahlen aus der praktischen Anwendung

Mit Etablierung der InstaLOC-Datenbanken und den angedockten Zielgruppen- und Marktanalysen wurden zeitgleich diverse Tests mit bestehenden Accounts durchgeführt.
Diese Szenarien sollten klären:

(a) Followerwachstum
(b) Interaktionen auf den Medien, Videos, Stories
(c) Interaktionsqualitäten und Nachhaltigkeiten

Vor ca. 4 Wochen wurden 2 Testaccounts ausgewählt, Gespräche geführt und an das System angedockt.

Die beobachteten Effekte sind:
(a) Followerwachstum (gerundet)

Account: (A)
Thema: Kunst, Art, Fotografie
13.000 Follower -> 26.000 Follower -> 40.000 Follower

Account: (B)
Thema: Coaching/Consulting
1.500 Follower -> 17.000 Follower -> 20.000 Follower

(b) Interaktionen auf die Medien

Account: (A)
Thema: Kunst, Art, Fotografie
Interaktionsspannbreite, Bilder – Likes: 130 bis ~3.000

Interaktionsspannbreite, Videos – Likes + Views

Account: (B)
Thema: Coaching/Consulting
Interaktionsspannbreite, Bilder – Likes: ~350 – ~800

Account (A) entwickelt sich erstaunlich gut und es sind ca. 200-260 dauerhafte Besucher_innen auf die verlinkte Seite identifizierbar. Ebenfalls beobachte ich starke Kommunikation via „DM“, eMail und auch Telefon aus den Spektren der angesprochenen Zielgruppen (hier: Galerien, Fotograf_innen, Kunst allgem.).
Account (B) zeigt eine starke Etablierung der zielgruppenorientierten Kommentare und eine Einpendelung der Interaktionen auf ~800 / Medium. Erste Anfragen via DM und eMails sind ebenfalls nachvollziehbar.

Nach Zahlensichtung, Ergebnisanalysen und diverse Brainstormings wurden letzte Woche weitere Accounts aus dem Bereich „Handel“ und „Home & Living“ in die Strategie überführt. Hier sind Effekte analog zu Account (A) und Account (B) sichtbar.

Interesse an einer Partnerschaft? Fragen?
Gerne unter office(at)pontipix.de
Weitere Informationen unter: https://www.pontimania.de/

Themenweltendatenbank „Tourismus & Urlaub“: aktueller Bestand

Die Datenbank (SQLite-Datei) hat nun folgende Kennzahlen:

Speichervolumen: ~13GB
Beiträge (Unique): 18.411.849
Tagwolken (Unique): 17.490.694
(codierte) Nutzer_innen: 6.180.654
Locations (Unique): 1.037.477
Zeitstempel (Unique): 9.165.025

Mit Stand 27.10.2018 wurden 120.000 von 176721 Abfragen über die API innerhalb von ca 2 Wochen mit einem täglichen Scrapingzeitraum i.H.v. 11Stunden durchgeführt.

Ich rechne mit einem Abschluss der Themenwelten-Erfassungsfunktionen zum kommenden Mittwoch (31.10.2018) und im nächsten Turnus widme ich mit den Themen „Kunst“, „Kultur“, „Mode“, „Lifestyle“. Hier rechne ich mit ~300.000 Abfragen.