Mini-„Recap“ zur OTMR2019

Am 11. 10. besprach ich mit interessierten Teilnehmer_innen einige Aspekte der Arbeiten an den Datenbanksystemen rund um „InstaLoc2.0“.

Die Veranstaltung wurde von der sympathischen Kanzlei „Spirit Legal“ organisiert und meine anfängliche Skepsis (Inhalte, hoher Verkaufsdruck) wurde durch diverse Vorabgespräche und die Speakerliste beseitigt.

Aber nun zu den Eindrücken.

Die Veranstaltung startete mit einer Keynote von Glacier Kwong und hier wurde das interessierte Publikum über die aktuelle Situation in HongKong und Überwachungstendenzen seitens der staatlichen Obrigkeit(en) und Konzernen via Daten/BigData informiert. Obwohl die dargebotenen Informationen für mich (privat+geschäftlich) nicht neu waren, passte diese Keynote sehr gut. Der Grund ist: man muss permanent auch in der professionellen Benutzung und Verwertung der Plattformen auf die Gefahren des Mißbrauchs hinweisen.

Wegen meinem Interesse an u.a. konkreten Einsatzszenarien der Ergebnisse aus dem Feld der datengetriebenen Marktforschung schaute ich mir die Session von Petra Lukaschewski und Michael Benz an.

Michael Benz stellte in einem ca. 30 Minuten-Slot die Funktionsweise(n) und Logiken von „Whyapply“ vor. Es geht hierbei um eine besondere Form der Mitarbeiter_innen-Akquise via Einholen von groben Projektideen zwecks Vorabsichtung potentiell interessanter Köpfe. Soweit ich das System verstanden habe, veröffentlichen pot. Arbeitgeber_innen bei Whyapply eine besondere Form der Wettbewerbe um Ideen zur Lösung aktueller (Mini)probleme.

Petra Lukaschewski klärte das interessierte Publikum zum nachhaltigen Teamaufbau auf. Mich faszinierte hier, dass offensichtlich ein enormer Nachholebedarf beim Management konkreter Arbeits+Gehaltsverhandlungen existiert und die Gesprächspartner_innen gerade auch im Kampf um die besten Köpfe (offensichtlich) externe Hilfe zwingend notwendig eingekauft werden muss.

Ganz kurz schaute ich in den Vortrag von Dr. Jonas Kahl und Thomas Busch rein. Beide sprachen erstaunlich praxisnah über die Arbeit am Problem der Sperr- u. Löschpraxis von u.a. Tweets u. Twitteraccounts. Mir wurden hier einige Beispiele präsentiert und wir diskutierten auch über technische Muster und das Problem, dass engagierte Anwält_innen (leider) wenig Zugang zu uns Nerds haben. Vielleicht ergeben sich hier in den eventuellen Nachgesprächen weitere Kommunikationskanäle?

Fazit:

Wenn ich mir den üblichen Szene/Branche-Veranstaltungskatalog anschaue, sticht die OTMR durch den klaren Bezug auf einen richtigen Austausch von Expertenwissen hervor. Branchentypische Verkaufsgespräche entdeckte ich nicht und ich kann den Besuch dieser Veranstaltung definitiv empfehlen. Zielgruppen wären: Entscheidungsträger_innen aus sämtlichen Marketingsparten, Geschäftsführer_innen mit Bezug u./o. Entscheidungsbedarf rund um die Marketingstrategien und sämtliche Marketingdienstleister_innen inkl. Agenturen.

Ein Engagement bei der OTMR2020 ist für mich aktuell denkbar. :-)

Instagram scrapen: ohne Token, Teil 2

Diverse Änderungen zwangen mich zur Recherche nach weiteren Endpoints mit inkl. JSON-Export

1. Suche nach Orten

//www.instagram.com/web/search/topsearch/?context=place&query=%22germany%22

2. Suche nach Accounts (öffentliche)

//www.instagram.com/web/search/topsearch/?context=user&query=%22germany%22

3. Suche nach Orten UND Accounts

//www.instagram.com/web/search/topsearch/?context=blended&query=%22germany%22

4. Suche nach Orten, Variante mit Pseudotoken

//www.instagram.com/graphql/query/?query_hash=ac38b90f0f3981c42092016a37c59bf7&variables={%22id%22:%22236942553%22,%22first%22:12,%22after%22:%22XXXXXXXX%22}

Notiz: Query_Hash ggf. gegenprüfen und Alternativen organisieren!

Tensorboard, div. Tutorials (Sammlung)

Basics

How to Use TensorBoard?“ (Grundlagenartikel zum Verständnis der Funktionsweisen)

What is the word embedding in Tensorflow with Tensorboard’s Embedding projector“ (Grundlagenartikel mit einfachen Importfunktionen für den Projector)

Anaconda / Git (allgem. Artikel mit Erklärung zur Installation v. Git auf Anaconda)

gensim2tensorboard (“ Train word embeddings with gensim and visualize them with TensorBoard.“)

TensorFlow and deep learning, without a PhD (Tutorial, recht einfach gehalten)

Tensorboard: Start (Notiz)

An der Stelle muss ich gestehen, dass ich heute zum ersten Mal das Programm gesehen habe und relativ viele unlogische Fehler rund um den Startvorgang sichtbar wurden.

Tensorboard liess sich bei mir via Neuinstallation von Anaconda + Neuinstallation mit „conda install -c conda-forge tensorflow“ reparieren.

Der Start läuft über die CMD-Eingabe „tensorboard –logdir=path/to/log-directory“ und die URL lautet: //localhost:6006/

Tensorflow, Installation unter Windows10 / Anaconda (Notiz)

  1. Download und Installation von „Anaconda“ (Link: //www.anaconda.com/distribution/#download-section )
  2. Ausführen von „Anaconda Prompt“
  3. Befehl 01: conda install -c conda-forge tensorflow

Funktionstest

  1. Ausführen von „Anaconda Prompt“
  2. Befehl -> „python“
  3. Befehl -> „import tensorflow as tf“
  4. Befehl -> „hello = tf.constant(‚hello tensor‘)“
  5. Befehl -> „sess = tf.Session()“
  6. Befehl -> „print(sess.run(hello))“

Wenn keine Fehler sichtbar werden, hat die Installation funktioniert.

Influencermarketing, Versuch einer Dichteanalyse auf Basis der InstaLOC2.0 Datenbanken

Inspiriert von einigen Diskussionen befragte ich die Datenbanken

#werbung -> 4945 Orte (rot)
#anzeige -> 1324 Orte (blau)

Datenbankstand: 13.06.2019 mit Filter auf Jahr 2018 + 01.01-13.06.2019 Filter für die Darstellung: mind. 10 Postings zu den Themen je Locations.

Im Datenbestand befinden 343067 Locations, die mit Deutschland via OSM-Abgleich eindeutig in Verbindung stehen. Es fällt auf, dass sich die Tags / Themen überschneiden u. das sehe ich in den Datensätzen in der Form, dass die Tags gleichzeitig in den Beiträgen genannt werden.

Wegen der starken Überschneidung der Themenwelten fasste ich die Ergebnisse zusammen und komme auf ~800.000 Beiträge von aktuell erfassten 70 Mio Beiträge mit Status „Weltweit“.

Tiefensichtung der Zahlen
Erfasste u. cod. Accounts: 25.061 von 1.538.231 aus Land „DE“

Erfasste Themen/Tags(wolken): 64.667 von 4.463.435 aus Land „DE“

Erfasste unique Bildinhalte: 5328 von 89.113 aus Land „DE“.

Erfasste Zeitstempel(Postings): 75.373 von 5.092.791 aus Land „DE“

Interaktionen

Likes: 21.231.617 von 714.917.463 Comments: 879.852 von 25.176.657

Die Sichtung lässt mich vermuten, dass Influencermarkting zwar eine pragmatische Spielart im Marketingmix ist u. natürlich auch bleibt (viele Indikatoren sprechen dafür …), jedoch dass diese Strategie künstlicher Hype ist. Ich denke in diese Richtung, weil die Kommunikation zu den genannten Themen im Vergleich zum „Grundrauschen“ zwar da ist, aber einen relativ kleinen Teil zeigt.  Als Fazit würde ich Influencermarketing nicht verteufeln, sondern extrem punktgenau die Vor- u. Nachteile der jeweiligen Partnerschaften (Reichweite, provozierte Interaktionen, Ziele) analysieren u. hier auf gar keinen Fall schwammigen Begriffen wie „Erfahrung“, „Authentizität“ vertrauen … denn … es kommt letztendlich auch nur auf die Zahlen an.


InstaLoc2.0, aktuelle Entwicklungen und erste Länderdarstellungen

Vor ca. 3 Wochen beendete ich den Update von InstaLOC1.0 auf InstaLOC2.0. Dies wurde u.a. notwendig, da Instagram tiefgreifendere API-Änderungen durchgeführt hatte und daher wurden die Scrapingalgorithmen umgestellt.

Im Aufwand steckt natürlich auch ein Vorteil und der ergibt ein Datensatzvolumen von 2 Mio Stück je Arbeitstag Arbeitscomputer.

Folgende Bilder zeigen einige erfasste Länder.

Folgende Bilder zeigen Weltkarten mit Filter auf diverse (Luxus)marken

Seltsame Beobachtungen bei dem Handling der InstaLOC 2.0 Datenbanken (Speicher)

Die Zusammenführungen der Rohdaten via Location-IDs (Facebookcodierung/Instagram) mit den Geodaten aus Openstreetmap entdeckte ich folgendes Problem:

Die Abarbeitungen der Queries müllt mir meine C-Partition zu und verbraucht unlogischen Speicher, obwohl die Arbeiten bspw. auf den Partitionen D, E und F laufen.

Diese Baustelle wurde über den Befehl:

PRAGMA temp_store_directory = ‚f:\‘

gelöst. Interessant ist auch, dass diese Anweisung (via SQLitestudio) die Schreib- und Lesegeschwindigkeiten extrem beschleunigt, sofern der Hauptteil der Arbeiten auf der internen SSD-Platte läuft (ca. 3000MB/Sek.).

Wieder einmal bin ich darüber erstaunt, wieviel man im BIGDATA-Bereich lernen kann. :-)

SQLite: Distinct auf mehrere Spalten?

Im Laufe der Arbeiten am Konzept des Projektes „InstaLOC 2.0“ suchte ich nach einer Distinctausgabe über >1 Spalten. Konkret ging es hier um eine nachträgliche Ausgabe von Location-IDs zwecks Nachcrawling kompletter Länder.

Die Abfrage auf die Datenbankdatei „locplain_big.db“ lautet:

select distinct name, lat, long from locations where country_code = 'cn';

„cn“ lässt sich beliebig austauschen.