Tensorboard, div. Tutorials (Sammlung)

Basics

How to Use TensorBoard?“ (Grundlagenartikel zum Verständnis der Funktionsweisen)

What is the word embedding in Tensorflow with Tensorboard’s Embedding projector“ (Grundlagenartikel mit einfachen Importfunktionen für den Projector)

Anaconda / Git (allgem. Artikel mit Erklärung zur Installation v. Git auf Anaconda)

gensim2tensorboard (“ Train word embeddings with gensim and visualize them with TensorBoard.“)

TensorFlow and deep learning, without a PhD (Tutorial, recht einfach gehalten)

Tensorboard: Start (Notiz)

An der Stelle muss ich gestehen, dass ich heute zum ersten Mal das Programm gesehen habe und relativ viele unlogische Fehler rund um den Startvorgang sichtbar wurden.

Tensorboard liess sich bei mir via Neuinstallation von Anaconda + Neuinstallation mit „conda install -c conda-forge tensorflow“ reparieren.

Der Start läuft über die CMD-Eingabe „tensorboard –logdir=path/to/log-directory“ und die URL lautet: //localhost:6006/

Tensorflow, Installation unter Windows10 / Anaconda (Notiz)

  1. Download und Installation von „Anaconda“ (Link: //www.anaconda.com/distribution/#download-section )
  2. Ausführen von „Anaconda Prompt“
  3. Befehl 01: conda install -c conda-forge tensorflow

Funktionstest

  1. Ausführen von „Anaconda Prompt“
  2. Befehl -> „python“
  3. Befehl -> „import tensorflow as tf“
  4. Befehl -> „hello = tf.constant(‚hello tensor‘)“
  5. Befehl -> „sess = tf.Session()“
  6. Befehl -> „print(sess.run(hello))“

Wenn keine Fehler sichtbar werden, hat die Installation funktioniert.

Influencermarketing, Versuch einer Dichteanalyse auf Basis der InstaLOC2.0 Datenbanken

Inspiriert von einigen Diskussionen befragte ich die Datenbanken

#werbung -> 4945 Orte (rot)
#anzeige -> 1324 Orte (blau)

Datenbankstand: 13.06.2019 mit Filter auf Jahr 2018 + 01.01-13.06.2019 Filter für die Darstellung: mind. 10 Postings zu den Themen je Locations.

Im Datenbestand befinden 343067 Locations, die mit Deutschland via OSM-Abgleich eindeutig in Verbindung stehen. Es fällt auf, dass sich die Tags / Themen überschneiden u. das sehe ich in den Datensätzen in der Form, dass die Tags gleichzeitig in den Beiträgen genannt werden.

Wegen der starken Überschneidung der Themenwelten fasste ich die Ergebnisse zusammen und komme auf ~800.000 Beiträge von aktuell erfassten 70 Mio Beiträge mit Status „Weltweit“.

Tiefensichtung der Zahlen
Erfasste u. cod. Accounts: 25.061 von 1.538.231 aus Land „DE“

Erfasste Themen/Tags(wolken): 64.667 von 4.463.435 aus Land „DE“

Erfasste unique Bildinhalte: 5328 von 89.113 aus Land „DE“.

Erfasste Zeitstempel(Postings): 75.373 von 5.092.791 aus Land „DE“

Interaktionen

Likes: 21.231.617 von 714.917.463 Comments: 879.852 von 25.176.657

Die Sichtung lässt mich vermuten, dass Influencermarkting zwar eine pragmatische Spielart im Marketingmix ist u. natürlich auch bleibt (viele Indikatoren sprechen dafür …), jedoch dass diese Strategie künstlicher Hype ist. Ich denke in diese Richtung, weil die Kommunikation zu den genannten Themen im Vergleich zum „Grundrauschen“ zwar da ist, aber einen relativ kleinen Teil zeigt.  Als Fazit würde ich Influencermarketing nicht verteufeln, sondern extrem punktgenau die Vor- u. Nachteile der jeweiligen Partnerschaften (Reichweite, provozierte Interaktionen, Ziele) analysieren u. hier auf gar keinen Fall schwammigen Begriffen wie „Erfahrung“, „Authentizität“ vertrauen … denn … es kommt letztendlich auch nur auf die Zahlen an.


InstaLoc2.0, aktuelle Entwicklungen und erste Länderdarstellungen

Vor ca. 3 Wochen beendete ich den Update von InstaLOC1.0 auf InstaLOC2.0. Dies wurde u.a. notwendig, da Instagram tiefgreifendere API-Änderungen durchgeführt hatte und daher wurden die Scrapingalgorithmen umgestellt.

Im Aufwand steckt natürlich auch ein Vorteil und der ergibt ein Datensatzvolumen von 2 Mio Stück je Arbeitstag Arbeitscomputer.

Folgende Bilder zeigen einige erfasste Länder.

Folgende Bilder zeigen Weltkarten mit Filter auf diverse (Luxus)marken

Seltsame Beobachtungen bei dem Handling der InstaLOC 2.0 Datenbanken (Speicher)

Die Zusammenführungen der Rohdaten via Location-IDs (Facebookcodierung/Instagram) mit den Geodaten aus Openstreetmap entdeckte ich folgendes Problem:

Die Abarbeitungen der Queries müllt mir meine C-Partition zu und verbraucht unlogischen Speicher, obwohl die Arbeiten bspw. auf den Partitionen D, E und F laufen.

Diese Baustelle wurde über den Befehl:

PRAGMA temp_store_directory = ‚f:\‘

gelöst. Interessant ist auch, dass diese Anweisung (via SQLitestudio) die Schreib- und Lesegeschwindigkeiten extrem beschleunigt, sofern der Hauptteil der Arbeiten auf der internen SSD-Platte läuft (ca. 3000MB/Sek.).

Wieder einmal bin ich darüber erstaunt, wieviel man im BIGDATA-Bereich lernen kann. :-)

SQLite: Distinct auf mehrere Spalten?

Im Laufe der Arbeiten am Konzept des Projektes „InstaLOC 2.0“ suchte ich nach einer Distinctausgabe über >1 Spalten. Konkret ging es hier um eine nachträgliche Ausgabe von Location-IDs zwecks Nachcrawling kompletter Länder.

Die Abfrage auf die Datenbankdatei „locplain_big.db“ lautet:

select distinct name, lat, long from locations where country_code = 'cn';

„cn“ lässt sich beliebig austauschen.

InstaLOC. Wechsel der Datenerfassung und Konzepterweiterung

Um die Jahreswende veranlasste ich den angekündigten Wechsel der Datenerfassungstechnologie. Im Zuge dessen fanden konzeptionelle „Brainstormings“ bzgl. einer Abstrahierung sämtlicher Auswertungsansätze statt. Dies bedeutet, dass die Erkenntnisse aus dem Instagramuniversum auf weitere Plattformen und deren offenen Schnittstellen angewendet werden. Beispiele hierfür sind – aktuell – Twitter, Youtube, Pinterest, Tumblr und in bestimmten / eng gefassten Ansätzen Weibo + Facebook.

Interessant(er) geworden sind die Erkenntnisse aus den Zusammenführungen der anonymisierten InstaLOC-Rohdaten mit Openstreetmap. Folgende Datei / Tabelle verdeutlicht den aktuellen Datenbestand auf Basis von ca. 1.4Mio / 2.5 Mio abgeglichenen Geodaten:

Download: Instaloc_ Datenbestand/Statistik (Ergebnisse aus der Prüfung auf eine ca. 60GB umfassende SQLite-DB)

Die Datei beschreibt die Auflistung aller erfassten Länder nach Aufsummierung der codierten User, der Postings und – im experimentellen Status – der Aktiviäten in Form der Aufsummierten Zeitstempel. Hochinteressant ist die Position von Deutschland, was Rückschlüsse auf die Landesrolle im Sinne des Marketings auf der Plattform vermuten lässt.

In den nächsten 2 Wochen werde ich mich tiefergehender mit diversen Datamining- und Datenauswertungsvarianten auseinander setzen und nach Visualisierungsoptionen recherchieren. Die (Teil)fokussierung auf Geodaten erzwingt bspw. die Anbindung an die bekannten Maps-Services (Googlemaps, Openstreetmap etc.).

Gesprächsanfragen bitte an office(at)pontipix.de senden. Freigaben von Informationen und das Zulassen tiefergehender Gespräche werden in einem 4er Team diskutiert.