SQLite, Fehlermeldung: „Arbeitsspeicher voll“

Eine Unterdatenbank des Projektes „InstaLOC2.0“ umfasst aktuell ~30GB und dient tiefergehenden Analysen zu den „produzierten“ Interaktionen bzgl. bestimmter Fragestellungen nach Themen zu Orten.

Hier ist mir bei den entsprechenden Queries die o.g. Fehlermeldung aufgefallen und das lässt sich via

PRAGMA temp_store = 1;

lösen.

14. Juni 2019

Influencermarketing, Versuch einer Dichteanalyse auf Basis der InstaLOC2.0 Datenbanken

Inspiriert von einigen Diskussionen befragte ich die Datenbanken

#werbung -> 4945 Orte (rot)
#anzeige -> 1324 Orte (blau)

Datenbankstand: 13.06.2019 mit Filter auf Jahr 2018 + 01.01-13.06.2019 Filter für die Darstellung: mind. 10 Postings zu den Themen je Locations.

Im Datenbestand befinden 343067 Locations, die mit Deutschland via OSM-Abgleich eindeutig in Verbindung stehen. Es fällt auf, dass sich die Tags / Themen überschneiden u. das sehe ich in den Datensätzen in der Form, dass die Tags gleichzeitig in den Beiträgen genannt werden.

Wegen der starken Überschneidung der Themenwelten fasste ich die Ergebnisse zusammen und komme auf ~800.000 Beiträge von aktuell erfassten 70 Mio Beiträge mit Status „Weltweit“.

Tiefensichtung der Zahlen
Erfasste u. cod. Accounts: 25.061 von 1.538.231 aus Land „DE“

Erfasste Themen/Tags(wolken): 64.667 von 4.463.435 aus Land „DE“

Erfasste unique Bildinhalte: 5328 von 89.113 aus Land „DE“.

Erfasste Zeitstempel(Postings): 75.373 von 5.092.791 aus Land „DE“

Interaktionen

Likes: 21.231.617 von 714.917.463 Comments: 879.852 von 25.176.657

Die Sichtung lässt mich vermuten, dass Influencermarkting zwar eine pragmatische Spielart im Marketingmix ist u. natürlich auch bleibt (viele Indikatoren sprechen dafür …), jedoch dass diese Strategie künstlicher Hype ist. Ich denke in diese Richtung, weil die Kommunikation zu den genannten Themen im Vergleich zum „Grundrauschen“ zwar da ist, aber einen relativ kleinen Teil zeigt. Als Fazit würde ich Influencermarketing nicht verteufeln, sondern extrem punktgenau die Vor- u. Nachteile der jeweiligen Partnerschaften (Reichweite, provozierte Interaktionen, Ziele) analysieren u. hier auf gar keinen Fall schwammigen Begriffen wie „Erfahrung“, „Authentizität“ vertrauen … denn … es kommt letztendlich auch nur auf die Zahlen an.

24. Mai 2019

Seltsame Beobachtungen bei dem Handling der InstaLOC 2.0 Datenbanken (Speicher)

Die Zusammenführungen der Rohdaten via Location-IDs (Facebookcodierung/Instagram) mit den Geodaten aus Openstreetmap entdeckte ich folgendes Problem:

Die Abarbeitungen der Queries müllt mir meine C-Partition zu und verbraucht unlogischen Speicher, obwohl die Arbeiten bspw. auf den Partitionen D, E und F laufen.

Diese Baustelle wurde über den Befehl:

PRAGMA temp_store_directory = ‚f:\‘

gelöst. Interessant ist auch, dass diese Anweisung (via SQLitestudio) die Schreib- und Lesegeschwindigkeiten extrem beschleunigt, sofern der Hauptteil der Arbeiten auf der internen SSD-Platte läuft (ca. 3000MB/Sek.).

Wieder einmal bin ich darüber erstaunt, wieviel man im BIGDATA-Bereich lernen kann. :-)

7. Februar 2019

SQLite: Distinct auf mehrere Spalten?

Im Laufe der Arbeiten am Konzept des Projektes „InstaLOC 2.0“ suchte ich nach einer Distinctausgabe über >1 Spalten. Konkret ging es hier um eine nachträgliche Ausgabe von Location-IDs zwecks Nachcrawling kompletter Länder.

Die Abfrage auf die Datenbankdatei „locplain_big.db“ lautet:

select distinct name, lat, long from locations where country_code = 'cn';

„cn“ lässt sich beliebig austauschen.

11. Januar 2019

InstaLOC. Wechsel der Datenerfassung und Konzepterweiterung

Um die Jahreswende veranlasste ich den angekündigten Wechsel der Datenerfassungstechnologie. Im Zuge dessen fanden konzeptionelle „Brainstormings“ bzgl. einer Abstrahierung sämtlicher Auswertungsansätze statt. Dies bedeutet, dass die Erkenntnisse aus dem Instagramuniversum auf weitere Plattformen und deren offenen Schnittstellen angewendet werden. Beispiele hierfür sind – aktuell – Twitter, Youtube, Pinterest, Tumblr und in bestimmten / eng gefassten Ansätzen Weibo + Facebook.

Interessant(er) geworden sind die Erkenntnisse aus den Zusammenführungen der anonymisierten InstaLOC-Rohdaten mit Openstreetmap. Folgende Datei / Tabelle verdeutlicht den aktuellen Datenbestand auf Basis von ca. 1.4Mio / 2.5 Mio abgeglichenen Geodaten:

Download: Instaloc_ Datenbestand/Statistik (Ergebnisse aus der Prüfung auf eine ca. 60GB umfassende SQLite-DB)

Die Datei beschreibt die Auflistung aller erfassten Länder nach Aufsummierung der codierten User, der Postings und – im experimentellen Status – der Aktiviäten in Form der Aufsummierten Zeitstempel. Hochinteressant ist die Position von Deutschland, was Rückschlüsse auf die Landesrolle im Sinne des Marketings auf der Plattform vermuten lässt.

In den nächsten 2 Wochen werde ich mich tiefergehender mit diversen Datamining- und Datenauswertungsvarianten auseinander setzen und nach Visualisierungsoptionen recherchieren. Die (Teil)fokussierung auf Geodaten erzwingt bspw. die Anbindung an die bekannten Maps-Services (Googlemaps, Openstreetmap etc.).

Gesprächsanfragen bitte an office(at)pontipix.de senden. Freigaben von Informationen und das Zulassen tiefergehender Gespräche werden in einem 4er Team diskutiert.

18. Dezember 2018

Finalisierung von InstaLOC 1.0 (Beta) und weitere Datenauszüge

Vor einigen Tagen konnte ich die Datenerfassungsprozedur „InstaLOC 1.0 (BETA)“ finaliseren und mit den Openstreetmapmetadaten zusammen führen (siehe hierzu die Texte aus dem Blog).

Hier nun einige Basisdatenauszüge:

(1) 5000 beliebteste Tagwolken aus Deutschland
Link: https://bit.ly/2GoHgc1
Bit.ly-Statistik: https://bit.ly/2GoHgc1+

(2) 5000 beliebteste Tagwolken aus Bayern
Link: https://bit.ly/2S6mpeX
Bit.ly-Statistik: https://bit.ly/2S6mpeX+

(3) 5000 beliebteste Tagwolken aus Erfurt
Link: https://bit.ly/2UPRzce
Bit.ly-Statistik: https://bit.ly/2UPRzce+

(4) 5000 beliebteste Tagwolken aus Leipzig
Link: https://bit.ly/2QFKmgw
Bit.ly-Statistik: https://bit.ly/2QFKmgw+

(5) 5000 beliebteste Tagwolken aus Sachsen
Link: https://bit.ly/2Bvv8A3
Bit.ly-Statistik: https://bit.ly/2Bvv8A3+

Das Datenformat ist CSV und die Spalten sind: Tagwolke+Likes+Comments+Anzahl->Tags. Die Sortierung ist Likes->absteigend und die Tagzählung wurde mit der Anweisung length(tag) - length(replace(tag, ',', ''))+1 realisiert.

Bei Interesse an weiteren Einblicken freue ich mich auf einen Anruf oder eine eMail.

7. Dezember 2018

InstaLOC + Openstreetmap = Zusammenlegung und Erweiterung der Analyseoptionen

Durch die Zusammenführung beider Datenbanken wird eine wechselseitige Analyse auf Basis von

CREATE TABLE locations ( id INTEGER PRIMARY KEY AUTOINCREMENT, lat STRING, long STRING, name STRING, osm_type STRING, house_number STRING, road STRING, city STRING, county STRING, state_district STRING, state STRING, postcode STRING, country STRING, country_code STRING, suburb STRING, building STRING, ruins STRING, city_district STRING, commercial STRING, museum STRING, library STRING, aerodome STRING, raceway STRING, hamlet STRING, hotel STRING, clothes STRING, parking STRING, theatre STRING, restaurant STRING, footway STRING, residental STRING, supermarket STRING, attraction STRING, memorial STRING, school STRING, mall STRING, beach STRING, place_of_worship STRING, hairdresser STRING, stadium STRING, bank STRING, viewpoint STRING, neigbourhood STRING, university STRING, car STRING, zoo STRING, fuel STRING, bakery STRING, bar STRING, bus_stop STRING, artwork STRING, guest_house STRING, village STRING, cycleway STRING, industrial STRING, town STRING, retail STRING, wood STRING, adress29 STRING, residential STRING, locality STRING, garden STRING, track STRING, fast_food STRING, pharmacy STRING, picnic_site STRING, castle STRING, water STRING, theme_park STRING, golf_course STRING, fort STRING, car_wash STRING, chemist STRING, pedestrian STRING, books STRING, clinic STRING, playground STRING, community_centre STRING, travel_agency STRING, swimming_pool STRING, sports_centre STRING, hospital STRING, florist STRING, public_building STRING, arts_centre STRING, town_hall STRING, cafe STRING, pub STRING, car_rental STRING, fire_station STRING, college STRING, information STRING, construction STRING, viewpoint STRING );

erlaubt. Themenwelten und Zielgruppen lassen sich nun auf Basis von hinterlegten Hotels, Straßen, PLZ, Stadtteilen oder auch Restaurants anstellen.

27. November 2018

Projekt InstaLOC, aktueller Datenbestand (Stand: 27.11.2018)

Heute wurde ein Update der InstaLOC-Systeme veranlasst. Die Hauptdatendatei umfasst nun ~40GB mit folgenden Grundzahlen:

(1) Unique Beiträge: 64.000.547
(2) Unique (codierte) Usernames: 14.980.773
(3) Unique Locations: 2.096.459 (vorher: 1.7 Mio)

Eine Besonderheit wird hier von den Tagwolken eingenommen. Diese sind mit der aktuellen Abfragelogik nicht mehr als „Distinct“ in einer annehmbaren Geschwindigkeit auslesbar. Sehr wahrscheinlich werde ich einen Berechnungsdurchlauf in der kommenden Nacht durchführen lassen.

Das Projekt wurde, nach Rückmeldung(en) der vielen Geschäftsfreund_innen und Kund_innen, umkonzeptioniert, so dass externe Datenquellen angedockt werden können. Hier wurde ein spezielles Problem (final) gelöst, welches so beschrieben werden kann:

Die konkrete Bestimmung von Städten auf Basis der Instagramlocationangaben ist teilweise fehlerhaft / nicht möglich.
Die konkrete Bestimmung von Stadtteilen und deren Vergleichbarkeiten innerhalb EINER Stadt ist auf Basis der Instagramlocationangaben nur eingeschränkt möglich.

Die Ausgangslage wurde nun so entschärft:

(a) Export der Locationdaten in Form einer Distinct-Anweisung.
(b) Extrakt der Angaben „lat“, „long“ und „name“ aus dem Datenexport via for-to-do-schleife.
(c) Übergabe von „lat“ und „long“ an die Openstreetmap-API, Extrakt der Resultate und Speichern in eine neue Datenbankdatei.

Für die nachfolgenden Beispiele gilt:
„The Database made available under the Open Database License: http://opendatacommons.org/licenses/odbl/1.0/. Any rights in individual contents of the database are licensed under the Database Contents License: http://opendatacommons.org/licenses/dbcl/1.0/

Der Datenbestand umfasst (jeweils unique):
164.222 Eintragungen / 1.7 Mio
24.185 Stadtteile
221 Länder zu 203 Ländercodes
1630 States (Bundesländer etc.)
1131 State Districts (Bezirke etc.)
9715 County (Gemeinden, Regionen etc.)

Download Beispieldaten, Überblick (PDF)
Länder+Ländercodes
Länder+Ländercode+Aufzählung-Städte/a>
Berlin+Stadtteil+PLZ
Srilanka+Stadt+Stadtteil+PLZ
China+Stadt+Stadtteil+PLZ
Indien+Stadt+Stadtteil+PLZ
BRD+Stadt+Stadtteil+PLZ
USA+Stadt+Stadtteil+PLZ

Da die Abgleichsprozedur noch aktiv geschaltet ist, werden sich die Werte mit sehr hoher Wahrscheinlichkeit verändern. Interessant ist hier die zukünftige Beobachtung der TOP-Länder aus der 2. Beispieldatei.

Die verbleibenden 1.5 Mio Eintragungen werden „sehr wahrscheinlich“ in den nächsten 1 1/2 Wochen komplett abgearbeitet und mit Finalisierung wird das Recherchekonzept um einen weiteren Prüfpunkt erweitert. Folgende Szenarien sind dann „denkbar“

(a) Gezielte Analyse von Stadtteilen auf:
-> Zielgruppen
-> Trends via Kombination aus Tags, Tagwolken, Summe Likes + Comments, Zeitstempel
(b) Vergleich von Stadtteilen
(c) Vergleich von Städten auch auf Stadtteilebene
(d) Querprüfung auf Städte, Länder, Stadtteile etc. bzgl. der generellen Aktivitäten im Medium „Instagram“

Weitere Ideen, Anregungen oder Lust auf Austausch? Gern unter den bekannten Telefonnummern und office(at)pontipix.de

12. November 2018

Datenauszugsfreigabe „InstaLOC“ (Stand: 12.11.2018)

Download: http://pontimania.de/_dbdownload/testauszuege.zip

Inhalt sind 3 Exceltabellen:
(a) Testdaten nach der Tagsuche „Urlaub“
(b) Testdaten nach der Locationsuche „Bayern“
(c) Testdaten nach der Locationsuche „Germany“.

Die Tabellen (b) und (c) beziehen sich auf Substrings, welche in der Spalte „Location“ befinden und die Beispieldatensätze haben ein festgelegtes (!) Limit i.H.v. 50.000 Zeilen. Die Dateien haben die Inhalte: Tags, Anzahl Likes + Comments, Locationangaben, Zeitstempel.

Je nach Abfrage und Projekt lassen sich folgende Fragen beantworten:

(a) Wieviele User schreiben in welchem Zeitfenster über den Urlaub an welchen Orten?
(b) Welche Orte werden an Hotspots von welchen Usergruppen besucht und was wird da geschrieben?
(c) Welche User / Usergruppen neigen zur Trendbildung an welchen Orten und / oder zu welchen Tags (Themen, Themenwelten)?
(d) Welche Orte werden zu welchen Zeitfenstern|Jahreszeiten|Monaten besonders stark frequentiert und was wird da geschrieben?
(e) An welchen Orten machen lokale Marketingkampagnen Sinn? (gemessen am Kommunikationsvolumen, Inhalte)
(f) Welche Emotionen werden mit Orten + Trends verbunden? (gemessen an Tags, Uservolumen, Sprachfarbe, Piktogramme und Fotofilter)
(g) Was wird mit Produkten vebrinden? (gemessen an Tags neben den Branchentags, Locations)
(h) Existiert eine Zielgruppe für mein Produkt? (gem. an Location, Tags, Taggestaltung, Zeitstempel)?
(i) Wo befindet sich meine Zielgruppe? (Query: Tag|Tagkombination auf Location)

Konkretere Antworten auf diese und weitere Fragen beantworte ich gern nach Projektsichtung und Teambesprechungen. Kontakt: office(at)pontipix.de oder via den üblichen Kanälen (siehe Impressum).

Arbeitsblog

Online-Marketing: SEO, Social-Media aus Leipzig & Die Dinge drumherum

Kategorie-Archiv: Location-Projekt