Meetrics Data Blog

Meetrics_Balken

Warum Meetrics nicht samplet

Verfasst von Jonas Kuhnle, Product Owner Data Platform

Zu aller Erst, was ist Sampling? Sampling ist das Entnehmen von Stichproben, um repräsentative Informationen über die Zusammensetzung eines Datensatzes zu erhalten. Dieser Prozess ist nützlich, wenn es nicht möglich oder nicht praktisch wäre, die gesamte Bevölkerung zu befragen. Zum Beispiel, führen die meisten Regierungen regelmäßig Volkszählungen durch, um Informationen über die Bürger ihrer Länder zu erhalten. 

Fun Fact – Die christliche Weihnachtsgeschichte beginnt mit einem Zensus:

“1 Es begab sich aber zu der Zeit, dass ein Gebot von dem Kaiser Augustus ausging, dass alle Welt geschätzt würde. 2 Und diese Schätzung war die allererste und geschah zur Zeit, da Quirinius Statthalter in Syrien war. 3 Und jedermann ging, dass er sich schätzen ließe, ein jeglicher in seine Stadt.” (LK 2, 1-3 LUT)

Heutzutage wird der Zensus auf Basis einer Stichprobe durchgeführt. Der Vorteil von Sampling auf einer Bevölkerungsebene ist offensichtlich. Nicht Jeder muss befragt werden. Wir befinden uns in einer ähnlichen Situation. Im Falle von Viewability, Fraud und Brand Safety, haben wir die Möglichkeit, die gesamte Bevölkerung zu analysieren. Für Audience Messung jedoch, benutzen wir unsere eigenen Mikrozensusdaten, die von ausgewählten und hochqualitativen Panel-Anbietern, zur Verfügung gestellt wird. Diese Daten bilden die Basis für Zielgruppenverifizierung. Bei jeder einzelnen Impression überprüfen wir, ob es sich um einen Panelisten aus unserer Datenbank handelt. Die Daten werden dann aggregiert und unseren Kunden angezeigt. 

Dies trifft nicht auf unsere anderen Produkte zu. Wir haben die Fähigkeit, Sichtbarkeit und Invalid Traffic vollständig zu messen. Daraus erwächst die Herausforderung nicht nur all diese Daten verarbeiten zu müssen, sondern auch sie innerhalb von Sekunden zu aggregieren und zur Verfügung zu stellen. Langsame Medien, wie reale Festplatten, sind daher keine Option. Allerdings erhöhen sich infolgedessen die Kosten der Datenspeicherung und Sampling wird umso verlockender. Bei Meetrics verarbeiten wir alle Informationen von Milliarden an Aufrufen in Tausende von Gigabytes. Unsere Datensammlung füllt Terabytes an Speicherplatz (ein Terabyte umfasst 1357 CDs). Daher stellt sich die Frage warum Meetrics diese Daten nicht samplet. 

Die Antwort ist Genauigkeit. Wir sind völlig engagiert unsere Analysen mit höchstmöglicher Genauigkeit zu formulieren, da 90% Sicherheit schlicht nicht genügt. Diese Hingabe ist weiterhin verstärkt, durch unser Ad Fraud Produkt. Hier ist es besonders fragwürdig, ob Invalid Traffic einer Gaußschen Normalverteilung folgt. 

Lasst uns diese Invalid Traffic Daten etwas näher betrachten:

cases_over_time_adjusted

Diese Gesamtsumme zeigt, wie sich Invalid Traffic Zahlen über Zeit verteilen. Die rote Linie stellt eine Annäherung dar, welche das genaueste Ergebnis einer Stichprobenanalyse ist. Basierend auf dieser Datenlage, hätte man sowohl Spitzen, als auch Tiefstände übersehen. Nur die Analyse aller Datenpunkte kann ein vollständiges Bild abzeichnen.

Weitere solcher Effekte lassen sich aus der Verteilung der individuellen Invalid Traffic Indikatoren erkennen:

cases_overTime

Dies zeigt wie sich Invalid Traffic über einen Tag verteilt. Manche Indikatoren erreichen Höchststände, wenn andere Tiefpunkte erreichen. Das ist ein weiterer Hinweis auf ein fundamentales Problem mit Invalid Traffic Messungen. Er ist nicht zufällig über das Internet verteilt. Er erreicht Höchstwerte und tritt vermehrt auf, wenn er durch Betrüger generiert wird.

Dieses Beispiel zeigt, dass Sampling nicht genügt, um Daten mit hoher Genauigkeit auszuwerten. Präzise und repräsentative Analysen bedürfen einen vollständigen Zensus wann immer möglich.

Aus diesem Grund verwendet Meetrics keine Stichproben in Viewability und Ad Fraud Produkten.