Gütektiterien für Digital Analytics

In der empirischen Sozialforschung wird schon lange mit Gütekriterien gearbeitet. Das ist im Marketing genauso. Es gibt Gütekriterien wie diese: Validität, Reliabilität und Objektivität. Es soll korrekt gemessen werden, die Messung soll replizierbar sein und unabhängig von subjektiven Einflüssen. Oft werden noch weitere Kriterien genannt: Relevanz, Vollständigkeit, Aktualität sowie Sicherheit der Daten. Mit diesen Gütekriterien könnte man zweifellos auch solche für die Digital Analytics spezifizieren. Leider gibt es für die Digital Analytics eine anscheinend recht knifflige Herausforderung. Diese besteht einerseits häufig in der Unternehmensstruktur und in der jeweiligen Qualifikation der beteiligten Akteure. Digital Analytics oder Web Analytics wird noch immer zu sehr durch die IT-Abteilungen betreut und zu wenig durch das Marketing. Auch wenn die Konfiguration von Reports – beispielsweise in Google Analytics – nicht wirklich schwierig ist – steht davor noch die Datenerfassung. Einfach nur den Tag in die Website zu packen, reicht hier häufig nicht aus. So können – zumindest bei größeren Projekten – nicht alle relevanten Fragestellungen beantwortet werden. Manche Zeitgenossen stellen immer wieder Fragen nach der Repräsentativität der Daten. Warum diese Frage nicht so ganz einfach zu beantworten ist, erläutere ich noch in einem anderen Beitrag. Interpretiert man die Daten der Digital Analytics bzw. Web Analytics als Vollerhebungen für das zu analysierende Objekt, so ist die Antwort natürlich einfach: Die Frage der Repräsentativität stellt sich nur bei Stichproben und nicht bei Vollerhebungen. Aber zurück zum Thema Gütekriterien für Digital Analytics.

Das französische Analytics Unternehmen AT Internet hat nun vor einigen Wochen ein Whitepaper »Data Quality in Digital Analytics« veröffentlicht. Darin geht es um Gütekriterien – darum, wie eine hohe Datenqualität in den Digital Analytics erreicht werden kann. Genannt werden die folgenden Bereiche:

Data Quality in Digital Analytics
Data Quality in Digital Analytics (Quelle: AT Internet)
  • Accuracy (Does my data reflect reality over time? Can I trust the values being returned?)
  • Completness (Is data missing or corrupt? Do I have all the data I need to make informed decisions? Are all pages of my site tagged? Are all screens of my mobile app tagged? Is all my data being collected as expected?)
  • Cleanliness (Is my data error-free? Are my data values readable and correctly formatted?)
  • Timeliness (Is all data available when needed? Does my data allow me to react in real time?)
  • Consistency (Is my data consistent across platforms? Do I have a reliable “single point of truth”? Can everyone in my company access the same data?)

Visuell hat AT Internet dies als Kreis dargestellt. Sie sehen das in der Abbildung – ein Rundumschlag, der die Herausforderungen sehr schön beschreibt. Ich erläutere die Bereiche noch ein wenig und kommentiere diese:

Richtigkeit & Genauigkeit

Erlauben Sie mir bitte Übersetzung von »Accuracy« mit »Richtigkeit & Genauigkeit«. Wenn Sie sich das Whitepaper von AT Internet ansehen, verstehen Sie weshalb. Daten der Digital Analytics gaukeln leider immer Genauigkeit vor, selbst wenn diese nicht vorhanden ist. Von außen betrachtet ist das auch nicht weiter verwunderlich. Computer erheben Daten darüber, was auf Computern passiert. Was sollte dabei schief gehen? – Leider ziemlich viel. Ein Beispiel aus der SEO Analytics: Wenn Sie wissen möchten, auf welcher Position Ihre Website für ein Keyword auf einer Google-Ergebnisseite steht, ist es ein gewaltiger Unterschied, ob das Ergebnis durch eine Schnittstellenanfrage bei Google oder per Crawl erhoben wurde oder ob die Google Search Console abgefragt wurde. Im ersten Fall handelt es sich um eine Zeitpunktbetrachtung, im zweiten um eine Zeitraumbetrachtung. Die Richtigkeit des zweiten Wertes aus der Search Console ist mit größerer Sicherheit richtig als die Zeitpunktbetrachtungen – auch wenn diese natürlich an sich genau sind.

Vollständigkeit

Und wieder: Reports gaukeln Genauigkeit vor. Wenn eine Website beispielsweise nicht vollständig vertaggt ist, dann sind die Daten nicht vollständig. Es muss also zum Beispiel geprüft werden, ob das Tracking Script überall dort ist, wo es sein soll. Im einfachsten Fall muss es bei einer Website in alle Seiten integriert werden. Bei WordPress etwa ist das ganz einfach: Es gibt ein PlugIn, das sich darum kümmert. Wenn Ihre Website jedoch aus verschiedenen Quellen zusammengesetzt wird, kann dies knifflig werden. Auch in bei responsiven Websites tauchen hin und wieder Probleme auf: Es muss darauf geachtet werden, dass das Tagging in verschiedenen Viewports gleichmäßig funktioniert. Das betrifft vorwiegend das Event-Tagging.

Selbstverständlich müssen auch die Server zur Erfassung der Daten jederzeit voll in ausreichender Geschwindigkeit verfügbar sein etc. Insgesamt haben wir es hier mit einem ganz klassischen Gütekriterium zu tun (s.o.).

Sauberkeit

Selbst wenn Ihre Daten alle vollständig erhoben wurden, können noch gewaltige Schwierigkeiten auftreten. AT Internet nennt als Beispiel falsche Tags in E-Mail-Newslettern, die erst erkannt werden, wenn der Newsletter bereits verschickt wurde. Hier fühle ich mich schon ein wenig ertappt. Google-Analytics unterscheidet in der Auswertung der Daten bei UTM-Parametern Groß- und Kleinschreibung, ist also Case Sensitive. Schreiben Sie daher Parameter-Werte am Besten immer alles klein und verwenden Sie immer Bindestriche und keine Unterstriche in den Parametern, sonst ist das Chaos unausweichlich. Gerade bei Updates von Websites tauchen solche Fehler relativ häufig auf, z.B. weil inzwischen die Bearbeiter gewechselt haben. Sie sollten aus diesem Grund unbedingt Fachkonzepte entwickeln und sich sklavisch daran halten. Wurden die falschen Daten an den Server übertragen, ist der Aufwand zur Korrektur in der Regel erheblich. In solchen Fällen gibt es Einschränkungen hinsichtlich Validität und Reliabilität der Daten.

Rechtzeitigkeit

Mir ist schon klar, warum Rechtzeitigkeit kein Kriterium in der klassischen Marktforschung ist und lieber von Aktualität gesprochen wird. Marktforschung benötigt meist sehr viel Zeit und besonders junge Berater unterschätzen deren Aufwand. In den Digital Analytics kann das anders sein. Mitunter stellt sich auch die Frage, ob denn tatsächlich alles in Realtime ausgewertet werden muss. Ich empfinde das manchmal fehl am Platz. Die Geschwindigkeit in der Auswertung ist aus meiner Sicht nur dann notwendig, wenn durch eine schnellere Verfügbarkeit eines Wertes tatsächlich schneller reagiert werden kann. Das ist beispielsweise dann der Fall, wenn auf einer wichtigen Seite ein 404 auftritt. Kürzlich empfahl beispielsweise Michael Janssen (zedwoo) auf einen 404 in Google Analytics einen Event zu setzen. Diesen kann man sich sogar zumailen lassen. Was bei kleinen Websites tatsächlich eine hilfreiche Sache ist, muss bei größeren Projekten natürlich umfänglicher angegangen werden. Oft ist beispielsweise die Search Console schneller oder das Werkzeug, mit dem die grundsätzliche Aktivität in den Logfiles überwacht wird. Es geht hier also hauptsächlich um das Erkennen und die Beseitigung technischer Probleme. Ähnlich verhält es sich mit Kampagnen: Hier muss auch schnell reagiert werden können, wenn Probleme auftreten.

Zweifellos gibt es in diesem Bereich noch andere Kriterien. Wenn es beispielsweise bei einem Analytics Tool lange dauert, bis ein Bericht angezeigt oder gerechnet wird, dann ist es einfach nur nervig. Hier muss man prüfen.

Konsistenz

Nehmen Sie bitte an, dass Sie verschiedene Websites für unterschiedliche Produkte in Ihrem Unternehmen haben. Es könnte eine für Schokoriegel, eine für Müsli und eine für Getränke sein, die analysiert werden müssen. Natürlich soll ihr Web Analytics Tool für alle Websites die gleiche Datenqualität erzielen. Sessions und Impressions sollen gleich gezählt werden – sonst können Sie nicht vergleichen. Das ist klar. Leider ist dies in der Unternehmenswirklichkeit nicht ganz so einfach. Je nach Struktur der Unternehmen werden die Websites mitunter auf verschiedenen Plattformen betrieben, es werden verschiedene Analytics-Werkzeuge eingesetzt, Daten werden mehr oder weniger gefiltert. Und dann werden die Zahlen nebeneinander präsentiert, als ob sie mit einer geeichten Waage gewogen wurden. Aber das ist leider mitnichten so, denn erhebliche Abweichungen sind möglich. Diese treten auch schon dann auf, wenn der Tag des Tag Management Systems an unterschiedlichen Positionen in der Website sitzt. Auch in diesem Fall gibt es Einschränkungen hinsichtlich Validität und Reliabilität der Daten.

Zu Abweichungen kann es auch kommen, wenn Daten auf verschiedenen Plattformen erhoben werden (z.B. Betriebssystemen, Browsern). Man sollte auch prüfen, ob alle Empfänger, die gleiche Daten bekommen sollen, auch tatsächlich die gleichen Daten erhalten. Hier sind einige Überraschungen möglich.

Für tiefergehende Informationen empfehle ich die Lektüre des AT Internet Whitepaper.