Irgendwas mit Daten
KI, Marken, Analytics, Mediaplanung, DAM, PIM etc.
Ich mache etwas mit Daten
KI, Marken, Analytics, Mediaplanung, DAM, PIM etc.
Den ersten Teil des Beitrags finden Sie hier.
Im Online-Marketing sind die Conversions – oder auf Deutsch – die „Konversionen“, sehr wichtig. In der Web-Analytics werden diese meist in Funnels, also Trichtern, abgebildet. Der am häufigsten beobachtete Funnel ist wohl der Warenkorb mit seinen Funktionalitäten. Wir sind schon im Kapitel „Web-Analytics“ auf Funnels eingegangen.
Als Konversionspunkte werden im Beispiel des Warenkorbs die einzelnen Stufen innerhalb des Checkout-Prozesses verstanden, die ein Kunde durchschreiten muss. Er muss beispielsweise zunächst bestätigen, welche Produkte er kaufen mag, dann seine Adresse angeben, die Versand- und Bezahlart auswählen, Bezahldaten angeben und zum Schluss alle Angaben kontrollieren sowie die Bestellung abschicken. Auf allen einzelnen Ebenen gibt es Kunden, die den Verkaufsprozess abbrechen. Diese Stufen, auf denen die Kunden entweder weitermachen oder abbrechen, nennt man Konversionspunkte. Der Anteil derer, die den Prozess weiter durchschreiten, nennt man Konversionsrate. Den Anteil derer, die den Prozess abbrechen nennt man Drop-out. Beide Werte kann man auf der Ebene einzelner Stufen innerhalb des gesamten Prozesses berechnen, zusammengefasst für mehrere Ebenen oder für den gesamten Prozess.
Für die in diesem Kapitel behandelten Testverfahren sind die Konversionspunkte und der an den jeweiligen Konversionspunkten erreichbare Traffic für die Berechnung der Laufzeit eines Tests relevant. Um ein ausreichend hohes Signifikanzniveau zu erreichen, sind meist etwa 200 bis 300 Fälle an dem jeweils definierten Konversionspunkt notwendig. Weiß man, dass etwa fünf Prozent der Personen, die über eine Landing Page auf die Website eines Online-Händlers kommen, schließlich auch tatsächlich kaufen, dann benötigt man für einen Kauf ca. 20 Visits auf der Landing Page. Entsprechend werden für eine Testvariante etwa 6.000 Visits benötigt (20*300). Will man drei Buttons, vier Bilder und zwei Textvarianten innerhalb eines Tests laufen lassen, dann erhält man bei einem vollfaktoriellen Test also 3*4*2=24 Varianten, die getestet werden müssen und bräuchte 144.000 Visits im Untersuchungszeitraum.
Man hat nun drei Schrauben, an denen man drehen kann, um das geplante Untersuchungsdesign durchzuführen um mit weniger Fällen auszukommen:
Auf diesen Wegen kann der benötigte Traffic reduziert werden. Natürlich kann man auch die Zahl der innerhalb eines Faktors zu testenden Level/Varianten reduzieren. Aber gerade dies ist ein durchaus kritischer Faktor, denn die Praxis zeigt, dass selbst nach vielen Jahren Erfahrung weder der Kunde, noch die betreuende Agentur, noch der Dienstleister der den Test durchführt, die Erfolgschancen von Varianten richtig einschätzen.
Wann soll ein Test oder eine Reihenfolge von Tests durchgeführt werden? Ist das egal – oder ein wichtiges Kriterium? – Wie so häufig lautet die Antwort auf solche Fragen „Es kommt darauf an.“ Wenn ein Versicherungsunternehmen Landing Pages für wechselwillige Kunden testen will, so ist der November einfach der wichtigste Monat. Der Testzeitraum ist vordefiniert. Im Telekommunikationsmarkt gibt es solche Zyklen nicht oder weniger ausgeprägt. Man kann also freier den Startzeitpunkt des Tests wählen. Die Regel ist einfach: Immer wenn die Kunden im Jahresverlauf ein unterschiedliches Verhalten an den Tag legen, sind der Startzeitpunkt und die Gesamtlaufzeit wichtig. Hier sind Recherchen angebracht. Der Betreiber der Website kennt die unterschiedlichen Verhaltensmuster der Besucher, auch wenn man bei der Durchführung des Tests zweifellos feststellen wird, dass die getroffenen Annahmen – besonders hinsichtlich der Zeiträume – oft nicht korrekt eingeschätzt werden. Es ist ein „Learning“, das man für diese Website in kommenden Perioden nutzen kann.
Daneben ist die Testlaufzeit ein wichtiger Faktor. Selbst wenn das Tool nach drei Tagen sagt, dass der Test für alle Faktoren signifikant sei, ist es im Endkundenbereich ratsam, den Test auf jeden Fall auch über ein Wochenende laufen zu lassen. Samstags und sonntags zeigen die Nutzer – ebenso wie in den Abendstunden häufig ein völlig anderes Verhalten als während der „Office Hours“. Natürlich ist das von der konkreten Zielgruppe der Website abhängig. Dennoch – grundsätzlich ist eine Laufzeit von eine Woche oder ein Vielfaches davon die günstigste Alternative, wenn man nicht gerade die Tauglichkeit von Varianten an verschiedenen Tagen testen mag. Mit zunehmender Laufzeit nivelliert sich dieser Effekt, so dass die Kampagne dann gestoppt werden kann, wenn die Konversionsraten in der Laufzeitgrafik des Tools parallel laufen und das Tool hohe Signifikanz signalisiert.
Zudem ist ein Montag als Startzeitpunkt häufig geeignet. Sollte es bei Start des Tests trotz vielfältiger Kontrollen zu Schwierigkeiten kommen und ein Techniker eingreifen müssen, dann ist das an einem Wochentag leichter möglich als an einem Wochenende. Zudem starten Mediakampagnen häufig auch an Montagen.
Die Durchführung von Test beginnt meist damit, dass ein Dienstleister den Testgegenstand analysiert. Die möglichen Herangehensweisen müssen untersucht werden. Was kann, was sollte man testen?
Der nächste Schritt besteht in der Durchführung eines Workshops. Hier werden die Testbereiche genauer diskutiert und die Rahmenbedingungen abgeklärt.
Mit der Beantwortung dieser Fragen lässt sich das Fachkonzept für den Test entwickeln. Konkrete Gestaltungsalternativen sind noch nicht vorhanden, aber ein Projektplan kann ausgearbeitet werden.
In einer nächsten Stufe geht es in die Feinabstimmung. Aufgaben müssen verteilt werden – wer macht was wann? Der Betreiber der Website hat also auch einiges zu tun. Er und/oder sein Kreativdienstleister müssen Texte entwickeln und Bilder gestalten.
Es ist gar nicht verwunderlich, wenn es in diesem kreativen Prozess zu einer Veränderung der Zahl von Levels kommt. Ideen können ausgehen oder sprudeln. Hier ist es die Sache des Projektmanagements die Einflüsse zu bewerten und ggf. einzugreifen oder mit dem Kunden abzustimmen.
Einige Tage bevor der Test live gehen soll, benötigt der Dienstleister das Testmaterial – Grafiken und Texte. In der Testsoftware wird der Test angelegt und es wird überprüft ob die einzelnen Varianten des Tests so aussehen, wie sie sollen. Der Auftraggeber erhält Screenshots der Varianten zur Freigabe.
Um das Verfahren an sich noch einmal kurz zu beschreiben: Die Default-Version der zu testenden Seite läuft auf den Servern des Kunden. Die Varianten laufen in der Testsoftware. Die Testseite wird, während ein Nutzer auf die zu testende Seite gelangt live und on the fly zusammengesetzt. Der Nutzer bekommt also zufällig eine spezielle Testversion der Seite zu sehen. Bei einem erneuten Besuch dieses Nutzers (mit dem gleichen Cookie) bekommt dieser wieder die gleiche Variante zu sehen.
Der Testlauf an sich erfordert ein regelmäßiges Monitoring:
Wenn der Test beendet wird, stehen die Auswertung und der Bericht an. Hier wünscht man sich natürlich eine möglichst hohe Verbesserung der Konversionsrate. Diese Verbesserung der Konversionsrate im Vergleich zur Default-Variante bezeichnet man als Lift.
Hierbei können die Resultate höchst verschieden sein. Wurde schon ausgiebig getestet, so sind die Verbesserungen erfahrungsgemäß geringer als bei den ersten Tests. Resultate zwischen zehn und 30 Prozent treten häufig auf. Mitunter werden auch Werte erreicht die bei 50 Prozent und höher liegen.
Manchmal – und das kann leider auch passieren – ist die Default-Variante leider die beste. Durch den Test konnte also keine Verbesserung des Ergebnisses erzielt werden. In diesem Fall sollte der Test als Absicherung dafür verstanden werden, dass bei der getesteten Website alles richtig gemacht wird.
Testsoftware
Ich wurde nach einem Vergleich von Softwareprodukten für das Testen gefragt. Bei den oben genannten Produkten handelt es sich um Software der Enterprise-Klasse. Daneben gibt es noch viele weitere Produkte. Ich versuche – so ich demnächst dazu komme – einige Leitlinien für die Bewertung der Produkte aufzustellen.
One Reply to “A/B- und multivariate Tests durchführen (Teil 2)”