A/B- und multivariate Tests durchführen (Teil 2)

Den ersten Teil des Beitrags finden Sie hier.

5.   Konversionspunkte & benötigter Traffic

Im Online-Marketing sind die Conversions – oder auf Deutsch – die „Konversionen“, sehr wichtig. In der Web-Analytics werden diese meist in Funnels, also Trichtern, abgebildet. Der am häufigsten beobachtete Funnel ist wohl der Warenkorb mit seinen Funktionalitäten. Wir sind schon im Kapitel „Web-Analytics“ auf Funnels eingegangen.

Als Konversionspunkte werden im Beispiel des Warenkorbs die einzelnen Stufen innerhalb des Checkout-Prozesses verstanden, die ein Kunde durchschreiten muss. Er muss beispielsweise zunächst bestätigen, welche Produkte er kaufen mag, dann seine Adresse angeben, die Versand- und Bezahlart auswählen, Bezahldaten angeben und zum Schluss alle Angaben kontrollieren sowie die Bestellung abschicken. Auf allen einzelnen Ebenen gibt es Kunden, die den Verkaufsprozess abbrechen. Diese Stufen, auf denen die Kunden entweder weitermachen oder abbrechen, nennt man Konversionspunkte. Der Anteil derer, die den Prozess weiter durchschreiten, nennt man Konversionsrate. Den Anteil derer, die den Prozess abbrechen nennt man Drop-out. Beide Werte kann man auf der Ebene einzelner Stufen innerhalb des gesamten Prozesses berechnen, zusammengefasst für mehrere Ebenen oder für den gesamten Prozess.

Für die in diesem Kapitel behandelten Testverfahren sind die Konversionspunkte und der an den jeweiligen Konversionspunkten erreichbare Traffic für die Berechnung der Laufzeit eines Tests relevant. Um ein ausreichend hohes Signifikanzniveau zu erreichen, sind meist etwa 200 bis 300 Fälle an dem jeweils definierten Konversionspunkt notwendig. Weiß man, dass etwa fünf Prozent der Personen, die über eine Landing Page auf die Website eines Online-Händlers kommen, schließlich auch tatsächlich kaufen, dann benötigt man für einen Kauf ca. 20 Visits auf der Landing Page. Entsprechend werden für eine Testvariante etwa 6.000 Visits benötigt (20*300). Will man drei Buttons, vier Bilder und zwei Textvarianten innerhalb eines Tests laufen lassen, dann erhält man bei einem vollfaktoriellen Test also 3*4*2=24 Varianten, die getestet werden müssen und bräuchte 144.000 Visits im Untersuchungszeitraum.

Man hat nun drei Schrauben, an denen man drehen kann, um das geplante Untersuchungsdesign durchzuführen um mit weniger Fällen auszukommen:

  • Man arbeitet mit einer vorgelagerten Stufe im Konversionsprozess: Man würde sich also – um im Beispiel zu bleiben – dafür entscheiden, dass es ausreicht, wenn ein Nutzer zumindest seine Adresse vollständig eingegeben hat und kann in diesem Fall vielleicht schon mit einer Konversionsrate von 20 Prozent arbeiten. So werden möglicherweise nur noch 1.500 Visits pro Landing Page-Variante.
  • Man gibt sich mit einem geringeren Signifikanzniveau zufrieden. Dann reichen vielleicht schon 100 oder 150 Fälle pro Testvariante.
  • Man arbeitet mit teilfaktoriellen Designs. Dabei kann man weiter unterscheiden in:
    – Vollfaktorielle Designs, bei denen irrelevante Alternativen im Laufe des Test-Flights eliminiert werden. Methodisch ist dieses Verfahren nicht wirklich korrekt, es führt jedoch zu einer Entscheidung für die Alternative mit der besten Konversion. Allerdings erlauben nicht alle Software-Produkte dieses Verfahren.
    – Die Taguchi-Methode: Es wird mit orthogonalen Feldern gearbeitet, um die Zahl der zu testenden Variationen zu minimieren. Dabei sind die Felder so beschaffen, dass die Haupteffekte der untersuchten Faktoren nicht miteinander vermengt werden.
    – Durchführen mehrstufiger Tests: Man muss auch nicht zwingend alle Varianten bei einem einzigen Testlauf prüfen. Häufig ist es so, dass es zwei oder mehrere grundsätzlich verschiedene Konzepte gibt, die man zunächst im Rahmen eines A/B- bzw. Split-Tests vergleicht. Man wählt danach die erfolgreichste Variante und testet zunächst grafische Faktoren, dann in einem weiteren Testlauf Textfaktoren.

Auf diesen Wegen kann der benötigte Traffic reduziert werden. Natürlich kann man auch die Zahl der innerhalb eines Faktors zu testenden Level/Varianten reduzieren. Aber gerade dies ist ein durchaus kritischer Faktor, denn die Praxis zeigt, dass selbst nach vielen Jahren Erfahrung weder der Kunde, noch die betreuende Agentur, noch der Dienstleister der den Test durchführt, die Erfolgschancen von Varianten richtig einschätzen.

6. Testzeitraum und Testlaufzeit

Wann soll ein Test oder eine Reihenfolge von Tests durchgeführt werden? Ist das egal – oder ein wichtiges Kriterium? – Wie so häufig lautet die Antwort auf solche Fragen „Es kommt darauf an.“ Wenn ein Versicherungsunternehmen Landing Pages für wechselwillige Kunden testen will, so ist der November einfach der wichtigste Monat. Der Testzeitraum ist vordefiniert. Im Telekommunikationsmarkt gibt es solche Zyklen nicht oder weniger ausgeprägt. Man kann also freier den Startzeitpunkt des Tests wählen. Die Regel ist einfach: Immer wenn die Kunden im Jahresverlauf ein unterschiedliches Verhalten an den Tag legen, sind der Startzeitpunkt und die Gesamtlaufzeit wichtig. Hier sind Recherchen angebracht. Der Betreiber der Website kennt die unterschiedlichen Verhaltensmuster der Besucher, auch wenn man bei der Durchführung des Tests zweifellos feststellen wird, dass die getroffenen Annahmen – besonders hinsichtlich der Zeiträume – oft nicht korrekt eingeschätzt werden. Es ist ein „Learning“, das man für diese Website in kommenden Perioden nutzen kann.

Test Laufzeit
Test Laufzeit

Daneben ist die Testlaufzeit ein wichtiger Faktor. Selbst wenn das Tool nach drei Tagen sagt, dass der Test für alle Faktoren signifikant sei, ist es im Endkundenbereich ratsam, den Test auf jeden Fall auch über ein Wochenende laufen zu lassen. Samstags und sonntags zeigen die Nutzer – ebenso wie in den Abendstunden häufig ein völlig anderes Verhalten als während der „Office Hours“. Natürlich ist das von der konkreten Zielgruppe der Website abhängig. Dennoch – grundsätzlich ist eine Laufzeit von eine Woche oder ein Vielfaches davon die günstigste Alternative, wenn man nicht gerade die Tauglichkeit von Varianten an verschiedenen Tagen testen mag. Mit zunehmender Laufzeit nivelliert sich dieser Effekt, so dass die Kampagne dann gestoppt werden kann, wenn die Konversionsraten in der Laufzeitgrafik des Tools parallel laufen und das Tool hohe Signifikanz signalisiert.

Zudem ist ein Montag als Startzeitpunkt häufig geeignet. Sollte es bei Start des Tests trotz vielfältiger Kontrollen zu Schwierigkeiten kommen und ein Techniker eingreifen müssen, dann ist das an einem Wochentag leichter möglich als an einem Wochenende. Zudem starten Mediakampagnen häufig auch an Montagen.

7.        Testdurchführung

7.1       Konzeptentwicklung, Workshop & Projektplan

Die Durchführung von Test beginnt meist damit, dass ein Dienstleister den Testgegenstand analysiert. Die möglichen Herangehensweisen müssen untersucht werden. Was kann, was sollte man testen?

Der nächste Schritt besteht in der Durchführung eines Workshops. Hier werden die Testbereiche genauer diskutiert und die Rahmenbedingungen abgeklärt.

  • Welcher Konversionspunkt soll genutzt werden und wie viel Traffic steht zur Verfügung?
    –  Wenn man diese Frage anfänglich klärt, spart man sich für das weitere Vorgehen einiges an Frust und Diskussionen. Hierdurch wird definiert wie viele Varianten voraussichtlich innerhalb welchen Zeitraums getestet werden können.
    – Sollten entsprechende Angaben nicht verfügbar sein, so ist ein sogenannter Baseline-Test durchzuführen, mit dessen Hilfe entsprechende Werte bestimmt werden. Ohne diese Angaben wird es enorm schwierig die Projektlaufzeit zu bestimmen. Es kann dann zu Problemen hinsichtlich der Einsatzplanung kommen.
  • Welche Faktoren sollen getestet werden?
    – Am Anfang steht die Ideensammlung.
    – Systematisierung
    – Hypothesenbildung
    –  Wie viele Tests werden es?
    –  Immer wieder: Reicht das Budget?
  • Wie viele Level sollen für welchen Faktor getestet werden?
    – Dies ist abhängig von den Hypothesen. Besonders bei grafischen Elementen ist es ratsam mit mehr als einer Variante pro Ausprägung zu arbeiten.
    – Wie aufwändig ist die Erstellung der Varianten?
  • Wer führt gestalterische und inhaltliche Arbeiten durch?
    – Hier muss klar sein, dass auch ein entsprechendes Budget vorhanden sein muss. Im Vertrag, mit dem Dienstleister, der den Test durchführt, sind solche Arbeiten i.d.R. nicht enthalten.
    – Wer führt welche Arbeiten durch?

Mit der Beantwortung dieser Fragen lässt sich das Fachkonzept für den Test entwickeln. Konkrete Gestaltungsalternativen sind noch nicht vorhanden, aber ein Projektplan kann ausgearbeitet werden.

In einer nächsten Stufe geht es in die Feinabstimmung. Aufgaben müssen verteilt werden – wer macht was wann? Der Betreiber der Website hat also auch einiges zu tun. Er und/oder sein Kreativdienstleister müssen Texte entwickeln und Bilder gestalten.

Es ist gar nicht verwunderlich, wenn es in diesem kreativen Prozess zu einer Veränderung der Zahl von Levels kommt. Ideen können ausgehen oder sprudeln. Hier ist es die Sache des Projektmanagements die Einflüsse zu bewerten und ggf. einzugreifen oder mit dem Kunden abzustimmen.

7.2 Der Testlauf

Einige Tage bevor der Test live gehen soll, benötigt der Dienstleister das Testmaterial – Grafiken und Texte. In der Testsoftware wird der Test angelegt und es wird überprüft ob die einzelnen Varianten des Tests so aussehen, wie sie sollen. Der Auftraggeber erhält Screenshots der Varianten zur Freigabe.

Um das Verfahren an sich noch einmal kurz zu beschreiben: Die Default-Version der zu testenden Seite läuft auf den Servern des Kunden. Die Varianten laufen in der Testsoftware. Die Testseite wird, während ein Nutzer auf die zu testende Seite gelangt live und on the fly zusammengesetzt. Der Nutzer bekommt also zufällig eine spezielle Testversion der Seite zu sehen. Bei einem erneuten Besuch dieses Nutzers (mit dem gleichen Cookie) bekommt dieser wieder die gleiche Variante zu sehen.

Der Testlauf an sich erfordert ein regelmäßiges Monitoring:

  • Ist der Traffic ausreichend?
  • Kommen genügend Konversionen zustande?
  • Kann die Testlaufzeit verkürzt werden?
  • Muss die Testlaufzeit verlängert werden?
  • Bei aufeinanderfolgenden Tests muss u.U. vor dem Erreichen eines hinreichenden Signifikanzniveaus entschieden werden, mit welcher Variante weitergearbeitet wird.

Wenn der Test beendet wird, stehen die Auswertung und der Bericht an. Hier wünscht man sich natürlich eine möglichst hohe Verbesserung der Konversionsrate. Diese Verbesserung der Konversionsrate im Vergleich zur Default-Variante bezeichnet man als Lift.

Hierbei können die Resultate höchst verschieden sein. Wurde schon ausgiebig getestet, so sind die Verbesserungen erfahrungsgemäß geringer als bei den ersten Tests. Resultate zwischen zehn und 30 Prozent treten häufig auf. Mitunter werden auch Werte erreicht die bei 50 Prozent und höher liegen.

Manchmal – und das kann leider auch passieren – ist die Default-Variante leider die beste. Durch den Test konnte also keine Verbesserung des Ergebnisses erzielt werden. In diesem Fall sollte der Test als Absicherung dafür verstanden werden, dass bei der getesteten Website alles richtig gemacht wird.

Testsoftware

Ich wurde nach einem Vergleich von Softwareprodukten für das Testen gefragt. Bei den oben genannten Produkten handelt es sich um Software der Enterprise-Klasse. Daneben gibt es noch viele weitere Produkte. Ich versuche – so ich demnächst dazu komme – einige Leitlinien für die Bewertung der Produkte aufzustellen.

Ein Kommentar

Kommentar verfassen