Organisation des A/B-Testing –
Rückblick auf die A/B Insights in Köln

A/B Insights

A/B Testing gehört einfach zum Kerngeschäft des Online-Marketing. Die Rolle des Testing als Teil der Digital Analytics ist in vielen Unternehmen mit ausgeprägtem Online-Geschäft fest implementiert. Es geht nicht mehr um die Frage, ob man testet oder darum, wie Tests funktionieren. Sicher – auch in diesem Zusammenhang gibt es beträchtliches Optimierungspotenzial. Hauptthema des Abends vergangene Woche war jedoch die Frage, wie es möglich ist, die relevanten A/B-Tests zu identifizieren und diese zu maximieren. Vorgetragen hierzu haben Bastian Schäfer (Senior Referent Website-Testing & Conversion-Optimierung bei der DB Vertrieb GmbH) sowie Viktoria Zenker und Hauke Floer aus der UX der Galeria Kaufhof GmbH. Es sind immer wieder Unternehmen, die direkt über das Netz absetzen, die weiter sind. Verlage und Fernsehsender sind hier weit abgeschlagen und sollten dringend aufholen!

Kreislauf A/B-Testing

Bastian Schäfer stellte ein Kreislaufkonzept zum A/B-Testing vor:

  • Ideensammlung
  • Hypothesenbildung
  • A/B-Testing
  • Umsetzung

Vor einigen Jahren und auch jetzt ist es noch immer so, dass Kreative sich ungern testen lassen. Dabei ist es doch viel angenehmer, viele Ideen zu entwickeln, und zu schauen, welche davon perfektioniert werden sollen. Deutlich sollte eben immer wieder werden, dass es nicht um Schönheitspreise geht. Es geht um »Funktionieren« sowie das Erreichen von Zielen. Ohne Tests sind die Ergebnisse meist suboptimal.

Ist das Bewusstsein für Tests geweckt, dann verkehrt sich die Problemlage: Es soll viel und ausgiebig getestet werden. Hierdurch wird der Zielerreichungsgrad höher. Eine große Herausforderung ist dabei das Aushebeln der eigenen Betriebsblindheit. Das betrifft die eigene Abteilung, aber auch andere Abteilungen, die zu integrieren sind.
Ideen sollten nun unabhängig von der Quelle gesammelt, organisiert und bewertet werden. Die wichtigste Quelle ist und bleibt dabei das Nutzerfeedback. Inzwischen scheint Jira ein Industriestandard für Kanban mit dem Netz zu sein – auf wirklich allen Veranstaltungen wurde darauf verwiesen. Gut – ich benutze das Tool auch. Es taugt zielmlich gut für die Arbeit mit dem Netz. Die Kollegen von Kaufhof verwenden es beispielsweise, um die Bewertung von Testideen zu realisieren. Finale Frage in diesem Zusammenhang: »Wie viel mehr an Umsatz ist nach dem A/B-Test zu erwarten?«

Jira erlaubt die Abbildung von mehreren Bewertungsdimensionen. Die Ermittlung des Erwartungswerts kann mit einer relativ großen Sicherheit erfolgen. Entsprechend des zu erwartenden Umsatzplusses wird das Ranking der Tests gebildet. Eigentlich ganz einfach, wenn man die Idee dazu hat und sich die Kollegen darauf einlassen. Ach – natürlich muss a priori noch geprüft werden, ob der Traffic auf den zu testenden Bereichen der Website ausreicht, um den Test mittels Conversions durchzuführen. Richtwert: 200 Stück pro Zelle.

Einig waren sich die Teilnehmer des Abends übrigens darüber, dass die Farbe eines Buttons nicht wirklich testwürdig ist, die darauf befindliche »Call to Action« sehr wohl.

A/B-Test Hypothesenbildung

Klar – Hypothesen sind notwendig. Ohne Hypothesen ist die Interpretation von Ergebnissen häufig schwierig. Wenn man diesen Schwierigkeiten aus dem Weg gehen möchte, ist eine Systematisierung erforderlich. Hilfreich dabei sind strukturierte Konzepte, wie das »Conversion Framework« von Khalid Saleh (invespcro) oder das, was Konversionskraft zu dem Thema schreibt.

A/B-Test – Analytics Maturity Model

Ich stehe auf Maturity Models – ehrlich. Die haben verschiedene Vorteile. Der wichtigste ist wohl, dass man sich selbst einordnen kann – also den eigenen Stand überprüfen. Hier hat Bastian Schäfer etwas an die Wand geworfen, das ich noch nicht kannte. Mit freundlichem Dank gebe ich es hier weiter.

A/B-Test - Analytics Maturity Model bahn.de
A/B-Test – Analytics Maturity Model bahn.de

Ansonsten noch ein großes Dankeschön an Trakken und Optimizely für die Organisation des Abends. Ich komme nächstes Jahr gerne wieder, und zwischendurch auf den Analytics Summit nach Hamburg.

Analytics-Anforderungen KMU – Werkzeuge & Daten

In der aktuellen t3n (Ausgabe 42) ist ein Beitrag über Analytics-Tools für Start-ups bzw. kleinere Unternehmen. Darin werden einige Klassen von Werkzeugen besprochen. Grundsätzlich ist das nicht schlecht. Allerdings wirkt der Artikel schon so, als ob viele Fragestellungen nur mit diesen Tools zu lösen seien. Anschließend werden die Daten aus jeglicher Quelle Dashbord-Lösung gepackt und alles ist gut.  Hierzu gibt es einiges zu sagen. Ich erläutere deshalb hier rudimentär welche Analytics-Daten zur Steuerung eines Web-Projekts notwendig sind.

Google Analytics Homepage vor Login
Google Analytics Homepage vor Login

Analytics-Speziallösungen müssen administriert und gelernt werden

Vor allem wird die Mächtigkeit von Google Analytics als Werkzeug unterschätzt. Mit Custom Reports und Event-Tagging lässt sich vieles lösen und beantworten, wozu es kein Spezialwerkzeug braucht. Vor allem wurde im Beitrag ignoriert, dass auch Apps mit Google Analytics messbar sind. Die Daten kommen damit aus der gleichen Welt. Das hilft, weil nicht noch weitere Werkzeuge administriert und verstanden werden müssen. Fatal ist dann mitunter auch die Notwendigkeit zur Betreuung weiterer Schnittstellen. So schön in vielen Dashboards Daten aufbereitet werden – dedizierte Schnittstellen zu allen Werkzeugen, die eingesetzt werden gibt es meistens nicht. Ein oder zwei fehlen meistens. Eine eigene Datenhaltung und die Entwicklung eigener Schnittstellen wird notwendig. Das kostet Geld, Zeit und v.a. Nerven. Je weniger Analytics-Tools im Einsatz sind, um so effizienter kann mit den Resultaten umgegangen werden. Klar – die Google Analytics- bzw. Universal Analytics-Nutzverwaltung und die Weitergabe von Reports ist ein Ding an dem Google dringend arbeiten sollte. Allerdings hat eine so weit verbreitete Lösung einen entscheidenden Vorteil: Es gibt viele, die sich damit auskennen. Das spart Kosten. zudem lassen sich sogar Daten aus fremden Quellen integrieren.

A/B-Tests nicht vergessen!

Onsite würde ich kaum zu einem weiteren reinen Analytics Tools raten – außer natürlich zu Werkzeugen für A/B-Tests. Hierfür ist Google Analytics wirklich nicht die optimale Lösung. Ich mag hierfür Optimizely. Das lässt sich auch von kleineren und mittleren Unternehmen einsetzen. Diese Klasse an Analytics-Tools fehlt im Artikel. Im Marketing sind noch einige weitere Werkzeugklassen wichtig, die Werte generieren, die im Rahmen der Analytics relevant sind bzw. in Dashboards integriert werden müssen.

Onsite-Analytics heißt auch Performance und SEO

Bleiben wir bei der Website: Da sollten Werkzeuge zur Analyse der technischen Performance der Website im Einsatz sein. Wenn das Ding zu langsam wird, dann gibt es nicht nur Ärgern mit den Nutzern – auch die SEO leidet. Womit wir bei nächsten Punkt wären: SEO-Tools liefern auch wichtige Daten und geben Handlungsempfehlungen. In den Tools bekommt man diese früher als sich diese im organischen Traffic bei Google Analytics bemerkbar machen. Sicher – man kann sich über die Indices streiten, die Searchmetrics oder XOVI et al. produzieren streiten, grundsätzlich sind diese hilfreich. Die Werte gehören in ein Überblicks-Dashboard für die Marketing-Leitung. Zudem ergeben sich dadurch auch noch Hinweise hinsichtlich der Arbeit von Wettbewerbern.Wenn man einen Shop betreibt, dann ist die Bonität seiner Kunden wichtig. Auch die Ergebnisse dieser Prüfungen sollten aus dem E-Commerce-System oder auf anderem Wege einer Bewertung zugeführt werden.

Management-Werkzeuge liefern auch Analytics-Daten – was ist damit?

Verlässt man Website und App, dann geht es um die Zuleitungen zur Website. Ein sehr wichtiges Bindungswerkzeug in diesem Bereich ist die E-Mail. Man sollte beispielsweise einfach wissen, wenn die Öffnungsraten der Mails plötzlich sinken, Bounce Rates steigen etc. Grundsätzlich ist dafür kein extra Analytics-Werkzeug notwendig. Kampagnen-Werkzeuge verfügen i.d.R. über eine Auswertungs-Instanz. Die Daten müssen nur aus dem Werkzeug herausgeholt und in das Übersichts-Dashboard integriert werden. Ach ja – es sind auch noch Werte für die eigene Datenhaltung. Dazu hätte ich mir auch noch etwas in dem Artikel gewünscht: Wie geht man mit Analytics-Daten um, die in einem anderen Werkzeug eher nebenbei anfallen – wie dem E-Mail-Tool einem CMS oder einem Social Media Management-Werkzeug wie Hootsuite.

Genau analysieren, wie Werbemaßnahmen wirken

Relevant sind in diesem Zusammenhang auch die Daten von AdServern – schließlich sollte man nicht nur wissen wie oft jemand auf der eigenen Website gelandet ist, sondern auch, wie oft die eigene Display-Werbung im Netz gesehen wurde, welche Werbemittel funktionieren und welche nicht. Gerade im Bereich der zunehmenden Kontingenz von Bewegtbildwerbung über das Internet und bei Fernsehwerbung gibt es noch beträchtlichen Entwicklungsbedarf. Ich gestehe: Die Baustelle Bewegtbildwerbung und Analytics ist tendenziell etwas für größere Unternehmen.

Dashboards

Im Beitrag wird ganz richtig darauf verwiesen, dass bei all den unterschiedlichen Datenquellen eine Dashboard-Lösung notwendig ist, um den Überblick zu behalten. Es werden auch viele brauchbare Lösungen genannt. Allerdings fehlt Tableau. Hinsichtlich der Möglichkeiten zur Visualisierung ist das wirklich klasse. Zudem gibt es Tableau zu Preisen, die auch ein KMU bezahlen kann.

Das was ich jetzt geschrieben habe, ist auch nicht umfassend. Ich kann nur dazu raten sich entlang der gesamten stattfindenden Prozesse zu hangeln. In diesem Zusammenhang sollte man sich über seine Ziele klar sein. Nur so kann man nach Fragen Ausschau zu halten, die beantwortet werden sollten, um das Projekt zu optimieren. Tja – und dann geht es darum, zu sehen welche Werte Antworten auf die Fragen geben bzw. bei der Entscheidung helfen. Das müssen nicht sonderlich viele Werkzeuge sein – auch wenn es die gibt und sie an sich toll sind.

A/B- und multivariate Tests durchführen (Teil 2)

Den ersten Teil des Beitrags finden Sie hier.

5.   Konversionspunkte & benötigter Traffic

Im Online-Marketing sind die Conversions – oder auf Deutsch – die „Konversionen“, sehr wichtig. In der Web-Analytics werden diese meist in Funnels, also Trichtern, abgebildet. Der am häufigsten beobachtete Funnel ist wohl der Warenkorb mit seinen Funktionalitäten. Wir sind schon im Kapitel „Web-Analytics“ auf Funnels eingegangen.

Als Konversionspunkte werden im Beispiel des Warenkorbs die einzelnen Stufen innerhalb des Checkout-Prozesses verstanden, die ein Kunde durchschreiten muss. Er muss beispielsweise zunächst bestätigen, welche Produkte er kaufen mag, dann seine Adresse angeben, die Versand- und Bezahlart auswählen, Bezahldaten angeben und zum Schluss alle Angaben kontrollieren sowie die Bestellung abschicken. Auf allen einzelnen Ebenen gibt es Kunden, die den Verkaufsprozess abbrechen. Diese Stufen, auf denen die Kunden entweder weitermachen oder abbrechen, nennt man Konversionspunkte. Der Anteil derer, die den Prozess weiter durchschreiten, nennt man Konversionsrate. Den Anteil derer, die den Prozess abbrechen nennt man Drop-out. Beide Werte kann man auf der Ebene einzelner Stufen innerhalb des gesamten Prozesses berechnen, zusammengefasst für mehrere Ebenen oder für den gesamten Prozess.

Für die in diesem Kapitel behandelten Testverfahren sind die Konversionspunkte und der an den jeweiligen Konversionspunkten erreichbare Traffic für die Berechnung der Laufzeit eines Tests relevant. Um ein ausreichend hohes Signifikanzniveau zu erreichen, sind meist etwa 200 bis 300 Fälle an dem jeweils definierten Konversionspunkt notwendig. Weiß man, dass etwa fünf Prozent der Personen, die über eine Landing Page auf die Website eines Online-Händlers kommen, schließlich auch tatsächlich kaufen, dann benötigt man für einen Kauf ca. 20 Visits auf der Landing Page. Entsprechend werden für eine Testvariante etwa 6.000 Visits benötigt (20*300). Will man drei Buttons, vier Bilder und zwei Textvarianten innerhalb eines Tests laufen lassen, dann erhält man bei einem vollfaktoriellen Test also 3*4*2=24 Varianten, die getestet werden müssen und bräuchte 144.000 Visits im Untersuchungszeitraum.

Man hat nun drei Schrauben, an denen man drehen kann, um das geplante Untersuchungsdesign durchzuführen um mit weniger Fällen auszukommen:

  • Man arbeitet mit einer vorgelagerten Stufe im Konversionsprozess: Man würde sich also – um im Beispiel zu bleiben – dafür entscheiden, dass es ausreicht, wenn ein Nutzer zumindest seine Adresse vollständig eingegeben hat und kann in diesem Fall vielleicht schon mit einer Konversionsrate von 20 Prozent arbeiten. So werden möglicherweise nur noch 1.500 Visits pro Landing Page-Variante.
  • Man gibt sich mit einem geringeren Signifikanzniveau zufrieden. Dann reichen vielleicht schon 100 oder 150 Fälle pro Testvariante.
  • Man arbeitet mit teilfaktoriellen Designs. Dabei kann man weiter unterscheiden in:
    – Vollfaktorielle Designs, bei denen irrelevante Alternativen im Laufe des Test-Flights eliminiert werden. Methodisch ist dieses Verfahren nicht wirklich korrekt, es führt jedoch zu einer Entscheidung für die Alternative mit der besten Konversion. Allerdings erlauben nicht alle Software-Produkte dieses Verfahren.
    – Die Taguchi-Methode: Es wird mit orthogonalen Feldern gearbeitet, um die Zahl der zu testenden Variationen zu minimieren. Dabei sind die Felder so beschaffen, dass die Haupteffekte der untersuchten Faktoren nicht miteinander vermengt werden.
    – Durchführen mehrstufiger Tests: Man muss auch nicht zwingend alle Varianten bei einem einzigen Testlauf prüfen. Häufig ist es so, dass es zwei oder mehrere grundsätzlich verschiedene Konzepte gibt, die man zunächst im Rahmen eines A/B- bzw. Split-Tests vergleicht. Man wählt danach die erfolgreichste Variante und testet zunächst grafische Faktoren, dann in einem weiteren Testlauf Textfaktoren.

Auf diesen Wegen kann der benötigte Traffic reduziert werden. Natürlich kann man auch die Zahl der innerhalb eines Faktors zu testenden Level/Varianten reduzieren. Aber gerade dies ist ein durchaus kritischer Faktor, denn die Praxis zeigt, dass selbst nach vielen Jahren Erfahrung weder der Kunde, noch die betreuende Agentur, noch der Dienstleister der den Test durchführt, die Erfolgschancen von Varianten richtig einschätzen.

6. Testzeitraum und Testlaufzeit

Wann soll ein Test oder eine Reihenfolge von Tests durchgeführt werden? Ist das egal – oder ein wichtiges Kriterium? – Wie so häufig lautet die Antwort auf solche Fragen „Es kommt darauf an.“ Wenn ein Versicherungsunternehmen Landing Pages für wechselwillige Kunden testen will, so ist der November einfach der wichtigste Monat. Der Testzeitraum ist vordefiniert. Im Telekommunikationsmarkt gibt es solche Zyklen nicht oder weniger ausgeprägt. Man kann also freier den Startzeitpunkt des Tests wählen. Die Regel ist einfach: Immer wenn die Kunden im Jahresverlauf ein unterschiedliches Verhalten an den Tag legen, sind der Startzeitpunkt und die Gesamtlaufzeit wichtig. Hier sind Recherchen angebracht. Der Betreiber der Website kennt die unterschiedlichen Verhaltensmuster der Besucher, auch wenn man bei der Durchführung des Tests zweifellos feststellen wird, dass die getroffenen Annahmen – besonders hinsichtlich der Zeiträume – oft nicht korrekt eingeschätzt werden. Es ist ein „Learning“, das man für diese Website in kommenden Perioden nutzen kann.

Test Laufzeit
Test Laufzeit

Daneben ist die Testlaufzeit ein wichtiger Faktor. Selbst wenn das Tool nach drei Tagen sagt, dass der Test für alle Faktoren signifikant sei, ist es im Endkundenbereich ratsam, den Test auf jeden Fall auch über ein Wochenende laufen zu lassen. Samstags und sonntags zeigen die Nutzer – ebenso wie in den Abendstunden häufig ein völlig anderes Verhalten als während der „Office Hours“. Natürlich ist das von der konkreten Zielgruppe der Website abhängig. Dennoch – grundsätzlich ist eine Laufzeit von eine Woche oder ein Vielfaches davon die günstigste Alternative, wenn man nicht gerade die Tauglichkeit von Varianten an verschiedenen Tagen testen mag. Mit zunehmender Laufzeit nivelliert sich dieser Effekt, so dass die Kampagne dann gestoppt werden kann, wenn die Konversionsraten in der Laufzeitgrafik des Tools parallel laufen und das Tool hohe Signifikanz signalisiert.

Zudem ist ein Montag als Startzeitpunkt häufig geeignet. Sollte es bei Start des Tests trotz vielfältiger Kontrollen zu Schwierigkeiten kommen und ein Techniker eingreifen müssen, dann ist das an einem Wochentag leichter möglich als an einem Wochenende. Zudem starten Mediakampagnen häufig auch an Montagen.

7.        Testdurchführung

7.1       Konzeptentwicklung, Workshop & Projektplan

Die Durchführung von Test beginnt meist damit, dass ein Dienstleister den Testgegenstand analysiert. Die möglichen Herangehensweisen müssen untersucht werden. Was kann, was sollte man testen?

Der nächste Schritt besteht in der Durchführung eines Workshops. Hier werden die Testbereiche genauer diskutiert und die Rahmenbedingungen abgeklärt.

  • Welcher Konversionspunkt soll genutzt werden und wie viel Traffic steht zur Verfügung?
    –  Wenn man diese Frage anfänglich klärt, spart man sich für das weitere Vorgehen einiges an Frust und Diskussionen. Hierdurch wird definiert wie viele Varianten voraussichtlich innerhalb welchen Zeitraums getestet werden können.
    – Sollten entsprechende Angaben nicht verfügbar sein, so ist ein sogenannter Baseline-Test durchzuführen, mit dessen Hilfe entsprechende Werte bestimmt werden. Ohne diese Angaben wird es enorm schwierig die Projektlaufzeit zu bestimmen. Es kann dann zu Problemen hinsichtlich der Einsatzplanung kommen.
  • Welche Faktoren sollen getestet werden?
    – Am Anfang steht die Ideensammlung.
    – Systematisierung
    – Hypothesenbildung
    –  Wie viele Tests werden es?
    –  Immer wieder: Reicht das Budget?
  • Wie viele Level sollen für welchen Faktor getestet werden?
    – Dies ist abhängig von den Hypothesen. Besonders bei grafischen Elementen ist es ratsam mit mehr als einer Variante pro Ausprägung zu arbeiten.
    – Wie aufwändig ist die Erstellung der Varianten?
  • Wer führt gestalterische und inhaltliche Arbeiten durch?
    – Hier muss klar sein, dass auch ein entsprechendes Budget vorhanden sein muss. Im Vertrag, mit dem Dienstleister, der den Test durchführt, sind solche Arbeiten i.d.R. nicht enthalten.
    – Wer führt welche Arbeiten durch?

Mit der Beantwortung dieser Fragen lässt sich das Fachkonzept für den Test entwickeln. Konkrete Gestaltungsalternativen sind noch nicht vorhanden, aber ein Projektplan kann ausgearbeitet werden.

In einer nächsten Stufe geht es in die Feinabstimmung. Aufgaben müssen verteilt werden – wer macht was wann? Der Betreiber der Website hat also auch einiges zu tun. Er und/oder sein Kreativdienstleister müssen Texte entwickeln und Bilder gestalten.

Es ist gar nicht verwunderlich, wenn es in diesem kreativen Prozess zu einer Veränderung der Zahl von Levels kommt. Ideen können ausgehen oder sprudeln. Hier ist es die Sache des Projektmanagements die Einflüsse zu bewerten und ggf. einzugreifen oder mit dem Kunden abzustimmen.

7.2 Der Testlauf

Einige Tage bevor der Test live gehen soll, benötigt der Dienstleister das Testmaterial – Grafiken und Texte. In der Testsoftware wird der Test angelegt und es wird überprüft ob die einzelnen Varianten des Tests so aussehen, wie sie sollen. Der Auftraggeber erhält Screenshots der Varianten zur Freigabe.

Um das Verfahren an sich noch einmal kurz zu beschreiben: Die Default-Version der zu testenden Seite läuft auf den Servern des Kunden. Die Varianten laufen in der Testsoftware. Die Testseite wird, während ein Nutzer auf die zu testende Seite gelangt live und on the fly zusammengesetzt. Der Nutzer bekommt also zufällig eine spezielle Testversion der Seite zu sehen. Bei einem erneuten Besuch dieses Nutzers (mit dem gleichen Cookie) bekommt dieser wieder die gleiche Variante zu sehen.

Der Testlauf an sich erfordert ein regelmäßiges Monitoring:

  • Ist der Traffic ausreichend?
  • Kommen genügend Konversionen zustande?
  • Kann die Testlaufzeit verkürzt werden?
  • Muss die Testlaufzeit verlängert werden?
  • Bei aufeinanderfolgenden Tests muss u.U. vor dem Erreichen eines hinreichenden Signifikanzniveaus entschieden werden, mit welcher Variante weitergearbeitet wird.

Wenn der Test beendet wird, stehen die Auswertung und der Bericht an. Hier wünscht man sich natürlich eine möglichst hohe Verbesserung der Konversionsrate. Diese Verbesserung der Konversionsrate im Vergleich zur Default-Variante bezeichnet man als Lift.

Hierbei können die Resultate höchst verschieden sein. Wurde schon ausgiebig getestet, so sind die Verbesserungen erfahrungsgemäß geringer als bei den ersten Tests. Resultate zwischen zehn und 30 Prozent treten häufig auf. Mitunter werden auch Werte erreicht die bei 50 Prozent und höher liegen.

Manchmal – und das kann leider auch passieren – ist die Default-Variante leider die beste. Durch den Test konnte also keine Verbesserung des Ergebnisses erzielt werden. In diesem Fall sollte der Test als Absicherung dafür verstanden werden, dass bei der getesteten Website alles richtig gemacht wird.

Testsoftware

Ich wurde nach einem Vergleich von Softwareprodukten für das Testen gefragt. Bei den oben genannten Produkten handelt es sich um Software der Enterprise-Klasse. Daneben gibt es noch viele weitere Produkte. Ich versuche – so ich demnächst dazu komme – einige Leitlinien für die Bewertung der Produkte aufzustellen.

A/B- und multivariate Tests durchführen (Teil 1)

A/B- und multivariate Testverfahren sind aus der klassischen (Produkt-) Marktforschung bekannt. Dabei werden beispielsweise verschiedene Verpackungsvarianten und ihr Einfluss auf den Verkaufserfolg eines Produkts getestet oder auch Produkte selbst. Prinzipiell gibt es hinsichtlich der klassischen Testverfahren und den neuen Online-Testverfahren kaum Unterschiede. Optimiert werden Websites, Landing Pages, Werbemittel, Texte etc. Das Verfahren an sich bedient sich der Erhebungsmethodik der Web-Analytics.  Die Herangehensweise ist kaum anders als im klassischen Bereich, allerdings können mehr Varianten in kürzerer Zeit getestet werden. Es handelt sich meist auch um Vollerhebungen, was deren Ergebnisse – sobald entsprechende Signifikanzniveaus erreicht sind – ausgesprochen sicher macht. Es gibt keine Stichprobenfehler und auch keine reaktiven Elemente, wie sie beispielsweise Befragungen unsicher machen können. Die verschiedenen Varianten innerhalb eines Tests werden zufällig unter der gleichen Adresse/URL präsentiert.

Zudem ist es bei der Online-Version von A/B- bzw. multivariaten Test so, dass eine Software genutzt wird, die einem einen Großteil der methodischen Arbeit abnimmt. Hersteller wie Webtrends, maxymiser oder Adobe bieten zudem Online-Schulungen für Anwender an. Aus diesem Grund konzentrieren wir uns in diesem Kapitel hauptsächlich auf mögliche Anwendungsfälle und Herangehensweisen.

1. Warum testen?

Es gibt Produkt- und Verpackungstests, die mit A/B-, Split- oder multivariaten Testverfahren durchgeführt werden. Auch in der Werbemittelforschung wird immer wieder mit diesen Verfahren gearbeitet. Dabei handelt es sich meist um Labortests oder Feldtest auf en begrenztem Raum.

Online – so wurde verschiedentlich argumentiert – kann man mit Verfahren der Web-Analytics ohnehin das Nutzerverhalten auf Websites messen und sie auf diesem Weg kontinuierlich verbessern. Sicher – durch das Controlling von Websites mit klassischen Methoden der Web-Analytics ist es möglich Schwachstellen auf Websites zu identifizieren und die Performance zu verbessern. Ob das Ergebnis dabei optimal ist, weiß man leider nicht. Man hat sich zu einer Veränderung der Website entschlossen und diese funktioniert im Nachhinein betrachtet möglicherweise besser als die vorige Version der Website.

Dagegen kann man durch diese hier beschriebenen Verfahren verschiedene Versionen einer Website nahezu synchron testen. Das heißt, man kann in einem A/B- oder Split-Test können zwei oder mehrere grundsätzlich verschiedene Versionen eines Testobjekts entwickeln. Diese werden dann durch die Testsoftware live in die Website eingespielt, so dass die „Teilnehmer“ des Tests nichts davon merken. Auf diesem Weg ist es möglich, sehr viel näher an eine optimale Gestaltung der Website heranzukommen, als das ohne Testen der Fall wäre.

2. Wann A/B- und wann multivariater Test?

Die Tools, die zum Testen benutzt werden erlauben i.d.R. sowohl A/B- und Split-Tests als auch multivariate Tests – auch wenn die technisch statistischen Anforderungen an multivariate Verfahren höher sind.

Im Allgemeinen – aber nicht ohne Ausnahme – ist es so, dass Tests in mehreren Wellen geplant werden. Mit A/B- oder Split-Tests überprüft man den potenziellen Erfolg von grundsätzlich verschiedenen Varianten eines Testobjekts – es geht also um große Ideen, nicht um kleine Veränderungen. Fragestellung und Ergebnis sind einfach.

Aus diesem Grund sind die Tests auch einfach und schnell aufzubauen. Man kann sie auch für Websites mit wenig Traffic benutzten und man bekommt die Ergebnisse deutlich schneller als bei einem multivariaten Test, bei dem viele einzelne Parameter getestet werden. Leider kann man mit diesen Verfahren nur begrenzt die Details eines Untersuchungsobjekts optimieren. Als Ergebnis bekommt man eine Aussage darüber, dass eine Variante die bessere ist, aber weshalb – d.h. auf welche Faktoren dies zurückzuführen ist – weiß man dabei leider nicht.

Wenn man die grundsätzliche Richtung kennt, kann man sich daran machen, die erfolgreichste Variante aus vorangegangenen A/B- oder Split-Tests weiter zu optimieren. Man kann anfangen und verschiedene Buttons, Bilder, Texte und deren Funktionalität zu testen – also multivariat vorgehen.

3. Testgegenstände

Bei Tests kann man in drei Bereichen ansetzen: bei Seiten, Inhalten und beim Traffic – also den potenziell auf eine Seite zugreifenden Nutzern. Testgegenstände im Bereich Seiten von denen man grundsätzliche Varianten mit A/B- oder Split-Tests überprüft, sind beispielsweise

  • Landing Pages
  • Microsites
  • Teaser Pages
  • Produktdetailseiten
  • Formularseiten (z.B. Registrierungen)
  • Bezahlseiten

Landing Pages sind ein dankbares Forschungsfeld. Schließlich geht es an dieser Stelle darum, den Besucher, der auf eine Seite kommt, zu weiteren Aktionen zu bewegen. Da Traffic von Landing Pages noch dazu häufig auch bezahlt werden muss – beispielsweise durch Google-Werbung – ist es besonders wichtig, diese Seiten möglichst gut zu gestalten. Natürlich versuchen Kreativ-Agenturen, Landing Pages zu verbessern. Durch A/B- oder Split-Tests bekommt man aber die wertvolleren Ergebnisse. Wie oben schon beschrieben, geht es darum, die grundsätzlichen Varianten dieser Seitentypen zu vergleichen – also beispielsweise verschiedene Formularkonzepte und nicht etwa das Wording der Labels.

Mit einem multivariaten Test kommt man hier sichtlich weiter, der Inhalt einer Seite wird zerlegt in verschiedene Elemente, und somit Faktoren, die getestet werden können. Es sollten auch stärker beeinflussende Faktoren sein, wie z.B.

  • Buttons (Varianten, Größen, Farben, Call-to-Actions)
  • Bilder (z.B. werden welche benötigt oder nicht? Funktionieren statische besser als animierte? Sollten Bilder besser sachlich oder emotional sein? Funktionieren Frauendarstellungen besser als Männerdarstellungen?)
  • Überschriften (z.B. Funktionieren kurze besser als lange? Welche Textgröße sollen wir wählen? Welche Art der Ansprache ist am besten? Funktionieren andere Überschriftenfarben besser?)
  • Texte (z.B. Ist eine sachliche oder emotionale Ansprache geeigneter? Sollen es nur kurze Texte sein oder sind lange besser? Muss mit Aufzählungen gearbeitet werden oder ist Fließtext auch ok? Welchen Einfluss hat die Anzahl der Argumente auf das Ergebnis?)
  • Farben (z.B. Textfarben, Button-Farben, Farben von Grafiken etc.)
  • Positionen (z.B. soll das Bild besser rechts oder links auf der Seite stehen? Soll die Call to Action besser einmal oder mehrfach an mehreren Stellen genannt werden? Wo funktioniert die Call-to-Action am besten?)

Im Rahmen eines multivariaten Tests werden verschiedene, für den Erfolg der Seite, relevante Faktoren identifiziert. Von diesen Faktoren – beispielsweise einem Button – werden unterschiedliche Varianten entworfen. Diese Varianten werden normalerweise als Level, Ebene oder Ausprägung bezeichnet. Aus der Multiplikation der Zahl der Level pro Faktor erhält man die Zahl der Varianten für ein vollfaktorielles Design. Schon an dieser Stelle muss ich darauf hinweisen, dass die Zahl von Faktoren und deren Ausprägungen begrenzt ist. Im Abschnitt zur Testdurchführung werde ich noch genauer darauf eingehen.

Bisher sind wir auch davon ausgegangen, dass die Nutzer einer Website als eine Einheit zu verstehen sind und Individualisierungen hinsichtlich verschiedener Nutzergruppen nicht berücksichtigt werden müssen. Genau dies kann aber ausgesprochen sinnvoll sein. Vielfach werden auch schon einfache Individualisierungen – v.a. bei AdWord-Kampagnen ohnehin durchgeführt. Ein Beispiel: Sollte beim Google-Suchbegriff „KFZ-Versicherung“ derselbe Begriff in der Überschrift einer Landing Page auftauchen – oder ist vielleicht doch eine einzige Landing Page für die Begriffe „Autoversicherung“ und „KFZ-Versicherung“ ausreichend? Man kann sich noch einige weitere Beispiele überlegen, für die dezidierte Inhalte mehr Erfolg versprechen:

  • Keyword-Gruppen bei SEA-Kampagnen
  • Anzeigenmotive bei Display-Kampagnen
  • Individualisierungen nach Wochentagen und Wocheneden
  • Individualisierungen hinsichtlich Tageszeiten
  • Unterschiedliche Inhalte für unterschiedliche geographische Einheiten (Stadt/Land, Nord/Süd, Bundesländer etc.)
  • Erkennbare Kundensegmente (Demographie, Kaufverhalten, neue vs. wiederkehrende Besucher).

4. Beispiel Landing Page

Ein einfaches und gleichzeitig wichtiges Beispiel für die Elemente einer Page und deren Optimierung ist die Landingpage. Dies hat v.a. auch damit zu tun, dass der Traffic für diese Pages in der Regel Geld kostet und man dies möglichst optimal einsetzen möchte. Die Elemente einer Landingpage werden in der folgenden Abbildung gezeigt:
Beispiel-Struktur Landingpage
Beispiel-Struktur Landingpage
Letztlich enthalten Landing Pages meistens alle Elemente der obigen Abbildung:
  1. Navigation
    Hierbei wird häufig überprüft, ob diese besser am Kopf oder am Fuß der Seite steht, welchen Umfang sie haben soll, oder ob man sie vielleicht doch eher ganz weglassen sollte (bzw. sie auf einen einzigen Punkt „home“ reduziert.)
  2. Bild /Bilder
    Häufig wird über das Motiv an sich diskutiert und es werden verschiedene Ansätze getestet. Daneben spielen die Größe des Motivs und seine Position häufig auch noch eine Rolle beim Test.
  3. Überschrift
    Testelemente sind nicht nur der Inhalt, sondern auch Textfarbe und Textgröße.
  4. Text /Textaufbereitung
    Neben dem Inhalt und der Informationsmenge sollte auch die Aufbereitung getestet werden. Einzelne Punkte sind erstaunlicherweise nicht immer besser als größerte Textblöcke.
  5. Buttons
    Dimensionen des Testens sind hier Farben, Call-to-Actions, und die Frage, ob die Buttons besser wirken, wenn sie animiert, bzw. wenn sie statisch sind.
Im Grunde können Sie für diese Tests die Elemente der Abbildung frei verschieben, deren Größe ändern etc. Allerdings – und auch darauf sollte man achten – ist nicht alles was man testen könnte auch wirklich relevant und wichtig. Es sollte auch bewertet werden, Welches sind die wichtigsten zu testenden Elemente?
Im zweiten Teil des Beitrags geht es dann um die Planung von Tests hinsichtlich des notwendigen Traffics, Testzeitpunkte & Testlaufzeiten sowie die konkrete Durchführung von Tests.

Hier geht es zum zweiten Teil des Artikels.