Die Zeichen richtig deuten: Haben Website-Tests ein Haltbarkeitsdatum?

Februar 16, 2012 Categories: Conversion Optimierung by David Kuruc 5 Comments

Die Erfahrung zeigt, dass sich Website-Tests und insbesondere A/B Tests meistens zuverlässig wiederholen lassen – falls gewisse Regeln eingehalten werden. Es kann jedoch vorkommen, dass sich ein Test nicht aufs erste reproduzieren lässt. Zudem ändern sich Websites und deren Besucher mit der Zeit, so dass regelmässiges Testen angesagt ist. Die Frage ist nur: Wie erkenne ich die Zeichen?

Im Beitrag Gefahren bei der Interpretation von A/B Tests bin ich auf Stolpersteine bei der Interpretation von Website-Tests eingegangen und möchte nun auf die dort aufgeworfenen Fragen vertiefen:

Was tun wenn sich ein A/B Test in der Praxis nicht reproduzieren lässt?

Wenn sich Erkenntnisse aus einem Website-Test in der Praxis nicht reproduzieren lassen kann das das an Störfaktoren oder am Zufall liegen welche die Resultate des Tests negativ beeinflussten. Das kommt zwar nicht oft vor, wenn man Störfaktoren möglichst ausschliesst und vor allem ein Auge auf Unregelmässigkeiten in der Zusammensetzung der Website-Besucher hat, doch darauf kommen wir gleich.
Wie gesagt neben den Störfaktoren kann auch der Zufall mitspielen. Wenn dann die Situation vorliegt, dass sich ein A/B-Test weshalb auch immer nicht reproduzieren lässt, befindet man sich in einer Patt-Situation. Und um die Testhypothese zu verwerfen oder zu bestätigen muss das Experiment wiederholt werden.
Wobei dann die Wiederholung über das Schicksal der Testhypothese entscheiden kann. Sie erinnern sich: Einmal messen ist kein mal messen. Das lässt sich einfach verdeutlichen indem Sie sich zwei entfernte Punkt auf einem X/Y Koordinatensystem vorstellen. Und jetzt fügen Sie in einem zweiten Koordinatensystem einen  dritter Punkt hinzu der nahe beim ersten Punkt liegt dazu. Welcher Wert ist vermutlich korrekt?

Klar wird daraus auf jeden Fall, dass es keinen Sinn macht aus zwei Datenpunkten (Tests) mit starker Abweichung Schlüsse zu ziehen. Übrigens im wissenschaftlichen Kontext geht man oftmals von mindestens drei Messungen aus um ein Resultat einigermassen präzise und genau zu bestimmen; oftmals sogar von 5 Messungen.
Aber bleiben wir beim Website-Testing. Ein Mal messen heisst im Kontext von Website-Testing solange zu messen bis das Kriterium (Signifikanzniveau) erfüllt ist. Aus praktischen Gründen wird ein A/n-Test im Regelfall nur dann wiederholt, wenn es Anzeichen für Unregelmässigkeiten gibt oder anzunehmen ist, dass dieser „nicht repräsentativ“ ist bzw. auf keiner Zufallsstichprobe basiert – darauf komme ich gleich zurück. Anders bei multivariaten Tests. Diese sind vom zugrundeliegenden mathematischen Modell und auch technisch gesehen störungsanfälliger. Daher wird ein multivariater Test eigentlich immer wiederholt oder gewisse Resultate mit einem A/B Test verifiziert.

Woran erkenne ich, dass mein Website-Test nicht „repräsentativ“ ist –  bzw. auf keiner Zufallsstichprobe basiert?

Immer wieder tauchen Fragen auf bezüglich der Repräsentativität von Website-Tests. Wie lange muss man einen A/B Test laufen lassen bis er repräsentativ ist? Oder wie viele Prozent der Website-Besucher soll ich über den Website-Test leiten damit er repräsentativ wird? Das sind gute Fragen jedoch ist die umgangssprachlich Begrifflichkeit „Repräsentativität“ in dem Kontext ein wenig  irreführend. Denn Website-Test basieren jedoch auf statistischen Methoden (induktive Statistik), welche eine Zufallsstichprobe voraussetzen.
Das heisst es geht NICHT um eine ganz bestimmte Zusammensetzung der Stichprobe wie der Begriff unterstellt sondern darum, dass diese MÖGLICHST nach dem Zufallsprinzip erhoben wurde. Wobei alle Elemente einer Grundgesamtheit (hier die Websitebesucher) die gleiche Chance haben sollten am Experiment teilnehmen zu können. „Repräsentativität“ wird bei einem Website-Test quasi erreicht, wenn eine für den gewählten Vertrauensbereich genügend grosse Zufallsstichprobe vorliegt.

Bei einem A/B- oder multivariaten Test werden den Besuchern Varianten der Website nach dem Zufallsprinzip eingeblendet um eine Zufallsauswahl sicherzustellen. Dieses Auswahlverfahren ist jedoch relativ störanfällig, weil sich die Zusammensetzung der Website Besucher bedingt durch äussere Einflüsse wie Kampagnen oder andere Aktionen kurzfristig stark ändern können. Und zwar sowohl wenn die Testdauer zu kurz aber auch zu lange gewählt wird.
Dieses Dilemma liesse sich durch eine mehrstufige Zufallsauswahl auflösen; beispielsweise in dem der gleiche Test innerhalb eines längeren Zeitraums an nach dem Zufallsprinzip ausgewählten Tagen wiederholt und dann zusammengerechnet würde. Das ist jedoch meistens nicht praktikabel. Konsequent zu Ende gedacht müsste die Stichprobenauswahl dann über ein ganzes Jahr verteilt werden und daraus würde DIE super Stichprobe resultieren – für die retrospektive Betrachtung :-( Wie Sie jedoch gleich sehen werden, ist bei Websites von einer sich ändernden Grundgesamtheit auszugehen, was so oder so regelmässiges und erneutes Testen bedingt.
Praktikabler und daher üblich ist es über einen kürzeren Zeitraum von beispielsweise 2-3 Wochen zu testen. Darüber hinaus kann eine pragmatische Beurteilung der Stichproben und deren Zusammensetzung aufgrund der Webanalyse-Daten vorgenommen werden. Das ist das grosse Glück bei der ganzen Geschichte: Wir können ohne grossen Aufwand die Stichprobe in ihre Bestandteile zerlegen und analysieren und dabei auch den Zeitraum vor und nach dem Test berücksichtigen. Denn Website-Tests lassen sich ganz einfach mit den Webanalyse-Daten koppeln und das bietet einem eine Fülle von Insights –ist doch super – oder nicht?

Jeder konventionelle Marktforscher bekäme vermutlich spontan multiple Orgasmen ob dieser und andere Möglichkeiten in der Online-Welt. Um starke Schwankungen geht es auch bei der Beurteilung der Stichprobe. Hier jedoch nicht um die Schwankung von „gewissen“ Gefühlszuständen sondern um Schwankungen von Webanalyse-Kennzahlen im Zeitverlauf.
Jede Kennzahl oszilliert natürlicherweise um einen bestimmten Mittelwert. Eine genügend grosse Datenmenge und Zeitdauer vorausgesetzt, lässt sich mit Hilfe der Standardabweichung vom Mittelwert (hier deskriptive Statistik) ermitteln, ob Abweichungen nach oben oder nach unten mehr als nur zufällig sind. Sie können sich das ruhig mal  als Darstellung in den Webanalyse-Daten vorstellen oder folgendes Bild betrachten.

Diese natürliche Schwankung erfolgt innerhalb eines bestimmten Bandes um den Mittelwert der Kennzahl. Dieses „Band“ ergibt sich aus der Schwankung nach oben und nach unten jeweils um die Standardabweichung der jeweiligen Kennzahl.
Die Frage ist nun, ob und ab welchem Schwellenwert eine Abweichung von diesem Band nach oben oder nach unten mehr als nur zufällig ist. Je nach dem wird dazu zwei bis drei Mal die Standard Abweichung nach oben und nach unten als Kontroll-Limit definiert. Ausführlich beschrieben wird das Thema Kontroll-Limits in der Webanalyse im Blogbeitrag von  Avinash Kaushik. Dort finden Sie auch das Excel Tool zur Bestimmung der Kontroll-Limits. Einfach die Daten aus dem Webanalyse Tool einfügen und analysieren. Und die Standardabweichung anpassen.

Die kurzfristigen Ausschläge (Peaks) welche über die  Kontroll- Limit aus dem „Rauschen“ herausragen sollten untersucht werden. Beziehungsweise der Zeitraum des Experiments so gesetzt werden, dass solche Überschreitungen nicht vorkommen. Wichtig ist, dass die Standardabweichung aufgrund von einem längeren Zeitraum als die Testdauer bestimmt werden; am besten einige Wochen oder Monate. Als Webanalyse-Kennzahlen eignen sich hier solche, die auf äussere Einflüsse hinweisen jedoch keine abhängigen Variablen des Test sind; geeignet sind beispielsweise Kennzahlen wie Traffic/Kanal nicht geeignet sind Conversion-Rates weil diese eben „vom Test abhängig“ sind.

Das beschrieben Vorgehen ermöglicht es auf pragmatische Art  und Weise die Qualität der Stichprobe zu verbessern, indem Extrema aufgrund von äusseren Störfaktoren ausgeschlossen werden. Der Vorteil liegt auch darin, dass die Ausschlusskriterien dabei klar definiert werden können und so eine systematische Verzerrung (Bias) ausgeschlossen wird. Somit ist das Verfahren unter den beschriebenen Voraussetzungen sicherlich ein praktikabler Weg um validere und wiederholbare Ergebnisse durch eine bessere Stichprobenauswahl zu erzeugen. Schön, doch selbst falls ein valider Website-Test vorliegt der auf einer möglichst guten Stichprobenauswahl basiert stellt sich immer noch die Frage:

Wie lange ist ein A/B- oder multivariater Test haltbar?

Grundsätzlich ist ein A/B Test so lange haltbar wie sich die Grundgesamtheit der Website Besucher nicht ändert oder die Website in Ihrem Design oder Inhalten so verändert wird, dass dies die bereits getesteten Elemente beeinflusst. Alles klar?! Es gibt natürlich kein allgemeingültiges Haltbarkeitsdatum von Website- Tests. Aber das schöne ist, dass wir wie beschrieben Webanalyse-Daten zu Hilfe nehmen können. Wobei es hier nicht nur um kurzfristigen Abweichungen (Peaks) wie oben geht, sondern um fundamentale und eher längerfristige Änderungen beispielsweise des Traffics pro Kanal.

Dabei kann im Prinzip mit Kontroll-Limits wie oben gearbeitet werden. Falls diese erreicht werden ist Zeit zu prüfen ob neu getestet werden soll. Wobei hier im Gegensatz zu oben auch weitere Kennzahlen wie Conversion-Rates oder vorgelagerte Kennzahlen wie Micro-Conversions zu Rate gezogen werden können und sollen. Der Unterscheid zu oben liegt darin, dass nicht aufgrund von Testresultaten auf die Grundgesamtheit geschlossen werden soll sondern nur Entwicklungen innerhalb der Daten analysiert werden.
Wenn sich die Veränderungen jenseits der Kontroll-Limits auf weitere Kennzahlen niederschlagen, dann ist die Zeit reif um neu zu testen oder. Bei Veränderungen an der Website müssen wie Eingangs erwähnt ältere Testresultate so oder so hinterfragt und allenfalls neu getestet werden.

Fazit:
Die Vorhersagekraft von Website-Tests lässt sich verbessern indem die Stichprobenqualität mithilfe der Webanalyse-Zahlen überprüft und allenfalls der Zeitraum des Tests angepasst wird. Das Ablaufdatum eines Website-Tests kann auch relativ einfach anhand von Kontroll-Limts und der Webanalyse-Kennzahlen bestimmt werden. Damit können die Optimierungs-Zyklen besser geplant und abgestimmt werden um die Effizienz und Effektivität der Optimierungsmassnahmen zu maximieren.

Schlagwörter:, , ,

5 Responses to : Die Zeichen richtig deuten: Haben Website-Tests ein Haltbarkeitsdatum?

  1. Ein sehr ausführlicher und guter Artikel zu Splittests. Danke dafür! :)

  2. danke für die ausführliche Erklärung, gerade wenn man nicht sauber und dauerhaft zum testen kommt, wie es bei uns der Fall ist, ist es wichtig wenigstens bei der Auswahl alles richtig zu machen.

  3. Frank Witte says:

    In aller Regel will man bei einem A/B-Test in Kürze wissen welche von beiden Alternative die bessere ist, für langwierige Untersuchungen ist keine Zeit, und man lebt dann damit dass die Stichprobe nicht wirklich repräsentativ ist.

    Das beschriebene Verfahren ist einerseits sehr gut und das Vorgehen sehr professionell, aber in der Praxis hat man bei jeder größeren Website hat man außerdem derart oft Änderungen im Userverhalten wie beim Unternehmen selbst dass es eher theoretisch ist einen längeren Zeitpunkt zu betrachten um Schwankungen zu minimieren. Man bekommt bei einer zu kleinen Stichprobe zwar auch keine validen Daten, aber bei einer größeren und länger währenden Betrachtung sind derart viele Einflußfaktoren vorhanden dass man sich bei jedem Parameter vertun kann und dann auch nicht das Richtige hinten rauskommt…

  4. Pingback: Gefahren bei der Interpretation von A/B-Tests — Online-Marketing optimieren

  5. David Kuruc says:

    @all: Vielen Dank für Ihre Kommentare!

    @Frank Witte: Sie haben sicherlich insofern recht, als es eine gewisse Herausforderung darstellen kann die richtigen Kennzahlen im jeweiligen Kontext herauszukristallisieren. Und dabei geht es natürlich darum die Komplexität zu managen um die Einflussfaktoren richtig abschätzen zu können. Und jemand der Conversions zuverlässig optimieren will muss das können.

    Und als Ergänzung:

    - es geht hier primär um die Stichprobenselektion durch den gewählten Testzeitraum und NICHT um die Stichprobengrösse. Falls die Stichprobengrösse für den gewünschten Vertrauensbereich erreicht ist, bringt eine grössere Stichtprobe keine wesentliche Verbesserung der Validität mehr. Und das ist relativ schnell erreicht und stellt daher oftmals keine Limitierung dar

    - Die Betrachtung der Webanalyse-Daten eines längeren Zeitraums vor und nach dem Test stellt eine einfache und zuverlässige Methode dar um die Stichprobenqualität einzuschätzen und validere Tests zu erreichen (wenn kurze Zeiträume getestet werden)
    Beispiel: Ein Spot für ein Gewinnspiel bringt massig unspezifischen Traffic der kaum konvertiert auf eine grossen Shop. Oder das vierteljährliche Mailing an die Stammkunden einer kleine Website bringt sehr spezifischen Traffic der besser konvertiert etc. etc.

    - Die Untersuchung von längeren Zeiträumen kann sehr wohl eine Methode sein bei
    1. Optimierungen die eher längerfristigen Charakter haben: zB Seiten wie Amazon welche keinen grossen Änderungen jedoch Sicherheit wollen.
    2. Um Testergebnisse validieren. Dem Thema Validierung gerade von ganzen Testreihen wird man sich in Zukunft bestimmt mehr widmen, zumal es noch weitere Einflüsse gibt welche Tests verfälschen können, doch darauf komme ich noch zurück

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>