Gefahren bei der Interpretation von A/B-Tests

Falls Sie sich bereits oft mit Website-Testing beschäftigen, kennen Sie das Phänomen vielleicht: Sie führten einen A/B Test scheinbar erfolgreichen durch, können die Resultate in der Praxis aber nicht reproduzieren. Oder die Resultate lassen sich erst mal reproduzieren, aber irgendwie ändern sie sich mit der Zeit. Solche und andere Effekte lassen sich beobachten – nur weshalb und wie geht man damit um?

Das Thema machte kürzlich in den sozialen Medien die Runde und wurde auch in einem Artikel vom “Conversion Doktor” Gabriel Beck aufgenommen. Los getreten wurde das Ganze aufgrund eines englischsprachigen Artikels von Analytics Impact welcher folgende Beobachtungen ausführt:

  • Resultate eines Website-Test lassen sich nicht immer reproduzieren, auch wenn diese statistisch signifikant sind
  • Bei A/B-Tests die man über einen längere Zeitraum von Monaten laufen lässt, kann man teilweise beobachten, dass die Resultate der beiden Version konvergieren (sich angleichen)

Das wirft schon einige ganz interessante Frage auf, auf die ich noch kommen werde. Die Diskussion welche die  Artikel erzeugen können, finde ich schon ganz interessant. Nichtsdestotrotz – oder erst Recht – möchte ich nicht nur hinterfragen sondern auch zwei der Behauptungen des Artikels klar wiederlegen, weil diese definitiv auf falschen Annahmen basieren.

Die Knacknuss ist wie so oft die Interpretation der Daten.

Im zweiten Teil des zitierten Artikels von Analytics Impact werden zur Interpretation dieser Beobachtungen Behauptungen aufgestellt, die schlicht und ergreifend falsch sind und daher erstmal die Korrektur:

  1. Signifikanz: Wenn in einem A/B-Test die Original-Version 4% und der Herausforderer 6% Conversion-Rate (CR)  bei einem Vertrauensbereich von 97% erreichen, heisst das sehr wohl, dass es zu 97% wahrscheinlich ist, dass es einen Uplift von 50% geben wird. Die Signifikanz wird ja bestimmt in dem die Standardabweichung der Conversion-Rates berechnet wird. Und dann je nach gewünschtem Vertrauensbereich mit der Differenz der CR’s verglichen wird. Und aus dem Vertrauensbereich von 97% lässt sich direkt die Irrtumswahrscheinlichkeit von 3% ableiten. Signifikanz liegt dann vor, wenn die Irrtumswahrscheinlichkeit kleiner oder gleich dem Signifikanzniveau ist. Mehr zu statistischen Grundlagen beispielsweise hier. Volles Verständnis wenn einem das nicht mehr ganz präsent ist, sollte aber in Erinnerung gerufen werden wenn man solche Dinge beurteilen möchte.
  2. Ungenügende Stichprobengrösse: Es kommt bis zu einem gewissen Grad auf die Stichprobengrösse an, im Modell der Statistik aber nur um die  Irrtumswahrscheinlichkeit auf eine bestimmtes Mass zu senken. Darüber hinaus ist es aber viel wichtiger – wie sie gleich erkennen werden – dass eine Zufallsstichprobe vorliegt; und genau da liegt der Hund bei Website-Tests begraben.

-> Das heisst die Signifikanz ist nicht „Schuld“ und es liegt wohl zumeist auch nicht an zu kleinen Stichproben.

Woran liegt es dann, dass es eben doch passieren kann, dass sich signifikante Resultate eines A/B-Tests nicht wiederhohlen lassen?

Es gibt keine Testresultate mit 100%-iger Sicherheit: Selbst bei einem  Vertrauensbereich von sehr hohen 99% beträgt die Irrtumswahrscheinlichkeit immer noch 1%. Das heisst der Zufall spielt immer mit. Und mit dem Zufall ist es so ne Sache. Ein Konzept das manchmal schwer zu fassen ist. So kann paradoxerweise bei einem ein- oder zweimal durchgeführten Website-Test nicht automatisch von einer geringeren Irrtumswahrscheinlichkeit auf eine höhere Wiederholbarkeit geschlossen werden. Dieser Schluss geht erst auf wenn der Test sehr oft wiederholt wird. Weil eben der Zufall mitspielen kann und wie der mitspielt kann nur für eine Stichprobe bemessen werden und nicht für einzelne Elemente einer Stichprobe. Uns wurde früher immer gesagt:

“Ein Mal messen ist kein Mal messen”

Jeder Website Test unterliegt Störfaktoren und äusseren Einflüssen. Einerseits bedingt durch die Art zu Messen (technische Einflüsse wie Limitierung durch Javascript etc), aber vor allem auch durch äussere Einflüsse wie beispielsweise die Selektion der Besucher durch Marketing-Kanäle. Das heisst die Frage ist nicht nur ob eine Test signifikant ist, technisch alles korrekt ablief sondern eben auch ob eine Zufallsstichprobe vorliegt.

A/B-Tests müssen auf Zufallstichproben basieren

Eine Website selektiert Ihre Besucher ganz stark durch Inhalte und Ansprache via die Kanäle. Wenn sich nun die Zusammensetzung der Stichprobe während des Tests über einen zufälligen Bereich hinaus verändert, kann von der Stichprobe nicht mehr auf den Rest der Website geschlossen werden – und schon gar nicht auf künftige Website-Besucher.
Die Sache ist nur die, dass solche Veränderungen nicht aufs erste offensichtlich sind, weil die betrachteten Webanalyse-Kennzahlen oftmals unsegmentierte Durschnittswerte der gesamten Website sind.

Darüber hinaus sollte das Ganze auch im Zeitverlauf betrachtet werden: Aufgrund der Dynamik einer Website ist davon auszugehen, dass sich die angenommene Grundgesamtheit der Websitebesucher mit der Zeit verändert. Und daher die Zufallsstichprobe eines Website-Tests für die heute Gültigkeit angenommen werden kann, diese mit der Zeit langsam aber sicher verlieren wird. Wir werden noch sehen woran man das erkennen kann.

Das sich zwei Varianten eines A/B-Test wie eingangs beschrieben nach längere Zeit angleichen, kann bis zu einem gewissen Grad durch die mit der Zeit sinkende Irrtumswarscheinlichkeit erklärt werden. Bei sich stark angleichenden Test-Resultaten ist möglich, dass die Stichprobe nicht randomisiert (zufällig ausgewählt) wurde. Oder sich die Zusammensetzung der Website-Besucher im Laufe der Zeit so verändert hat, dass nicht mehr von einer Zufallsstichprobe gesprochen werden kann. Und das passiert mit der Zeit bei jeder Website – garantiert. Die Frage ist nur wie lange das dauert und wie man das erkennt.

Hinsichtlich Website-Tests ergeben sich daraus folgende Fragen

Und auf diese Fragen gehe ich im nächsten Artikel ein, oder im übernächsten mal schauen ; – ) Jedenfalls schon bald, versprochen!

Falls Sie an Conversion Optimierung und A/B Tests interessiert sind finden Sie weitere Infos auf der verlinkten Firmenwebsite.

Schlagwörter:, ,

3 Responses to : Gefahren bei der Interpretation von A/B-Tests

  1. Pingback: Die Zeichen richtig deuten: Haben Website-Tests ein Haltbarkeitsdatum? — Online-Marketing optimieren

  2. Pingback: 5 grobe Testing-Fehler, die viel Geld kosten können | Conversion Optimierung, Landingpage Optimierung - KonversionsKRAFT

  3. Pingback: 5 grobe Testing-Fehler, die viel Geld kosten können | konversionsKRAFT

Hinterlasse eine Antwort

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind markiert *

*

Du kannst folgende HTML-Tags benutzen: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>