Der vollständige Leitfaden für A/B-Tests: Expertentipps von Google, HubSpot und mehr

Veröffentlicht: 2020-04-10

Dies ist wahrscheinlich nicht das erste Mal, dass Sie etwas über A/B-Tests lesen. Möglicherweise testen Sie sogar bereits Ihre E-Mail-Betreffzeilen oder Ihre Social-Media-Beiträge A/B-Tests.

Trotz der Tatsache, dass im Bereich Marketing viel über A/B-Tests gesprochen wurde, verstehen viele Leute immer noch etwas falsch. Das Ergebnis? Menschen, die wichtige Geschäftsentscheidungen auf der Grundlage ungenauer Ergebnisse eines unsachgemäßen Tests treffen.

A/B-Tests werden oft zu stark vereinfacht, insbesondere bei Inhalten, die für Ladenbesitzer geschrieben wurden. Nachfolgend finden Sie alles, was Sie wissen müssen, um mit den verschiedenen Arten von A/B-Tests für E-Commerce zu beginnen, so einfach wie möglich erklärt.

Inhaltsverzeichnis

Was ist A/B-Testing?
Wie A/B-Tests funktionieren
Was ist A/B/n-Testing?
Wie lange sollten A/B-Tests laufen?
Warum sollten Sie A/B-Tests durchführen?
Was sollten Sie A/B testen?
Priorisierung von A/B-Testideen
Ein Crashkurs in AB-Teststatistiken
So richten Sie einen A/B-Test ein
So analysieren Sie A/B-Testergebnisse
So archivieren Sie vergangene A/B-Tests
A/B-Testverfahren der Profis
Optimieren Sie A/B-Tests für Ihr Unternehmen

Was ist A/B-Testing?

A/B-Tests, manchmal auch als Split-Tests bezeichnet, sind der Prozess, bei dem zwei Versionen derselben Webseite, E-Mail oder eines anderen digitalen Assets verglichen werden, um festzustellen, welche Version besser abschneidet.

Dieser Prozess ermöglicht es Ihnen, wichtige Geschäftsfragen zu beantworten, hilft Ihnen, mehr Umsatz aus dem bereits vorhandenen Traffic zu generieren, und bildet die Grundlage für eine datenbasierte Marketingstrategie.

Erfahren Sie mehr: So führen Sie eine SWOT-Analyse für Ihr Unternehmen durch

Wie A/B-Tests funktionieren

Wenn Sie A/B-Tests im Marketingkontext verwenden, zeigen Sie 50 % der Besucher Version A Ihres Assets (nennen wir dies die „Kontrolle“) und 50 % der Besucher Version B (nennen wir dies die „Variante“).

Die Version mit der höchsten Conversion-Rate gewinnt. Nehmen wir zum Beispiel an, die Variante (Version B) hat die höchste Conversion-Rate erzielt. Sie würden es dann zum Gewinner erklären und 100 % der Besucher auf die Variante lenken.

Dann wird die Variante zum neuen Steuerelement, und Sie müssen eine neue Variante entwerfen.

Es ist erwähnenswert, dass die Conversion-Rate eines A/B-Tests ein unvollkommenes Maß für den Erfolg ist. Warum? Sie können Ihre Konversionsrate sofort erhöhen, indem Sie alles in Ihrem Shop kostenlos machen. Natürlich ist das eine schreckliche Geschäftsentscheidung.

Deshalb sollten Sie den Wert einer Conversion bis hin zum Klingeln einer Kasse nachverfolgen.

Kostenlose Leseliste: Conversion-Optimierung für Einsteiger

Verwandeln Sie mehr Website-Besucher in Kunden, indem Sie einen Crashkurs in Conversion-Optimierung besuchen. Greifen Sie unten auf unsere kostenlose, kuratierte Liste mit wirkungsvollen Artikeln zu.

Was ist A/B/n-Testing?

Mit A/B/n-Tests können Sie mehr als eine Variante gegen die Kontrolle testen. Anstatt also 50 % der Besucher die Kontrolle und 50 % der Besucher die Variante zu zeigen, könnten Sie 25 % der Besucher die Kontrolle, 25 % die erste Variante, 25 % die zweite Variante und 25 % die dritte Variante zeigen.

Hinweis: Dies unterscheidet sich vom multivariaten Testen, das auch mehrere Varianten umfasst. Wenn Sie multivariate Tests durchführen, testen Sie nicht nur mehrere Varianten, sondern auch mehrere Elemente, wie z. B. A/B-Tests, UX oder SEO-Split-Tests. Das Ziel ist herauszufinden, welche Kombination am besten funktioniert.

Multivariater Test — Bildquelle: *Google* .

Sie benötigen viel Datenverkehr, um multivariate Tests auszuführen, daher können Sie diese vorerst ignorieren.

Wie lange sollten A/B-Tests laufen?

Führen Sie Ihren A/B-Test mindestens einen, idealerweise zwei volle Geschäftszyklen durch. Beenden Sie Ihren Test nicht, nur weil Sie die Signifikanz erreicht haben. Sie müssen auch Ihre vorgegebene Stichprobengröße einhalten. Vergessen Sie schließlich nicht, alle Tests in Schritten von einer ganzen Woche durchzuführen.

Warum zwei volle Konjunkturzyklen? Für Starter:

Sie können „Ich muss darüber nachdenken“-Käufer berücksichtigen.
Sie können alle verschiedenen Verkehrsquellen (Facebook, E-Mail-Newsletter, organische Suche usw.)
Sie können Anomalien berücksichtigen. Zum Beispiel Ihr Freitags-E-Mail-Newsletter.

Wenn Sie irgendeine Art von A/B- oder Zielseiten-Testtool verwendet haben, sind Sie wahrscheinlich mit dem kleinen grünen „Statistisch signifikant“-Symbol vertraut.

Für viele ist das leider das universelle Zeichen für „der Test ist gekocht, nenn es“. Wie Sie weiter unten mehr erfahren werden, heißt das nicht, dass Sie den Test abbrechen sollten, nur weil die statistische Signifikanz des A/B-Tests erreicht wurde.

Und Ihre vorgegebene Stichprobengröße? Es ist nicht so einschüchternd, wie es scheint. Öffnen Sie einen Stichprobengrößenrechner, wie diesen von Evan Miller.

Diese Berechnung besagt, dass Sie, wenn Ihre aktuelle Conversion-Rate 5 % beträgt und Sie einen Effekt von 15 % erkennen möchten, eine Stichprobe von 13.533 pro Variation benötigen. Insgesamt werden also über 25.000 Besucher benötigt, wenn es sich um einen Standard-A/B-Test handelt.

Beobachten Sie, was passiert, wenn Sie einen kleineren Effekt erkennen möchten:

Alles, was sich geändert hat, ist der minimal nachweisbare Effekt (MDE). Sie wurde von 15 % auf 8 % gesenkt. In diesem Fall benötigen Sie eine Stichprobe von 47.127 pro Variante. Insgesamt werden also fast 100.000 Besucher benötigt, wenn es sich um einen Standard-A/B-Test handelt.

Unabhängig davon, ob Sie A/B-Tests, UX- oder SEO-Split-Tests durchführen, sollte Ihre Stichprobengröße im Voraus berechnet werden, bevor Ihr Test beginnt. Ihr Test kann nicht beendet werden, selbst wenn er Signifikanz erreicht, bis die vorgegebene Stichprobengröße erreicht ist. Ist dies der Fall, ist der Test ungültig.

Aus diesem Grund können Sie Best Practices wie „Nach 100 Conversions stoppen“ nicht ziellos folgen.

Es ist auch wichtig, Tests für ganze Wochenschritte durchzuführen. Ihr Traffic kann sich je nach Wochentag und Tageszeit ändern, daher sollten Sie jeden Wochentag berücksichtigen.

Warum sollten Sie A/B-Tests durchführen?

Angenommen, Sie geben 100 US-Dollar für Facebook-Anzeigen aus, um 10 Personen auf Ihre Website zu leiten. Ihr durchschnittlicher Bestellwert beträgt 25 $. Acht dieser Besucher gehen, ohne etwas zu kaufen, und die anderen beiden geben jeweils 25 $ aus. Das Ergebnis? Sie haben 50 Dollar verloren.

Nehmen wir nun an, Sie geben 100 US-Dollar für Facebook-Anzeigen aus, um 10 Personen auf Ihre Website zu leiten. Ihr durchschnittlicher Bestellwert beträgt immer noch 25 $. Diesmal gehen jedoch nur fünf dieser Besucher, ohne etwas zu kaufen, und die anderen fünf geben jeweils 25 Dollar aus. Das Ergebnis? Du hast 25 Dollar verdient.

Dies ist natürlich eines der einfacheren A/B-Testbeispiele. Aber durch die Erhöhung der Konversionsrate vor Ort haben Sie denselben Traffic wertvoller gemacht.

A/B-Testbilder und -texte helfen Ihnen auch dabei, Erkenntnisse zu gewinnen, unabhängig davon, ob Ihr Test gewinnt oder verliert. Dieser Wert ist sehr gut übertragbar. Beispielsweise könnte ein Copywriting-Insight aus einem A/B-Test für Produktbeschreibungen dabei helfen, Ihr Leistungsversprechen, ein Produktvideo oder andere Produktbeschreibungen zu untermauern.

Sie können auch den inhärenten Wert nicht ignorieren, der sich auf die kontinuierliche Verbesserung der Effektivität Ihres Geschäfts konzentriert.

Sollten Sie A/B-Tests durchführen?

Nicht unbedingt. Wenn Sie eine Website mit geringem Datenverkehr oder eine Web- oder mobile App betreiben, sind A/B-Tests wahrscheinlich nicht die beste Optimierungsmaßnahme für Sie. Sie werden wahrscheinlich einen höheren Return on Investment (ROI) sehen, wenn Sie beispielsweise Benutzertests durchführen oder mit Ihren Kunden sprechen.

Entgegen der landläufigen Meinung beginnt und endet die Conversion-Rate-Optimierung nicht mit dem Testen.

Betrachten Sie die Zahlen aus dem Beispielgrößenrechner oben. 47.127 Besucher pro Variante, um einen Effekt von 8 % zu erkennen, wenn Ihre Basis-Conversion-Rate 5 % beträgt. Angenommen, Sie möchten eine Produktseite testen. Hat es in zwei bis vier Wochen fast 100.000 Besucher?

Warum zwei bis vier Wochen? Denken Sie daran, dass wir Tests für mindestens zwei vollständige Geschäftszyklen durchführen möchten. In der Regel sind das zwei bis vier Wochen. Jetzt denken Sie vielleicht: „Kein Problem, Shanelle, ich lasse den Test länger als zwei bis vier Wochen laufen, um die erforderliche Stichprobengröße zu erreichen.“ Das wird auch nicht funktionieren.

Denn je länger ein Test läuft, desto anfälliger ist er für externe Validitätsbedrohungen und Probenverschmutzung. Beispielsweise könnten Besucher ihre Cookies löschen und am Ende als neuer Besucher erneut in den A/B-Test aufgenommen werden. Oder jemand könnte von seinem Mobiltelefon auf den Desktop wechseln und eine alternative Variante sehen.

Im Wesentlichen ist es genauso schlimm, Ihren Test zu lange laufen zu lassen, wie ihn nicht lange genug laufen zu lassen.

Das Testen lohnt sich für Geschäfte, die die erforderliche Stichprobengröße in zwei bis vier Wochen erreichen können. Shops, die dies nicht können, sollten andere Formen der Optimierung in Betracht ziehen, bis ihr Traffic zunimmt.

Julia Starostenko, Datenwissenschaftlerin bei Shopify, stimmt zu und erklärt:

Julia Starostenko, Shopify

„Experimentieren macht Spaß! Aber es ist wichtig, sicherzustellen, dass die Ergebnisse korrekt sind.

„Fragen Sie sich: Ist Ihr Publikum groß genug? Haben Sie genug Daten gesammelt? Um eine echte statistische Signifikanz (innerhalb eines angemessenen Zeitrahmens) zu erreichen, muss die Zielgruppe groß genug sein.“

Was sollten Sie A/B testen?

Ich kann Ihnen nicht sagen, was Sie A/B-testen sollten. Ich weiß, ich weiß. Es würde Ihnen sicherlich das Leben leichter machen, wenn ich Ihnen gleich eine Liste mit 99 Dingen zum Testen geben könnte. Es gibt keinen Mangel an Vermarktern, die bereit sind, dies im Austausch für die Klicks zu tun.

Die Wahrheit ist, dass die einzigen Tests, die es wert sind, durchgeführt zu werden, Tests sind, die auf Ihren eigenen Daten basieren. Ich habe keinen Zugriff auf Ihre Daten, Ihre Kunden usw. und niemand, der diese riesigen Listen mit A/B-Testideen kuratiert. Keiner von uns kann Ihnen sinnvoll sagen, was Sie testen sollen.

Die einzigen Tests, die es wert sind, durchgeführt zu werden, sind Tests, die auf Ihren eigenen Daten basieren.

Stattdessen ermutige ich Sie, diese Frage durch qualitative und quantitative Analysen selbst zu beantworten. Einige beliebte Beispiele für A/B-Tests sind:

Technische Analyse. Wird Ihr Shop in jedem Browser richtig und schnell geladen? Auf jedem Gerät? Sie haben vielleicht ein glänzendes neues iPhone 11, aber irgendwo rockt noch jemand ein Motorola Razr von 2005. Wenn Ihre Website nicht richtig und schnell funktioniert, konvertiert sie definitiv nicht so gut, wie sie könnte.

Befragungen vor Ort. Diese werden eingeblendet, wenn die Besucher Ihres Shops herumstöbern. Beispielsweise könnte eine Vor-Ort-Umfrage Besucher fragen, die sich schon eine Weile auf derselben Seite befinden, ob sie etwas davon abhält, heute einen Kauf zu tätigen. Wenn ja, was ist es? Mit diesen qualitativen Daten können Sie Ihre Copy- und Conversion-Rate verbessern.

Kundeninterviews. Nichts kann den Anruf und das Gespräch mit Ihren Kunden ersetzen. Warum haben sie Ihr Geschäft gegenüber konkurrierenden Geschäften ausgewählt? Welches Problem wollten sie lösen, als sie auf Ihrer Website ankamen? Es gibt eine Million Fragen, die Sie stellen könnten, um herauszufinden, wer Ihre Kunden sind und warum sie wirklich bei Ihnen kaufen.

Kundenbefragungen. Kundenumfragen sind umfassende Umfragen, die an Personen gehen, die bereits einen Kauf getätigt haben (im Gegensatz zu Besuchern). Wenn Sie eine Umfrage entwerfen, sollten Sie sich auf Folgendes konzentrieren: Definieren Sie Ihre Kunden, definieren Sie ihre Probleme, definieren Sie Zögern, das sie vor dem Kauf hatten, und identifizieren Sie Wörter und Sätze, die sie verwenden, um Ihr Geschäft zu beschreiben.

Analytische Analyse. Verfolgen und melden Ihre Analysetools Ihre Daten ordnungsgemäß? Das mag albern klingen, aber Sie wären überrascht, wie viele Analysetools falsch konfiguriert sind. Bei der Analytics-Analyse geht es darum, herauszufinden, wie sich Ihre Besucher verhalten. Sie könnten sich beispielsweise auf den Trichter konzentrieren. Wo sind Ihre größten Conversion Funnel Leaks? Mit anderen Worten, wo steigen die meisten Leute aus Ihrem Trichter aus? Das ist ein guter Ort, um mit dem Testen zu beginnen.

Benutzertests. Hier sehen Sie, wie echte Menschen in einem bezahlten, kontrollierten Experiment versuchen, Aufgaben auf Ihrer Website auszuführen. Sie könnten sie beispielsweise bitten, ein Videospiel im Bereich von 40 bis 60 US-Dollar zu finden und es in ihren Einkaufswagen zu legen. Während sie diese Aufgaben ausführen, erzählen sie ihre Gedanken und Handlungen laut.

Sitzungswiederholungen. Sitzungswiederholungen ähneln Benutzertests, aber jetzt haben Sie es mit echten Menschen mit echtem Geld und echter Kaufabsicht zu tun. Sie werden sehen, wie Ihre tatsächlichen Besucher auf Ihrer Website navigieren. Was haben sie Schwierigkeiten zu finden? Wo werden sie frustriert? Wo wirken sie verwirrt?

Es gibt auch weitere Arten von Recherchen, aber beginnen Sie damit, die für Sie beste A/B-Testmethode auszuwählen. Wenn Sie einige von ihnen durchgehen, haben Sie eine riesige Wäscheliste mit datengestützten Ideen, die es wert sind, getestet zu werden. Ich garantiere Ihnen, dass Ihre Liste Ihnen mehr Wert bringen wird, als es jeder „99 Dinge, die Sie jetzt testen sollten“-Artikel jemals könnte.

Priorisierung von A/B-Testideen

Eine riesige Liste von A/B-Testideen ist spannend, aber nicht gerade hilfreich für die Entscheidung, was getestet werden soll. Wo fängst du an? Hier kommt die Priorisierung ins Spiel.

Es gibt einige allgemeine Priorisierungs-Frameworks, die Sie verwenden können:

EIS. ICE steht für Wirkung, Vertrauen und Leichtigkeit. Jeder dieser Faktoren erhält eine Rangfolge von 1–10. Wenn Sie den Test beispielsweise problemlos selbst ohne die Hilfe eines Entwicklers oder Designers durchführen könnten, könnten Sie der Leichtigkeit eine 8 geben. Sie verwenden hier Ihr Urteilsvermögen, und wenn mehr als eine Person Tests durchführt, können Rankings zu subjektiv werden. Es hilft, eine Reihe von Richtlinien zu haben, um alle objektiv zu halten.

KUCHEN. PIE steht für Potential, Wichtigkeit und Leichtigkeit. Auch hier erhält jeder Faktor eine Rangfolge von 1–10. Wenn der Test beispielsweise 90 % Ihres Traffics erreicht, können Sie der Wichtigkeit eine Acht geben. PIE ist so subjektiv wie ICE, daher können Richtlinien auch für dieses Framework hilfreich sein.

PXL. PXL ist das Priorisierungsframework von CXL. Es ist ein bisschen anders und anpassbarer und erzwingt objektivere Entscheidungen. Anstelle von drei Faktoren finden Sie Ja/Nein-Fragen und eine Frage zur einfachen Implementierung. Der Rahmen könnte beispielsweise fragen: „Ist der Test darauf ausgelegt, die Motivation zu steigern?“ Wenn ja, erhält es eine 1. Wenn nein, erhält es eine 0. Sie können mehr über dieses Framework erfahren und die Tabelle hier herunterladen.

Jetzt haben Sie eine Vorstellung davon, wo Sie anfangen sollen, aber es kann auch helfen, Ihre Ideen zu kategorisieren. Bei einer Konversionsforschung, die ich kürzlich durchgeführt habe, habe ich beispielsweise drei Kategorien verwendet: Implementieren, Untersuchen und Testen.

Implementieren. TU es einfach. Es ist kaputt oder offensichtlich.
Untersuchen. Erfordert zusätzliches Nachdenken, um das Problem zu definieren oder eine Lösung einzugrenzen.
Prüfen. Die Idee ist solide und Daten informiert. Probier es aus!

Zwischen dieser Kategorisierung und Priorisierung sind Sie eingestellt.

Ein Crashkurs in A/B-Testing-Statistiken

Bevor Sie einen Test durchführen, ist es wichtig, sich mit Statistiken zu beschäftigen. Ich weiß, Statistik ist normalerweise kein Fanfavorit, aber betrachte dies als den Pflichtkurs, den du widerwillig absolvierst, um deinen Abschluss zu machen.

Statistiken sind ein großer Teil des A/B-Tests. Glücklicherweise haben A/B-Testing-Tools und Split-Testing-Software die Arbeit eines Optimierers erleichtert, aber ein grundlegendes Verständnis dessen, was hinter den Kulissen passiert, ist entscheidend für die spätere Analyse Ihrer Testergebnisse.

Alex Birkett, Growth Marketing Manager bei HubSpot, erklärt:

Alex Birkett, HubSpot

„Statistiken sind keine magische Anzahl von Conversions oder ein binäres ‚Erfolg!' oder 'Fehler' Sache. Es ist ein Prozess, der verwendet wird, um Entscheidungen unter Ungewissheit zu treffen und das Risiko zu reduzieren, indem versucht wird, die Unschärfe darüber zu reduzieren, was das Ergebnis einer bestimmten Entscheidung sein wird.

„In Anbetracht dessen denke ich, dass es am wichtigsten ist, die Grundlagen zu kennen: Was ist ein Mittelwert, Varianz, Stichprobe, Standardabweichung, Regression zum Mittelwert und was eine ‚repräsentative' Stichprobe ausmacht. Darüber hinaus hilft es, wenn Sie mit A/B-Tests beginnen, einige spezifische Leitplanken einzurichten, um so viele menschliche Fehler wie möglich zu mindern.“

Was ist gemein?

Mittelwert ist der Durchschnitt. Ihr Ziel ist es, einen Mittelwert zu finden, der repräsentativ für das Ganze ist.

Angenommen, Sie versuchen, den Durchschnittspreis von Videospielen zu ermitteln. Sie werden nicht den Preis jedes Videospiels auf der Welt addieren und ihn durch die Anzahl aller Videospiele auf der Welt teilen. Stattdessen isolieren Sie eine kleine Stichprobe, die repräsentativ für alle Videospiele der Welt ist.

Am Ende finden Sie vielleicht den Durchschnittspreis von ein paar hundert Videospielen. Wenn Sie eine repräsentative Stichprobe ausgewählt haben, sollte der Durchschnittspreis dieser zweihundert Videospiele repräsentativ für alle Videospiele der Welt sein.

Was ist Sampling?

Je größer der Stichprobenumfang, desto geringer die Variabilität, was bedeutet, dass der Mittelwert mit größerer Wahrscheinlichkeit genau ist.

Wenn Sie also Ihre Stichprobe von zweihundert Videospielen auf zweitausend Videospiele erhöhen würden, hätten Sie weniger Varianz und einen genaueren Mittelwert.

Was ist Varianz?

Varianz ist die durchschnittliche Variabilität. Grundsätzlich gilt: Je höher die Variabilität, desto ungenauer ist der Mittelwert bei der Vorhersage eines einzelnen Datenpunkts.

Wie nah liegt also der Mittelwert am tatsächlichen Preis jedes einzelnen Videospiels?

Was ist statistische Signifikanz?

Angenommen, es gibt keinen Unterschied zwischen A und B, wie oft werden Sie den Effekt zufällig sehen?

Je niedriger das statistische Signifikanzniveau ist, desto größer ist die Chance, dass Ihre Gewinnvariante überhaupt kein Gewinner ist.

Einfach ausgedrückt bedeutet ein niedriges Signifikanzniveau, dass es eine große Chance gibt, dass Ihr „Gewinner“ kein echter Gewinner ist (dies wird als falsch positiv bezeichnet).

Beachten Sie, dass die meisten A/B-Test-Tools und Open-Source-A/B-Test-Software statistische Signifikanz aufrufen, ohne auf das Erreichen einer vorbestimmten Stichprobengröße oder eines bestimmten Zeitpunkts zu warten. Aus diesem Grund bemerken Sie möglicherweise, dass Ihr Test zwischen statistisch signifikant und statistisch unbedeutend hin und her wechselt.

Peep Laja, Gründer des CXL Institute, möchte, dass mehr Menschen die statistische Signifikanz von A/B-Tests wirklich verstehen und warum sie wichtig ist:

Peep Laja, CXL-Institut

„Statistische Signifikanz ist nicht gleich Gültigkeit – es ist keine Stoppregel. Wenn Sie eine statistische Signifikanz von 95 % oder mehr erreichen, bedeutet das sehr wenig, bevor zwei andere, wichtigere Bedingungen erfüllt sind:

„1. Es gibt genügend Stichprobengröße, die Sie mithilfe von Stichprobengrößenrechnern ermitteln. Das heißt, es waren genügend Leute an dem Experiment beteiligt, sodass wir überhaupt irgendwelche Schlüsse ziehen können.

„2. Der Test ist lange genug gelaufen, damit die Probe repräsentativ ist (und nicht zu lange, um eine Verschmutzung der Probe zu vermeiden). In den meisten Fällen sollten Sie Ihre Tests zwei, drei oder vier Wochen lang durchführen, je nachdem, wie schnell Sie die benötigte Probe erhalten können.“

Was ist Regression zum Mittelwert?

Möglicherweise bemerken Sie zu Beginn Ihres A/B-Tests extreme Schwankungen.

Die Regression zum Mittelwert ist das Phänomen, das besagt, dass etwas, das bei seiner ersten Messung extrem ist, bei seiner zweiten Messung wahrscheinlich näher am Durchschnitt liegt.

Wenn der einzige Grund, warum Sie einen Test aufrufen, darin besteht, dass er eine statistische Signifikanz erreicht hat, sehen Sie möglicherweise ein falsch positives Ergebnis. Ihre Gewinnvariation wird sich wahrscheinlich im Laufe der Zeit auf den Mittelwert zurückbilden.

Was ist statistische Power?

Angenommen, es gibt einen Unterschied zwischen A und B, wie oft werden Sie den Effekt sehen?

Je niedriger die Leistungsstufe, desto größer die Chance, dass ein Gewinner unerkannt bleibt. Je höher die Leistungsstufe, desto geringer die Chance, dass ein Gewinner unerkannt bleibt. Wirklich, alles, was Sie wissen müssen, ist, dass 80 % statistische Aussagekraft für die meisten A/B-Test-Tools und/oder jeden Split-Test-Dienst Standard sind.

Ton Wesseling, Gründer von Online Dialogue, wünscht sich, dass mehr Menschen über statistische Aussagekraft Bescheid wissen:

Ton Wesseling, Online-Dialog

„Viele Menschen machen sich Sorgen über Fehlalarme. Wir machen uns viel mehr Gedanken über False Negatives. Warum Experimente durchführen, bei denen die Wahrscheinlichkeit, dass Ihre positive Veränderung Wirkung zeigt, sehr gering ist?“

Was sind externe Validitätsbedrohungen?

Es gibt externe Faktoren, die die Gültigkeit Ihrer Tests bedrohen. Zum Beispiel:

Black Friday Cyber Monday (BFCM)-Verkäufe
Eine positive oder negative Erwähnung in der Presse
Start einer großen bezahlten Kampagne
Der Wochentag
Die wechselnden Jahreszeiten

Eines der häufigsten Beispiele für A/B-Tests, bei denen Bedrohungen der externen Validität Ihre Ergebnisse beeinflussen, sind saisonale Ereignisse. Angenommen, Sie würden im Dezember einen Test durchführen. Große Einkaufsfeiertage würden in diesem Monat eine Zunahme des Traffics für Ihr Geschäft bedeuten. Möglicherweise stellen Sie im Januar fest, dass Ihr Dezember-Gewinner nicht mehr gut abschneidet.

Warum?

Wegen einer externen Gültigkeitsbedrohung: den Feiertagen.

Die Daten, auf die Sie Ihre Testentscheidung gestützt haben, waren eine Anomalie. Wenn sich die Dinge im Januar beruhigen, werden Sie vielleicht überrascht sein, dass Ihr Gewinner verliert.

Sie können externe Validitätsbedrohungen nicht eliminieren, aber Sie können sie mindern, indem Sie Tests über volle Wochen hinweg durchführen (z. B. einen Test nicht an einem Montag beginnen und ihn nicht an einem Freitag beenden), einschließlich verschiedener Arten von Datenverkehr (z. t ausschließlich bezahlten Traffic testen und die Ergebnisse dann an alle Traffic-Quellen weitergeben) und auf potenzielle Bedrohungen achten.

Wenn Sie zufällig einen Test während einer geschäftigen Einkaufssaison wie BFCM oder durch eine große externe Validitätsbedrohung durchführen, möchten Sie vielleicht unseren vollständigen Leitfaden für A/B-Tests lesen.

So richten Sie einen A/B-Test ein

Lassen Sie uns durch ein kleines A/B-Test-Tutorial gehen. Bevor Sie etwas testen, müssen Sie eine solide Hypothese haben. (Großartig, wir haben gerade den Matheunterricht beendet und jetzt sind wir bei den Naturwissenschaften.)

Keine Sorge, es ist nicht kompliziert. Grundsätzlich müssen Sie eine Hypothese testen, keine Idee. Eine Hypothese ist messbar, strebt danach, ein bestimmtes Konversionsproblem zu lösen, und konzentriert sich auf Erkenntnisse statt auf Gewinne.

Sie müssen eine Hypothese A/B-testen, nicht eine Idee.

Immer wenn ich eine Hypothese schreibe, verwende ich eine Formel aus Craig Sullivans Hypothesis Kit:

Weil Sie sehen[Daten/Feedback aus der Forschung einfügen]
Sie erwarten, dass [die von Ihnen getestete Änderung] [von Ihnen erwartete Auswirkungen] haben wird und
Sie messen dies mit [Datenmetrik]

Einfach richtig? Sie müssen nur noch die Lücken ausfüllen und Ihre Testidee hat sich in eine Hypothese verwandelt.

Auswahl eines A/B-Testing-Tools

Jetzt können Sie damit beginnen, ein A/B-Testing-Tool oder einen Split-Testing-Service auszuwählen. Meistens werden Sie zuerst an Google Optimize, Optimizely und VWO denken.

Alle sind gute, sichere Optionen.

Google Optimize. Kostenlos, abgesehen von einigen multivariaten Einschränkungen, die Sie nicht wirklich beeinträchtigen sollten, wenn Sie gerade erst anfangen. Es funktioniert gut bei der Durchführung von Google Analytics A/B-Tests, was ein Plus ist.

Optimiert. Kleinere Tests lassen sich auch ohne technische Kenntnisse problemlos zum Laufen bringen. Stats Engine erleichtert die Analyse von Testergebnissen. Typischerweise ist Optimizely die teuerste Option der drei.

VWO. VWO hat SmartStats, um die Analyse zu vereinfachen. Außerdem hat es einen großartigen WYSIWYG-Editor für Anfänger. Jeder VWO-Plan enthält Heatmaps, Vor-Ort-Umfragen, Formularanalysen usw.

Wir haben auch einige A/B-Test-Tools im Shopify App Store, die für Sie hilfreich sein könnten.

Sobald Sie ein A/B-Testing-Tool oder eine Split-Testing-Software ausgewählt haben, füllen Sie das Anmeldeformular aus und folgen Sie den Anweisungen. Der Prozess variiert von Tool zu Tool. In der Regel werden Sie jedoch aufgefordert, ein Snippet auf Ihrer Website zu installieren und Ziele festzulegen.

So analysieren Sie A/B-Testergebnisse

Erinnern Sie sich, als ich sagte, dass das Schreiben einer Hypothese den Fokus von Gewinnen auf Erkenntnisse verlagert? Krista Seiden, Analytics Advocate und Product Manager bei Google, erklärt, was das bedeutet:

Krista Seiden, Google

„Der am meisten übersehene Aspekt des A/B-Testens ist, von seinen Verlierern zu lernen. Tatsächlich mache ich es mir in den von mir durchgeführten Optimierungsprogrammen zur Gewohnheit, einen ‚Fehlerbericht‘ zu veröffentlichen, in dem ich einige der größten Verlierer des Tests nenne Quartal und was wir daraus gelernt haben.

„Einer meiner absoluten Favoriten stammt aus einer Kampagne, an der Monate gearbeitet wurden. Wir konnten Landingpage-Tests einschleichen, kurz bevor sie live gehen sollten, und das ist gut so, denn sie sind kläglich gescheitert. Hätten wir die Seite tatsächlich so gestartet, wie sie ist, hätten wir unter dem Strich einen erheblichen Schlag erlitten. Am Ende haben wir dem Unternehmen nicht nur eine Menge Geld gespart, sondern wir konnten auch einige Vermutungen anstellen (die wir später testeten), warum die neue Seite so schlecht abgeschnitten hatte, und das machte uns zu besseren Vermarktern und erfolgreicher in zukünftigen Kampagnen.“

Wenn Sie Ihre Hypothese richtig formulieren, ist selbst ein Verlierer ein Gewinner, da Sie Erkenntnisse gewinnen, die Sie für zukünftige Tests und in anderen Bereichen Ihres Unternehmens verwenden können. Wenn Sie also Ihre Testergebnisse analysieren, müssen Sie sich auf die Erkenntnisse konzentrieren, nicht darauf, ob der Test gewonnen oder verloren hat. Es gibt immer etwas zu lernen, immer etwas zu analysieren. Entlassen Sie die Verlierer nicht!

Wenn Sie Ihre Hypothese richtig formulieren, ist sogar ein Verlierer ein Gewinner.

Das Wichtigste, was hier zu beachten ist, ist die Notwendigkeit der Segmentierung. Ein Test kann insgesamt ein Verlierer sein, aber die Chancen stehen gut, dass er mit mindestens einem Segment gut abgeschnitten hat. Was meine ich mit Segment?

Neue Besucher
Wiederkehrende Besucher
iOS-Besucher
Android-Besucher
Chrome-Besucher
Safari-Besucher
Desktop-Besucher
Tablet-Besucher
Besucher der organischen Suche
Bezahlte Besucher
Besucher der sozialen Medien
Eingeloggte Käufer

Sie haben die Idee, richtig?

Wenn Sie sich die Ergebnisse in Ihrem Testtool ansehen, betrachten Sie die ganze Schachtel Süßigkeiten. Was Sie tun müssen, ist, die Smarties nach Farbe zu trennen, damit Sie die roten zuletzt essen können. Ich meine, damit Sie tiefere, segmentierte Einblicke gewinnen können.

Die Chancen stehen gut, dass sich die Hypothese in bestimmten Segmenten als richtig erwiesen hat. Das sagt dir auch was.

Bei der Analyse geht es um so viel mehr als darum, ob der Test ein Gewinner oder ein Verlierer war. Segmentieren Sie Ihre Daten, um verborgene Einblicke unter der Oberfläche zu finden.

A/B-Testing-Tools übernehmen die Analyse nicht für Sie, daher ist dies eine wichtige Fähigkeit, die Sie im Laufe der Zeit entwickeln sollten.

Kostenloses E-Book: E-Commerce-Analytics für Anfänger

Finden Sie heraus, welche Kennzahlen der Schlüssel zum Auf- und Ausbau Ihres Online-Geschäfts sind. Dieser kostenlose Leitfaden ist der perfekte erste Schritt zum Erlernen von E-Commerce-Analysen.

So archivieren Sie vergangene A/B-Tests

Angenommen, Sie führen morgen Ihren ersten Test durch. Können Sie sich morgen in zwei Jahren an die Details dieses Tests erinnern? Unwahrscheinlich.

Aus diesem Grund ist die Archivierung Ihrer A/B-Testergebnisse wichtig. Ohne ein gut gepflegtes Archiv gehen alle gewonnenen Erkenntnisse verloren. Außerdem, ich mache keine Witze, es ist sehr einfach, dasselbe zweimal zu testen, wenn Sie nicht archivieren.

Es gibt jedoch keinen „richtigen“ Weg, dies zu tun. Sie könnten ein Tool wie Projects oder Effective Experiments oder Excel verwenden. Es liegt wirklich an Ihnen, besonders wenn Sie gerade erst anfangen. Stellen Sie einfach sicher, dass Sie Folgendes im Auge behalten:

Die Hypothese
Screenshots der Steuerung und Variation
Ob gewonnen oder verloren
Durch Analyse gewonnene Erkenntnisse

Wenn Sie wachsen, werden Sie sich selbst dafür danken, dass Sie dieses Archiv führen. Es hilft nicht nur Ihnen, sondern auch neuen Mitarbeitern und Beratern/Stakeholdern.

A/B-Testverfahren der Profis

Nachdem Sie nun ein Standard-Tutorial für A/B-Tests durchlaufen haben, werfen wir einen Blick auf die genauen Prozesse von Profis von Unternehmen wie Google und HubSpot.

Kostenlose Leseliste: Conversion-Optimierung für Einsteiger

Verwandeln Sie mehr Website-Besucher in Kunden, indem Sie einen Crashkurs in Conversion-Optimierung besuchen. Greifen Sie unten auf unsere kostenlose, kuratierte Liste mit wirkungsvollen Artikeln zu.

Krista Seiden, Google

Mein Schritt-für-Schritt-Prozess für Web- und App-A/B-Tests beginnt mit der Analyse – meiner Meinung nach ist dies der Kern eines jeden guten Testprogramms. In der Analysephase besteht das Ziel darin, Ihre Analysedaten, Umfrage- oder UX-Daten oder andere Quellen für Kundeneinblicke, die Sie möglicherweise haben, zu untersuchen, um zu verstehen, wo Ihre Optimierungsmöglichkeiten liegen.

Sobald Sie eine gute Pipeline von Ideen aus der Analysephase haben, können Sie Hypothesen darüber aufstellen, was schief laufen könnte und wie Sie diese Optimierungsbereiche möglicherweise beheben oder verbessern könnten.

Als Nächstes ist es an der Zeit, Ihre Tests zu erstellen und auszuführen. Stellen Sie sicher, dass Sie sie über einen angemessenen Zeitraum ausführen (ich verwende standardmäßig zwei Wochen, um sicherzustellen, dass ich Änderungen oder Anomalien von Woche zu Woche berücksichtige), und analysieren Sie Ihre Ergebnisse, wenn Sie über genügend Daten verfügen, um Ihren Gewinner zu ermitteln.

Es ist auch wichtig, sich in dieser Phase etwas Zeit zu nehmen, um auch die Verlierer zu analysieren – was können Sie aus diesen Variationen lernen?

Schließlich, und Sie erreichen dieses Stadium möglicherweise erst, wenn Sie Zeit damit verbracht haben, die Grundlagen für ein solides Optimierungsprogramm zu legen, ist es an der Zeit, sich mit der Personalisierung zu befassen. Dies erfordert nicht unbedingt ein ausgefallenes Toolset, sondern kann sich aus den Daten ergeben, die Sie über Ihre Benutzer haben.

Marketingpersonalisierung kann so einfach sein wie das Targeting der richtigen Inhalte an den richtigen Orten oder so komplex wie das Targeting auf der Grundlage individueller Benutzeraktionen. Springen Sie jedoch nicht sofort auf das Personalisierungsbit. Stellen Sie sicher, dass Sie sich zunächst genug Zeit nehmen, um die Grundlagen richtig zu machen.

Alex Birkett, HubSpot

Auf hohem Niveau versuche ich, diesem Prozess zu folgen:

Sammeln Sie Daten und stellen Sie sicher, dass die Analyseimplementierungen korrekt sind.
Daten analysieren und Erkenntnisse gewinnen.
Verwandeln Sie Erkenntnisse in Hypothesen.
Priorisieren Sie basierend auf Wirkung und Benutzerfreundlichkeit und maximieren Sie die Ressourcenzuweisung (insbesondere technische Ressourcen).
Führen Sie einen Test durch (befolgen Sie die Best Practices für Statistiken nach bestem Wissen und Gewissen).
Analysieren Sie die Ergebnisse und implementieren Sie sie entsprechend den Ergebnissen oder nicht.
Iterieren Sie basierend auf den Ergebnissen und wiederholen Sie.

Einfacher gesagt: recherchieren, testen, analysieren, wiederholen.

Obwohl dieser Prozess je nach Kontext abweichen oder sich ändern kann (Teste ich eine geschäftskritische Produktfunktion? Einen Blogbeitrag CTA? Wie ist das Risikoprofil und das Gleichgewicht zwischen Innovation und Risikominderung?), ist er ziemlich auf jede Größe anwendbar oder Unternehmenstyp.

Der Punkt ist, dass dieser Prozess agil ist, aber er sammelt auch genügend Daten, sowohl qualitatives Kundenfeedback als auch quantitative Analysen, um bessere Testideen zu entwickeln und sie besser zu priorisieren, damit Sie den Verkehr zu Ihrem Online-Shop steigern können.

Ton Wesseling, Online-Dialog

Die erste Frage, die wir immer beantworten, wenn wir eine Customer Journey optimieren möchten, lautet: Wo passt dieses Produkt oder diese Dienstleistung in das ROAR-Modell, das wir bei Online Dialogue erstellt haben? Befinden Sie sich noch in der Risikophase, in der wir viel recherchieren könnten, aber unsere Ergebnisse nicht durch A/B-Test-Online-Experimente validieren können (unter 1.000 Conversions pro Monat), oder befinden Sie sich in der Optimierungsphase? Oder sogar darüber?

Risikophase : Viel Recherchearbeit, die in alles Mögliche umgesetzt wird, von einem Drehpunkt für das Geschäftsmodell bis hin zu einem völlig neuen Design und Wertversprechen.
O ptimierungsphase: Große Experimente, die das Wertversprechen und das Geschäftsmodell optimieren.
Optimierungsphase : Kleine Experimente zur Validierung von Hypothesen zum Benutzerverhalten, die Erkenntnisse für größere Designänderungen aufbauen.
Automatisierung: Sie haben immer noch Experimentierkraft (Besucher), was bedeutet, dass Ihr volles Testpotential nicht benötigt wird, um Ihre Benutzerreise zu validieren. Was übrig bleibt, sollte genutzt werden, um jetzt schneller zu wachsen (ohne Fokus auf langfristiges Lernen). Dies könnte automatisiert werden, indem Banditen ausgeführt/Algorithmen verwendet werden.
Überdenken Sie: Sie hören auf, viel Forschung hinzuzufügen, es sei denn, es ist ein Dreh- und Angelpunkt für etwas Neues.

Web- oder App-A/B-Tests sind also nur in der Optimierungsphase von ROAR und darüber hinaus (bis zum Umdenken) eine große Sache.

Unser Ansatz zur Durchführung von Experimenten ist das FACT & ACT-Modell:

Unsere Forschung basiert auf unserem 5-V-Modell:

Wir sammeln all diese Erkenntnisse, um eine forschungsgestützte Haupthypothese zu entwickeln, die zu Unterhypothesen führt, die auf der Grundlage der Daten priorisiert werden, die entweder durch Desktop- oder mobile A/B-Tests gesammelt wurden. Je höher die Wahrscheinlichkeit, dass die Hypothese wahr ist, desto höher wird sie eingestuft.

Sobald wir wissen, ob unsere Hypothese wahr oder falsch ist, können wir damit beginnen, die Erkenntnisse zu kombinieren und größere Schritte zu unternehmen, indem wir größere Teile der Customer Journey neu gestalten/neu ausrichten. Irgendwann werden jedoch alle erfolgreichen Implementierungen zu einem lokalen Maximum führen. Dann müssen Sie einen größeren Schritt machen, um ein potenzielles globales Maximum erreichen zu können.

Und natürlich werden die wichtigsten Erkenntnisse im gesamten Unternehmen verbreitet, was zu allen möglichen breiteren Optimierungen und Innovationen auf der Grundlage Ihrer validierten Erkenntnisse aus erster Hand führt.

Vermarkten Sie ein internationales Publikum? Erfahren Sie, wie Sie diesen Prozess mit Pseudolokalisierung vereinfachen können.

Julia Starostenko, Shopify

Der Zweck eines Experiments besteht darin, zu bestätigen, dass sich Änderungen an einer bestehenden Webseite positiv auf das Unternehmen auswirken.

Bevor Sie beginnen, ist es wichtig festzustellen, ob die Durchführung eines Experiments wirklich notwendig ist. Stellen Sie sich folgendes Szenario vor: Es gibt eine Schaltfläche mit einer extrem niedrigen Klickrate. Es wäre nahezu unmöglich, die Leistung dieser Taste zu verringern. Das Validieren der Wirksamkeit einer vorgeschlagenen Änderung an der Schaltfläche (dh das Ausführen eines Experiments) ist daher nicht erforderlich.

Wenn die vorgeschlagene Änderung an der Schaltfläche gering ist, lohnt es sich wahrscheinlich nicht, die Zeit mit dem Einrichten, Ausführen und Abreißen eines Experiments zu verbringen. In diesem Fall sollten die Änderungen einfach an alle weitergegeben werden und die Leistung der Schaltfläche kann überwacht werden.

Wenn festgestellt wird, dass die Durchführung eines Experiments tatsächlich von Vorteil wäre, besteht der nächste Schritt darin, die Geschäftsmetriken zu definieren, die verbessert werden sollten (z. B. Erhöhung der Konversionsrate einer Schaltfläche). Then we ensure that proper data collection is in place.

Once this is complete, the audience is randomly run split testing between two groups; one group is shown the existing version of the button while the other group gets the new version. The conversion rate of each audience is monitored, and once statistical significance is reached, the results of the experiment are determined.

Peep Laja, CXL-Institut

A/B testing is a part of a bigger conversion optimization picture. In my opinion it's 80% about the research and only 20% about testing. Conversion research will help you determine what to test to begin with.

My process typically looks like this (a simplified summary):

Führen Sie Konversionsforschung mit einem Framework wie ResearchXL durch, um Probleme auf Ihrer Website zu identifizieren.
Wählen Sie ein Problem mit hoher Priorität aus (ein Problem, das einen großen Teil der Benutzer betrifft und ein schwerwiegendes Problem darstellt), und machen Sie so viele Lösungen für dieses Problem wie möglich. Informieren Sie Ihren Ideenfindungsprozess mit Ihren Erkenntnissen aus der Konversionsforschung. Bestimmen Sie, auf welchem Gerät Sie den Test ausführen möchten (Sie müssen mobile A/B-Tests getrennt vom Desktop ausführen).
Bestimmen Sie, wie viele Variationen Sie testen können (basierend auf Ihrem Traffic-/Transaktionsniveau), und wählen Sie dann Ihre besten ein bis zwei Ideen für eine Lösung aus, um sie gegen die Kontrolle zu testen.
Wireframe die genauen Behandlungen (Kopie schreiben, Designänderungen vornehmen usw.). Je nach Umfang der Änderungen müssen Sie möglicherweise auch einen Designer hinzuziehen, um neue Elemente zu entwerfen.
Lassen Sie Ihren Front-End-Entwickler die Behandlungen in Ihrem Testtool implementieren. Erforderliche Integrationen (Google Analytics) einrichten, entsprechende Ziele setzen.
Führen Sie QA für den Test durch (kaputte Tests sind bei weitem der größte Killer für A/B-Tests), um sicherzustellen, dass er mit jeder Kombination aus Browser und Gerät funktioniert.
Starten Sie den Test!
Führen Sie nach Abschluss des Tests eine Post-Test-Analyse durch.
Je nach Ergebnis entweder den Gewinner implementieren, die Behandlungen iterieren oder etwas anderes testen.

Kostenloses Webinar:

Vermarktung 101

Kämpfen Sie, um den Umsatz zu steigern? Erfahren Sie in diesem kostenlosen Schulungskurs, wie Sie vom ersten Tag bis zum ersten Verkauf gehen.

Jetzt registrieren

Optimieren Sie A/B-Tests für Ihr Unternehmen

Sie haben den Prozess, Sie haben die Macht! Also, gehen Sie raus, holen Sie sich die beste A/B-Testsoftware und beginnen Sie mit dem Testen Ihres Shops. Bevor Sie es wissen, summieren sich diese Erkenntnisse zu mehr Geld in der Bank of You.

Wenn Sie sich weiter über Optimierung informieren möchten, sollten Sie einen kostenlosen Kurs besuchen, z. B. den A/B-Test von Udacity von Google. Sie können mehr über A/B-Tests für Web- und mobile Apps erfahren, um Ihre Optimierungsfähigkeiten zu verbessern.

Der vollständige Leitfaden für A/B-Tests: Expertentipps von Google, HubSpot und mehr

Was ist A/B-Testing?

Wie A/B-Tests funktionieren

Kostenlose Leseliste: Conversion-Optimierung für Einsteiger

Holen Sie sich unsere Leseliste zur Conversion-Optimierung direkt in Ihren Posteingang.

Was ist A/B/n-Testing?

Wie lange sollten A/B-Tests laufen?

Warum sollten Sie A/B-Tests durchführen?

Sollten Sie A/B-Tests durchführen?

Was sollten Sie A/B testen?

Priorisierung von A/B-Testideen

Ein Crashkurs in A/B-Testing-Statistiken

Was ist gemein?

Was ist Sampling?

Was ist Varianz?

Was ist statistische Signifikanz?

Was ist Regression zum Mittelwert?

Was ist statistische Power?

Was sind externe Validitätsbedrohungen?

So richten Sie einen A/B-Test ein

Auswahl eines A/B-Testing-Tools

So analysieren Sie A/B-Testergebnisse

Kostenloses E-Book: E-Commerce-Analytics für Anfänger

Holen Sie sich E-Commerce Analytics for Beginners direkt in Ihren Posteingang.

So archivieren Sie vergangene A/B-Tests

A/B-Testverfahren der Profis

Kostenlose Leseliste: Conversion-Optimierung für Einsteiger

Holen Sie sich unsere Leseliste zur Conversion-Optimierung direkt in Ihren Posteingang.

Krista Seiden, Google

Alex Birkett, HubSpot

Ton Wesseling, Online-Dialog

Julia Starostenko, Shopify

Peep Laja, CXL-Institut

Optimieren Sie A/B-Tests für Ihr Unternehmen

Sind Sie bereit, Ihr erstes Unternehmen zu gründen? Starten Sie Ihre kostenlose 14-tägige Testversion von Shopify – keine Kreditkarte erforderlich.