Panduan Lengkap untuk Pengujian A/B: Kiat Ahli dari Google, HubSpot, dan Lainnya
Diterbitkan: 2020-04-10Ini mungkin bukan pertama kalinya Anda membaca tentang pengujian A/B. Anda bahkan mungkin sudah menguji A/B baris subjek email atau postingan media sosial Anda.
Terlepas dari kenyataan bahwa ada banyak hal yang dikatakan tentang pengujian A/B di bidang pemasaran, banyak orang masih salah mengartikannya. Hasil? Orang yang membuat keputusan bisnis besar berdasarkan hasil yang tidak akurat dari pengujian yang tidak tepat.
Pengujian A/B sering kali terlalu disederhanakan, terutama dalam konten yang ditulis untuk pemilik toko. Di bawah ini Anda akan menemukan semua yang perlu Anda ketahui untuk memulai berbagai jenis pengujian A/B untuk e-niaga, dijelaskan sejelas mungkin.
Daftar isi
- Apa itu pengujian A/B?
- Cara kerja pengujian A/B
- Apa itu pengujian A/B/n?
- Berapa lama pengujian A/B harus dijalankan?
- Mengapa Anda harus melakukan pengujian A/B?
- Apa yang harus Anda uji A/B?
- Memprioritaskan ide pengujian A/B
- Kursus kilat dalam statistik pengujian AB
- Cara menyiapkan pengujian A/B
- Bagaimana menganalisis hasil pengujian A/B
- Cara mengarsipkan pengujian A/B sebelumnya
- Proses pengujian A/B dari para profesional
- Optimalkan pengujian A/B untuk bisnis Anda
Apa itu pengujian A/B?
Pengujian A/B, terkadang disebut sebagai pengujian terpisah, adalah proses membandingkan dua versi halaman web, email, atau aset digital lain yang sama untuk menentukan mana yang berkinerja lebih baik.
Proses ini memungkinkan Anda menjawab pertanyaan bisnis penting, membantu Anda menghasilkan lebih banyak pendapatan dari lalu lintas yang sudah Anda miliki, dan menetapkan dasar untuk strategi pemasaran berdasarkan data.
Pelajari Lebih Lanjut: Bagaimana Melakukan Analisis SWOT untuk Bisnis Anda
Cara kerja pengujian A/B
Saat menggunakan pengujian A/B dalam konteks pemasaran, Anda menunjukkan 50% pengunjung versi A dari aset Anda (sebut saja ini "kontrol"), dan 50% pengunjung versi B (sebut saja ini "varian").
Versi yang menghasilkan tingkat konversi tertinggi menang. Misalnya, varian (versi B) menghasilkan rasio konversi tertinggi. Anda kemudian akan menyatakannya sebagai pemenang dan mendorong 100% pengunjung ke varian tersebut.
Kemudian, varian menjadi kontrol baru, dan Anda harus mendesain varian baru.
Perlu disebutkan bahwa rasio konversi pengujian A/B adalah ukuran keberhasilan yang tidak sempurna. Mengapa? Anda dapat meningkatkan tingkat konversi Anda secara instan dengan membuat semua yang ada di toko Anda gratis. Tentu saja, itu keputusan bisnis yang buruk.
Itulah mengapa Anda harus melacak nilai konversi hingga suara mesin kasir berdering.
Daftar Bacaan Gratis: Optimasi Konversi untuk Pemula
Ubah lebih banyak pengunjung situs web menjadi pelanggan dengan mendapatkan kursus kilat dalam pengoptimalan konversi. Akses daftar artikel berdampak tinggi gratis kami yang dikuratori di bawah ini.
Dapatkan daftar bacaan Pengoptimalan Konversi kami dikirimkan langsung ke kotak masuk Anda.
Hampir sampai: silakan masukkan email Anda di bawah ini untuk mendapatkan akses instan.
Kami juga akan mengirimi Anda pembaruan tentang panduan pendidikan baru dan kisah sukses dari buletin Shopify. Kami membenci SPAM dan berjanji untuk menjaga alamat email Anda tetap aman.
Apa itu pengujian A/B/n?
Dengan pengujian A/B/n, Anda dapat menguji lebih dari satu varian terhadap kontrol. Jadi, alih-alih menampilkan 50% pengunjung sebagai kontrol dan 50% pengunjung sebagai varian, Anda dapat menunjukkan 25% pengunjung sebagai kontrol, 25% varian pertama, 25% varian kedua, dan 25% varian ketiga.
Catatan: Ini berbeda dengan pengujian multivarian, yang juga melibatkan beberapa varian. Saat menjalankan pengujian multivarian, Anda tidak hanya menguji beberapa varian, tetapi juga menguji beberapa elemen, seperti pengujian A/B UX atau pengujian pemisahan SEO. Tujuannya adalah untuk mengetahui kombinasi mana yang berkinerja terbaik.
Anda akan membutuhkan banyak lalu lintas untuk menjalankan pengujian multivarian, sehingga Anda dapat mengabaikannya untuk saat ini.
Berapa lama pengujian A/B harus dijalankan?
Jalankan pengujian A/B Anda setidaknya untuk satu, idealnya dua, siklus bisnis penuh. Jangan hentikan tes Anda hanya karena Anda telah mencapai signifikansi. Anda juga harus memenuhi ukuran sampel yang telah ditentukan sebelumnya. Terakhir, jangan lupa untuk menjalankan semua pengujian secara bertahap selama seminggu penuh.
Mengapa dua siklus bisnis penuh? Untuk pemula:
- Anda dapat menjelaskan pembeli "Saya perlu memikirkannya".
- Anda dapat memperhitungkan semua sumber lalu lintas yang berbeda (Facebook, buletin email, pencarian organik, dll.)
- Anda dapat memperhitungkan anomali. Misalnya, buletin email Jumat Anda.
Jika Anda telah menggunakan alat pengujian A/B atau halaman arahan apa pun, Anda mungkin akrab dengan ikon kecil "Statistik Signifikan" berwarna hijau.
Sayangnya, bagi banyak orang, itulah tanda universal untuk "tes sudah matang, sebut saja." Seperti yang akan Anda pelajari lebih lanjut di bawah, hanya karena signifikansi statistik pengujian A/B telah tercapai, tidak berarti Anda harus menghentikan pengujian.
Dan ukuran sampel yang telah Anda tentukan? Ini tidak mengintimidasi seperti yang terlihat. Buka kalkulator ukuran sampel, seperti ini dari Evan Miller.
Perhitungan ini mengatakan bahwa jika tingkat konversi Anda saat ini adalah 5% dan Anda ingin dapat mendeteksi efek 15%, Anda memerlukan sampel 13.533 per variasi. Jadi, secara total, dibutuhkan lebih dari 25.000 pengunjung jika itu adalah tes A/B standar.
Perhatikan apa yang terjadi jika Anda ingin mendeteksi efek yang lebih kecil:
Semua yang berubah adalah efek minimum yang dapat dideteksi (MDE). Ini menurun dari 15% menjadi 8%. Dalam hal ini, Anda memerlukan sampel 47.127 per variasi. Jadi, secara total, dibutuhkan hampir 100.000 pengunjung jika itu adalah tes A/B standar.
Baik Anda melakukan pengujian A/B UX atau pengujian terpisah SEO, ukuran sampel Anda harus dihitung di muka, sebelum pengujian Anda dimulai. Pengujian Anda tidak dapat berhenti, bahkan jika mencapai signifikansi, sampai ukuran sampel yang telah ditentukan tercapai. Jika ya, tes tersebut tidak valid.
Inilah sebabnya mengapa Anda tidak dapat mengikuti praktik terbaik tanpa tujuan, seperti “berhenti setelah 100 konversi”.
Penting juga untuk menjalankan tes untuk peningkatan seminggu penuh. Lalu lintas Anda dapat berubah berdasarkan hari dalam seminggu dan waktu, jadi Anda pasti ingin menyertakan setiap hari dalam seminggu.
Mengapa Anda harus melakukan pengujian A/B?
Katakanlah Anda menghabiskan $100 untuk iklan Facebook untuk mengirim 10 orang ke situs Anda. Nilai pesanan rata-rata Anda adalah $25. Delapan dari pengunjung itu pergi tanpa membeli apa pun dan dua lainnya menghabiskan masing-masing $25. Hasil? Anda kehilangan $50.
Sekarang katakanlah Anda menghabiskan $100 untuk iklan Facebook untuk mengirim 10 orang ke situs Anda. Nilai pesanan rata-rata Anda masih $25. Namun kali ini, hanya lima pengunjung yang pergi tanpa membeli apa pun dan lima lainnya masing-masing menghabiskan $25. Hasil? Anda menghasilkan $25.
Ini adalah salah satu contoh pengujian A/B yang lebih sederhana, tentu saja. Tetapi dengan meningkatkan tingkat konversi di tempat, Anda membuat lalu lintas yang sama lebih berharga.
Gambar dan salinan pengujian A/B juga membantu Anda mengungkap wawasan, apakah pengujian Anda menang atau kalah. Nilai ini sangat dapat dialihkan. Misalnya, wawasan copywriting dari pengujian A/B deskripsi produk dapat membantu menginformasikan proposisi nilai Anda, video produk, atau deskripsi produk lainnya.
Anda juga tidak dapat mengabaikan nilai yang melekat pada fokus untuk terus meningkatkan efektivitas toko Anda.
Haruskah Anda menjadi pengujian A/B?
Belum tentu. Jika Anda menjalankan situs dengan lalu lintas rendah atau web atau aplikasi seluler, pengujian A/B mungkin bukan upaya pengoptimalan terbaik untuk Anda. Anda mungkin akan melihat laba atas investasi (ROI) yang lebih tinggi dari melakukan pengujian pengguna atau berbicara dengan pelanggan Anda, misalnya.
Terlepas dari kepercayaan populer, pengoptimalan tingkat konversi tidak dimulai dan diakhiri dengan pengujian.
Pertimbangkan angka-angka dari kalkulator ukuran sampel di atas. 47.127 pengunjung per variasi untuk mendeteksi efek 8% jika tingkat konversi dasar Anda adalah 5%. Katakanlah Anda ingin menguji halaman produk. Apakah itu menerima hampir 100.000 pengunjung dalam dua hingga empat minggu?
Mengapa dua sampai empat minggu? Ingat, kami ingin menjalankan pengujian setidaknya selama dua siklus bisnis penuh. Biasanya, itu berhasil hingga dua hingga empat minggu. Sekarang mungkin Anda berpikir, “Tidak masalah, Shanelle, saya akan menjalankan tes lebih dari dua hingga empat minggu untuk mencapai ukuran sampel yang dibutuhkan.” Itu juga tidak akan berhasil.
Anda lihat, semakin lama tes berjalan, semakin rentan terhadap ancaman validitas eksternal dan polusi sampel. Misalnya, pengunjung mungkin menghapus cookie mereka dan akhirnya masuk kembali ke pengujian A/B sebagai pengunjung baru. Atau seseorang dapat beralih dari ponsel mereka ke desktop dan melihat variasi alternatif.
Pada dasarnya, membiarkan pengujian Anda berjalan terlalu lama sama buruknya dengan tidak membiarkannya berjalan cukup lama.
Pengujian bernilai investasi untuk toko yang dapat memenuhi ukuran sampel yang diperlukan dalam dua hingga empat minggu. Toko yang tidak dapat mempertimbangkan bentuk pengoptimalan lainnya hingga lalu lintasnya meningkat.
Julia Starostenko, ilmuwan data di Shopify, setuju, menjelaskan:
Julia Starostenko, Shopify
“Bereksperimen itu menyenangkan! Tetapi penting untuk memastikan bahwa hasilnya akurat.
“Tanyakan pada diri sendiri: Apakah audiens Anda cukup besar? Sudahkah Anda mengumpulkan cukup data? Untuk mencapai signifikansi statistik yang sebenarnya (dalam jangka waktu yang wajar) ukuran audiens harus cukup besar.”
Apa yang harus Anda uji A/B?
Saya tidak dapat memberi tahu Anda apa yang harus Anda uji A/B. Saya tahu saya tahu. Pasti akan membuat hidup Anda lebih mudah jika saya bisa memberi Anda daftar 99 hal untuk diuji sekarang. Tidak ada kekurangan pemasar yang bersedia melakukan itu sebagai imbalan atas klik.
Sebenarnya, satu-satunya tes yang layak dijalankan adalah tes berdasarkan data Anda sendiri. Saya tidak memiliki akses ke data Anda, pelanggan Anda, dll., dan tidak ada yang membuat daftar besar ide pengujian A/B itu. Tak satu pun dari kami yang dapat memberi tahu Anda apa yang harus diuji secara bermakna .
Satu-satunya pengujian yang layak dijalankan adalah pengujian berdasarkan data Anda sendiri.
Sebaliknya, saya mendorong Anda untuk menjawab pertanyaan ini sendiri melalui analisis kualitatif dan kuantitatif. Beberapa contoh pengujian A/B yang populer adalah:
- Analisis teknis. Apakah toko Anda dimuat dengan benar dan cepat di setiap browser? Di setiap perangkat? Anda mungkin memiliki iPhone 11 baru yang mengilap, tetapi seseorang di suatu tempat masih menggunakan Motorola Razr dari tahun 2005. Jika situs Anda tidak berfungsi dengan baik dan cepat, itu pasti tidak mengonversi sebaik mungkin.
- Survei di tempat. Ini muncul saat pengunjung toko Anda menjelajah. Misalnya, survei di tempat mungkin bertanya kepada pengunjung yang telah berada di halaman yang sama untuk sementara waktu apakah ada yang menahan mereka untuk melakukan pembelian hari ini. Jika demikian, apa itu? Anda dapat menggunakan data kualitatif ini untuk meningkatkan salinan dan tingkat konversi Anda.
- Wawancara pelanggan. Tidak ada yang bisa menggantikan menelepon dan berbicara dengan pelanggan Anda. Mengapa mereka memilih toko Anda daripada toko pesaing? Masalah apa yang mereka coba selesaikan ketika mereka tiba di situs Anda? Ada sejuta pertanyaan yang dapat Anda ajukan untuk memahami siapa pelanggan Anda dan mengapa mereka benar- benar membeli dari Anda.
- Survei pelanggan. Survei pelanggan adalah survei lengkap yang ditujukan kepada orang-orang yang telah melakukan pembelian (sebagai lawan dari pengunjung). Saat merancang survei, Anda ingin fokus pada: mendefinisikan pelanggan Anda, mendefinisikan masalah mereka, mendefinisikan keraguan yang mereka miliki sebelum membeli, dan mengidentifikasi kata dan frasa yang mereka gunakan untuk menggambarkan toko Anda.
- Analisis analitik. Apakah alat analisis Anda melacak dan melaporkan data Anda dengan benar? Itu mungkin terdengar konyol, tetapi Anda akan terkejut dengan banyaknya alat analitik yang dikonfigurasi dengan tidak benar. Analisis analitik adalah tentang mencari tahu bagaimana perilaku pengunjung Anda. Misalnya, Anda mungkin fokus pada corong. Di mana kebocoran corong konversi terbesar Anda? Dengan kata lain, di mana kebanyakan orang keluar dari saluran Anda? Itu tempat yang bagus untuk memulai pengujian.
- Pengujian pengguna. Di sinilah Anda melihat orang-orang nyata dalam eksperimen berbayar dan terkontrol mencoba melakukan tugas di situs Anda. Misalnya, Anda dapat meminta mereka untuk menemukan video game dalam kisaran $40–$60 dan menambahkannya ke keranjang mereka. Saat mereka melakukan tugas-tugas ini, mereka menceritakan pikiran dan tindakan mereka dengan lantang.
- Sesi replay. Pemutaran ulang sesi mirip dengan pengujian pengguna, tetapi sekarang Anda berurusan dengan orang sungguhan dengan uang sungguhan dan niat nyata untuk membeli. Anda akan melihat pengunjung Anda yang sebenarnya menavigasi situs Anda. Apa yang sulit mereka temukan? Di mana mereka merasa frustrasi? Di mana mereka tampak bingung?
Ada juga jenis penelitian tambahan, tetapi mulailah dengan memilih metodologi pengujian A/B terbaik untuk Anda. Jika Anda menjalankan beberapa di antaranya, Anda akan memiliki banyak sekali daftar ide berdasarkan data yang layak untuk diuji. Saya jamin daftar Anda akan memberi Anda lebih banyak nilai daripada artikel "99 hal untuk diuji sekarang".
Memprioritaskan ide pengujian A/B
Daftar besar ide pengujian A/B memang mengasyikkan, tetapi tidak terlalu membantu untuk memutuskan apa yang akan diuji. Di mana Anda mulai? Di situlah prioritas masuk.
Ada beberapa kerangka kerja prioritas umum yang dapat Anda gunakan:
- ES. ICE adalah singkatan dari impact, confidence, dan ease. Masing-masing faktor tersebut mendapat peringkat 1–10. Misalnya, jika Anda dapat dengan mudah menjalankan pengujian sendiri tanpa bantuan dari pengembang atau desainer, Anda dapat memberikan kemudahan delapan. Anda menggunakan penilaian Anda di sini, dan jika Anda memiliki lebih dari satu orang yang menjalankan tes, peringkat mungkin menjadi terlalu subjektif. Ini membantu untuk memiliki seperangkat pedoman untuk menjaga semua orang objektif.
- PAI. PIE adalah singkatan dari potensi, kepentingan, dan kemudahan. Sekali lagi, setiap faktor mendapat peringkat 1–10. Misalnya, jika pengujian akan mencapai 90% dari lalu lintas Anda, Anda dapat memberikan nilai penting delapan. PIE sama subjektifnya dengan ICE, jadi pedoman juga dapat membantu kerangka kerja ini.
- PXL. PXL adalah kerangka prioritas dari CXL. Ini sedikit berbeda dan lebih dapat disesuaikan, memaksa keputusan yang lebih objektif. Alih-alih tiga faktor, Anda akan menemukan pertanyaan ya/tidak dan pertanyaan kemudahan implementasi. Misalnya, kerangka kerja mungkin bertanya: "Apakah tes dirancang untuk meningkatkan motivasi?" Jika ya, mendapat 1. Jika tidak, mendapat 0. Anda dapat mempelajari lebih lanjut tentang kerangka kerja ini dan mengunduh spreadsheet di sini.
Sekarang Anda memiliki ide tentang di mana untuk memulai, tetapi juga dapat membantu untuk mengkategorikan ide-ide Anda. Misalnya, selama beberapa riset konversi yang saya lakukan baru-baru ini, saya menggunakan tiga kategori: menerapkan, menyelidiki, dan menguji.
- Melaksanakan. Lakukan saja. Itu rusak atau jelas.
- Menyelidiki. Membutuhkan pemikiran ekstra untuk mendefinisikan masalah atau mempersempit solusi.
- Uji. Idenya adalah suara dan data informasi. Menguji!
Antara kategorisasi dan prioritas ini, Anda sudah siap.
Kursus kilat dalam statistik pengujian A/B
Sebelum Anda menjalankan tes, penting untuk menggali statistik. Saya tahu, statistik biasanya bukan favorit penggemar, tetapi anggap ini sebagai mata kuliah wajib yang harus Anda ambil untuk lulus.
Statistik adalah bagian besar dari pengujian A/B. Untungnya, alat pengujian A/B dan perangkat lunak pengujian terpisah telah mempermudah pekerjaan pengoptimal, tetapi pemahaman dasar tentang apa yang terjadi di balik layar sangat penting untuk menganalisis hasil pengujian Anda nanti.
Alex Birkett, Manajer Pemasaran Pertumbuhan di HubSpot, menjelaskan:
Alex Birkett, HubSpot
“Statistik bukanlah angka ajaib dari konversi atau biner 'Sukses!' atau hal 'Kegagalan'. Ini adalah proses yang digunakan untuk membuat keputusan di bawah ketidakpastian dan untuk mengurangi risiko dengan mencoba mengurangi ketidakjelasan tentang hasil dari keputusan yang diberikan.
“Dengan mengingat hal itu, saya pikir paling penting untuk mengetahui dasar-dasarnya: apa itu mean, varians, sampling, standar deviasi, regresi ke mean, dan apa yang merupakan sampel 'representatif'. Selain itu, akan membantu saat Anda memulai pengujian A/B untuk menyiapkan beberapa pagar pembatas khusus guna mengurangi sebanyak mungkin kesalahan manusia.”
Apa maksudnya?
Berarti adalah rata-rata. Tujuan Anda adalah menemukan rata-rata yang mewakili keseluruhan.
Misalnya, Anda mencoba mencari harga rata-rata video game. Anda tidak akan menambahkan harga setiap video game di dunia dan membaginya dengan jumlah semua video game di dunia. Sebagai gantinya, Anda akan mengisolasi sampel kecil yang mewakili semua video game di dunia.
Anda mungkin akhirnya menemukan harga rata-rata beberapa ratus video game. Jika Anda telah memilih sampel yang representatif, harga rata-rata dari dua ratus video game itu harus mewakili semua video game di dunia.
Apa itu pengambilan sampel?
Semakin besar ukuran sampel, semakin sedikit variabilitas yang ada, yang berarti rata-rata lebih mungkin akurat.
Jadi, jika Anda meningkatkan sampel Anda dari dua ratus video game menjadi dua ribu video game, Anda akan memiliki lebih sedikit varians dan rata-rata yang lebih tepat.
Apa itu varians?
Varians adalah variabilitas rata-rata. Pada dasarnya, semakin tinggi variabilitas, semakin kurang akurat mean dalam memprediksi titik data individu.
Jadi, seberapa dekat rata-rata dengan harga sebenarnya dari masing-masing video game?
Apa itu signifikansi statistik?
Dengan asumsi tidak ada perbedaan antara A dan B, seberapa sering Anda akan melihat efeknya hanya secara kebetulan?
Semakin rendah tingkat signifikansi statistik, semakin besar kemungkinan variasi kemenangan Anda tidak menjadi pemenang sama sekali.
Sederhananya, tingkat signifikansi yang rendah berarti ada kemungkinan besar “pemenang” Anda bukanlah pemenang yang sebenarnya (ini dikenal sebagai false positive).
Ketahuilah bahwa sebagian besar alat pengujian A/B dan perangkat lunak pengujian A/B open source memanggil signifikansi statistik tanpa menunggu ukuran sampel atau titik waktu yang telah ditentukan untuk dicapai. Itulah mengapa Anda mungkin melihat tes Anda bolak-balik antara signifikan secara statistik dan tidak signifikan secara statistik.
Peep Laja, pendiri CXL Institute, ingin lebih banyak orang memahami signifikansi statistik uji A/B dan mengapa hal itu penting:
Peep Laja, Institut CXL
“Signifikansi statistik tidak sama dengan validitas—ini bukan aturan berhenti. Ketika Anda mencapai 95% signifikansi statistik atau lebih tinggi, itu berarti sangat sedikit sebelum dua kondisi lain yang lebih penting terpenuhi:
“1. Ada cukup ukuran sampel, yang Anda cari dengan menggunakan kalkulator ukuran sampel. Artinya, cukup banyak orang yang telah menjadi bagian dari eksperimen sehingga kami dapat menyimpulkan apa saja.
“2. Pengujian telah berjalan cukup lama sehingga sampelnya representatif (dan tidak terlalu lama untuk menghindari pencemaran sampel). Dalam kebanyakan kasus, Anda akan ingin menjalankan tes Anda dua, tiga, atau empat minggu, tergantung seberapa cepat Anda bisa mendapatkan sampel yang dibutuhkan.”
Apa itu regresi ke mean?
Anda mungkin melihat fluktuasi ekstrim di awal pengujian A/B.
Regresi ke mean adalah fenomena yang mengatakan jika sesuatu yang ekstrim pada pengukuran pertama, kemungkinan akan lebih dekat dengan rata-rata pada pengukuran kedua.
Jika satu-satunya alasan Anda memanggil tes adalah karena mencapai signifikansi statistik, Anda mungkin melihat hasil positif palsu. Variasi kemenangan Anda kemungkinan akan mundur ke rata-rata dari waktu ke waktu.
Apa itu kekuatan statistik?
Dengan asumsi ada perbedaan antara A dan B, seberapa sering Anda akan melihat efeknya?
Semakin rendah level daya, semakin besar kemungkinan pemenang tidak akan dikenali. Semakin tinggi level daya, semakin rendah kemungkinan pemenang tidak akan dikenali. Sungguh, semua yang perlu Anda ketahui adalah bahwa kekuatan statistik 80% adalah standar untuk sebagian besar alat pengujian A/B dan/atau layanan pengujian terpisah apa pun.
Ton Wesseling, pendiri Dialog Online, berharap lebih banyak orang tahu tentang kekuatan statistik:
Ton Wesseling, Dialog Online
“Banyak orang khawatir tentang positif palsu. Kami lebih khawatir tentang negatif palsu. Mengapa menjalankan eksperimen di mana peluang untuk menemukan bukti bahwa perubahan positif Anda berdampak sangat kecil?”
Apa ancaman validitas eksternal?
Ada faktor eksternal yang mengancam validitas tes Anda. Sebagai contoh:
- Penjualan Black Friday Cyber Monday (BFCM)
- Sebutan pers positif atau negatif
- Peluncuran kampanye berbayar utama
- Hari dalam seminggu
- Musim yang berubah
Salah satu contoh pengujian A/B yang lebih umum di mana ancaman validitas eksternal memengaruhi hasil Anda adalah selama acara musiman. Katakanlah Anda akan menjalankan tes selama bulan Desember. Liburan belanja besar berarti peningkatan lalu lintas untuk toko Anda selama bulan itu. Anda mungkin menemukan pada bulan Januari bahwa pemenang bulan Desember Anda tidak lagi berkinerja baik.
Mengapa?
Karena ancaman validitas eksternal: hari libur.
Data yang menjadi dasar keputusan pengujian Anda adalah sebuah anomali. Ketika segalanya tenang di bulan Januari, Anda mungkin terkejut menemukan pemenang Anda kalah.
Anda tidak dapat menghilangkan ancaman validitas eksternal, tetapi Anda dapat menguranginya dengan menjalankan pengujian selama berminggu-minggu penuh (misalnya, jangan memulai pengujian pada hari Senin dan mengakhirinya pada hari Jumat), termasuk berbagai jenis lalu lintas (misalnya, jangan' t menguji lalu lintas berbayar secara eksklusif dan kemudian meluncurkan hasilnya ke setiap sumber lalu lintas), dan memperhatikan potensi ancaman.
Jika Anda menjalankan pengujian selama musim belanja yang sibuk, seperti BFCM, atau melalui ancaman validitas eksternal yang besar, Anda mungkin ingin membaca Panduan Lengkap untuk Pengujian A/B kami.
Cara menyiapkan pengujian A/B
Mari kita telusuri sedikit tutorial pengujian A/B. Sebelum Anda menguji apa pun , Anda harus memiliki hipotesis yang kuat. (Bagus, kami baru saja menyelesaikan kelas matematika dan sekarang kami masuk ke sains.)
Jangan khawatir, itu tidak rumit. Pada dasarnya, Anda perlu menguji hipotesis, bukan ide. Sebuah hipotesis terukur, bercita-cita untuk memecahkan masalah konversi tertentu, dan berfokus pada wawasan, bukan kemenangan.
Anda perlu menguji hipotesis, bukan ide.
Setiap kali saya menulis hipotesis, saya menggunakan rumus yang dipinjam dari Kit Hipotesis Craig Sullivan:
- Karena Anda melihat[masukkan data/umpan balik dari penelitian]
- Anda berharap bahwa [perubahan yang Anda uji] akan menyebabkan [dampak yang Anda antisipasi] dan
- Anda akan mengukurnya menggunakan [metrik data]
Mudah, bukan? Yang harus Anda lakukan adalah mengisi bagian yang kosong dan ide tes Anda telah berubah menjadi hipotesis.
Memilih alat pengujian A/B
Sekarang Anda dapat mulai memilih alat pengujian A/B atau layanan pengujian terpisah. Lebih sering daripada tidak, Anda akan memikirkan Google Optimize, Optimizely, dan VWO terlebih dahulu.
Semua pilihan yang baik dan aman.
- Google Optimalkan. Gratis, simpan untuk beberapa batasan multivarian, yang seharusnya tidak terlalu memengaruhi Anda jika Anda baru memulai. Ini berfungsi dengan baik saat melakukan pengujian A/B Google Analytics, yang merupakan nilai tambah.
- secara optimal. Mudah untuk menjalankan dan menjalankan tes kecil, bahkan tanpa keterampilan teknis. Stats Engine memudahkan untuk menganalisis hasil pengujian. Biasanya, Optimizely adalah opsi yang paling mahal dari ketiganya.
- VWO. VWO memiliki SmartStats untuk mempermudah analisis. Plus, ia memiliki editor WYSIWYG yang bagus untuk pemula. Setiap paket VWO dilengkapi dengan peta panas, survei di tempat, analisis formulir, dll.
Kami juga memiliki beberapa alat pengujian A/B di Shopify App Store yang mungkin berguna bagi Anda.
Setelah Anda memilih alat pengujian A/B atau perangkat lunak pengujian terpisah, isi formulir pendaftaran dan ikuti petunjuk yang diberikan. Prosesnya bervariasi dari satu alat ke alat lainnya. Namun, biasanya, Anda akan diminta untuk memasang cuplikan di situs Anda dan menetapkan sasaran.
Bagaimana menganalisis hasil pengujian A/B
Ingat ketika saya mengatakan menulis hipotesis mengalihkan fokus dari kemenangan ke wawasan? Krista Seiden, Advokat Analytics dan Manajer Produk di Google, menjelaskan artinya:
Krista Seiden, Google
"Aspek pengujian A/B yang paling diabaikan adalah belajar dari pecundang Anda. Faktanya, dalam program pengoptimalan yang saya jalankan, saya membuat kebiasaan menerbitkan 'laporan kegagalan' di mana saya menyebut beberapa pecundang terbesar dari kuartal dan apa yang kita pelajari dari mereka.
“Salah satu favorit saya sepanjang masa adalah dari kampanye yang dibuat berbulan-bulan. Kami dapat menyelinap dalam pengujian halaman arahan tepat sebelum itu ditetapkan untuk ditayangkan, dan itu adalah hal yang baik yang kami lakukan, karena gagal total. Seandainya kami benar-benar meluncurkan halaman seperti itu, kami akan mendapatkan pukulan yang signifikan ke garis bawah. Kami tidak hanya menghemat banyak uang untuk bisnis ini, tetapi kami juga dapat menggali dan membuat beberapa asumsi (yang kemudian kami uji) tentang mengapa halaman baru berkinerja sangat buruk, dan itu membuat kami menjadi pemasar yang lebih baik dan lebih sukses dalam kampanye mendatang.”
Jika Anda menyusun hipotesis Anda dengan benar, pecundang pun adalah pemenangnya, karena Anda akan memperoleh wawasan yang dapat Anda gunakan untuk pengujian di masa mendatang dan di area lain dalam bisnis Anda. Jadi, ketika Anda menganalisis hasil tes Anda, Anda perlu fokus pada wawasan, bukan apakah tes itu menang atau kalah. Selalu ada sesuatu untuk dipelajari, selalu ada sesuatu untuk dianalisis. Jangan abaikan yang kalah!
Jika Anda menyusun hipotesis Anda dengan benar, bahkan pecundang adalah pemenangnya.
Hal terpenting yang perlu diperhatikan di sini adalah perlunya segmentasi. Sebuah tes mungkin kalah secara keseluruhan, tetapi kemungkinan itu dilakukan dengan baik dengan setidaknya satu segmen. Apa yang saya maksud dengan segmen?
- Pengunjung baru
- Pengunjung yang kembali
- pengunjung iOS
- pengunjung Android
- pengunjung Chrome
- pengunjung Safari
- Pengunjung desktop
- Pengunjung tablet
- Pengunjung penelusuran organik
- Pengunjung berbayar
- Pengunjung media sosial
- Pembeli yang masuk
Anda mendapatkan ide, kan?
Saat Anda melihat hasil di alat pengujian Anda, Anda sedang melihat seluruh kotak permen. Yang perlu Anda lakukan adalah memisahkan Smarties berdasarkan warna sehingga Anda bisa memakan yang merah terakhir. Maksud saya, agar Anda dapat mengungkap wawasan yang lebih dalam dan tersegmentasi.
Kemungkinannya adalah bahwa hipotesis itu terbukti benar di antara segmen-segmen tertentu. Itu memberi tahu Anda sesuatu juga.
Analisis lebih dari sekadar apakah tes itu pemenang atau pecundang. Segmentasikan data Anda untuk menemukan wawasan tersembunyi di bawah permukaan.
Alat pengujian A/B tidak akan melakukan analisis untuk Anda, jadi ini adalah keterampilan penting untuk dikembangkan seiring waktu.
Ebook Gratis: Analisis E-niaga untuk Pemula
Cari tahu metrik mana yang merupakan kunci untuk membangun dan mengembangkan bisnis online Anda. Panduan gratis ini adalah langkah pertama yang sempurna dalam mempelajari tentang analitik e-niaga.
Dapatkan Analytics E-niaga untuk Pemula dikirimkan langsung ke kotak masuk Anda.
Hampir sampai: silakan masukkan email Anda di bawah ini untuk mendapatkan akses instan.
Kami juga akan mengirimi Anda pembaruan tentang panduan pendidikan baru dan kisah sukses dari buletin Shopify. Kami membenci SPAM dan berjanji untuk menjaga alamat email Anda tetap aman.
Cara mengarsipkan pengujian A/B sebelumnya
Katakanlah Anda menjalankan tes pertama Anda besok. Dua tahun dari besok, apakah Anda ingat detail tes itu? Tidak mungkin.
Itulah mengapa pengarsipan hasil pengujian A/B Anda penting. Tanpa arsip yang terpelihara dengan baik, semua wawasan yang Anda peroleh akan hilang. Plus, saya tidak bercanda, sangat mudah untuk menguji hal yang sama dua kali jika Anda tidak mengarsipkan.
Namun, tidak ada cara yang "benar" untuk melakukan ini. Anda bisa menggunakan alat seperti Proyek atau Eksperimen Efektif, atau Anda bisa menggunakan Excel. Ini benar-benar terserah Anda, terutama ketika Anda baru memulai. Pastikan Anda melacak:
- Hipotesis
- Tangkapan layar kontrol dan variasi
- Entah itu menang atau kalah
- Wawasan yang diperoleh melalui analisis
Saat Anda tumbuh, Anda akan berterima kasih pada diri sendiri karena telah menyimpan arsip ini. Tidak hanya akan membantu Anda, tetapi juga karyawan baru dan penasihat/pemangku kepentingan.
Proses pengujian A/B dari para profesional
Sekarang setelah Anda melalui tutorial pengujian A/B standar, mari kita lihat proses yang tepat dari para profesional dari perusahaan seperti Google dan HubSpot.
Daftar Bacaan Gratis: Optimasi Konversi untuk Pemula
Ubah lebih banyak pengunjung situs web menjadi pelanggan dengan mendapatkan kursus kilat dalam pengoptimalan konversi. Akses daftar artikel berdampak tinggi gratis kami yang dikuratori di bawah ini.
Dapatkan daftar bacaan Pengoptimalan Konversi kami dikirimkan langsung ke kotak masuk Anda.
Hampir sampai: silakan masukkan email Anda di bawah ini untuk mendapatkan akses instan.
Kami juga akan mengirimi Anda pembaruan tentang panduan pendidikan baru dan kisah sukses dari buletin Shopify. Kami membenci SPAM dan berjanji untuk menjaga alamat email Anda tetap aman.
Krista Seiden, Google
Proses langkah demi langkah saya untuk pengujian A/B web dan aplikasi dimulai dengan analisis—menurut saya, ini adalah inti dari setiap program pengujian yang baik. Pada tahap analisis, tujuannya adalah untuk memeriksa data analitik Anda, survei atau data UX, atau sumber wawasan pelanggan lainnya yang mungkin Anda miliki untuk memahami di mana peluang Anda untuk pengoptimalan.
Setelah Anda memiliki alur ide yang baik dari tahap analisis, Anda dapat beralih ke hipotesis apa yang mungkin salah dan bagaimana Anda berpotensi memperbaiki atau meningkatkan area pengoptimalan ini.
Selanjutnya, saatnya untuk membangun dan menjalankan pengujian Anda. Pastikan untuk menjalankannya untuk jangka waktu yang wajar (saya default ke dua minggu untuk memastikan saya memperhitungkan perubahan atau anomali dari minggu ke minggu), dan ketika Anda memiliki cukup data, analisis hasil Anda untuk menentukan pemenang Anda.
Penting juga untuk meluangkan waktu dalam tahap ini untuk menganalisis yang kalah juga—apa yang dapat Anda pelajari dari variasi ini?
Terakhir, dan Anda hanya dapat mencapai tahap ini setelah Anda menghabiskan waktu meletakkan dasar untuk program pengoptimalan yang solid, inilah saatnya untuk melihat personalisasi. Ini tidak selalu membutuhkan toolset yang mewah, tetapi bisa keluar dari data yang Anda miliki tentang pengguna Anda.
Personalisasi pemasaran dapat semudah menargetkan konten yang tepat ke lokasi yang tepat atau serumit penargetan berdasarkan tindakan pengguna individu. Namun, jangan langsung masuk ke bagian personalisasi. Pastikan Anda menghabiskan cukup waktu untuk mendapatkan dasar-dasar yang benar terlebih dahulu.
Alex Birkett, HubSpot
Pada level tinggi, saya mencoba mengikuti proses ini:
- Kumpulkan data dan pastikan implementasi analitik akurat.
- Analisis data dan temukan wawasan.
- Ubah wawasan menjadi hipotesis.
- Memprioritaskan berdasarkan dampak dan kemudahan, dan memaksimalkan alokasi sumber daya (terutama sumber daya teknis).
- Jalankan tes (mengikuti praktik terbaik statistik sejauh pengetahuan dan kemampuan saya).
- Menganalisis hasil dan menerapkan atau tidak sesuai dengan hasil.
- Iterasi berdasarkan temuan, dan ulangi.
Sederhananya: riset, uji, analisis, ulangi.
Meskipun proses ini dapat menyimpang atau berubah berdasarkan konteksnya (Apakah saya menguji fitur produk yang penting bagi bisnis? CTA posting blog? Apa profil risiko dan keseimbangan inovasi vs. mitigasi risiko?), ini cukup berlaku untuk ukuran apa pun atau jenis perusahaan.
Intinya adalah proses ini gesit, tetapi juga mengumpulkan data yang cukup, baik umpan balik pelanggan kualitatif dan analitik kuantitatif, untuk dapat menghasilkan ide pengujian yang lebih baik dan memprioritaskannya dengan lebih baik sehingga Anda dapat mengarahkan lalu lintas ke toko online Anda.
Ton Wesseling, Dialog Online
Pertanyaan pertama yang selalu kami jawab ketika ingin mengoptimalkan perjalanan pelanggan adalah: Di mana produk atau layanan ini cocok dengan model ROAR yang kami buat di Dialog Online? Apakah Anda masih dalam fase risiko di mana kami dapat melakukan banyak penelitian tetapi tidak dapat memvalidasi temuan kami melalui eksperimen online uji A/B (di bawah 1.000 konversi per bulan), atau apakah Anda dalam fase pengoptimalan? Atau bahkan di atas?
- Fase R isk: banyak penelitian, yang akan diterjemahkan ke dalam apa pun, mulai dari poros model bisnis hingga desain dan proposisi nilai yang benar-benar baru.
- Fase optimalisasi: eksperimen besar yang akan mengoptimalkan proposisi nilai dan model bisnis.
- Fase optimalisasi: eksperimen kecil untuk memvalidasi hipotesis perilaku pengguna, yang akan membangun pengetahuan untuk perubahan desain yang lebih besar.
- Otomatisasi : Anda masih memiliki kekuatan eksperimen (pengunjung) yang tersisa, artinya potensi pengujian penuh Anda tidak diperlukan untuk memvalidasi perjalanan pengguna Anda. Apa yang tersisa harus digunakan untuk dieksploitasi, untuk tumbuh lebih cepat sekarang (tanpa fokus pada pembelajaran jangka panjang). Ini dapat diotomatisasi dengan menjalankan bandit/menggunakan algoritme.
- Pikirkan kembali: Anda berhenti menambahkan banyak penelitian , kecuali jika itu adalah poros untuk sesuatu yang baru.
Jadi pengujian A/B web atau aplikasi hanyalah hal besar dalam fase pengoptimalan ROAR dan seterusnya (sampai dipikirkan kembali).
Pendekatan kami untuk menjalankan eksperimen adalah model FACT & ACT:
Penelitian yang kami lakukan didasarkan pada Model 5V kami:
Kami mengumpulkan semua wawasan ini untuk menghasilkan hipotesis utama yang didukung penelitian, yang akan mengarah pada sub-hipotesis yang akan diprioritaskan berdasarkan data yang dikumpulkan melalui pengujian A/B desktop atau seluler. Semakin tinggi kemungkinan hipotesis itu benar, semakin tinggi peringkatnya.
Setelah kami mengetahui apakah hipotesis kami benar atau salah, kami dapat mulai menggabungkan pembelajaran dan mengambil langkah yang lebih besar dengan mendesain ulang/menyelaraskan kembali bagian yang lebih besar dari perjalanan pelanggan. Namun, pada titik tertentu, semua implementasi yang menang akan menghasilkan maksimum lokal. Maka Anda perlu mengambil langkah yang lebih besar untuk dapat mencapai potensi global yang maksimal.
Dan, tentu saja, pembelajaran utama akan disebarkan ke seluruh perusahaan, yang mengarah ke segala macam pengoptimalan dan inovasi yang lebih luas berdasarkan wawasan pihak pertama yang Anda validasi.
Apakah Anda memasarkan ke audiens internasional? Pelajari cara membuat proses itu mudah dengan lokalisasi semu.
Julia Starostenko, Shopify
Tujuan eksperimen adalah untuk memvalidasi bahwa membuat perubahan pada laman web yang ada akan berdampak positif bagi bisnis.
Sebelum memulai, penting untuk menentukan apakah menjalankan eksperimen benar-benar diperlukan. Pertimbangkan skenario berikut: ada tombol dengan rasio klik yang sangat rendah. Hampir tidak mungkin untuk menurunkan kinerja tombol ini. Oleh karena itu, validasi keefektifan perubahan yang diusulkan pada tombol (yaitu, menjalankan eksperimen) tidak diperlukan.
Demikian pula, jika perubahan yang diusulkan pada tombol kecil, mungkin tidak ada gunanya menghabiskan waktu untuk menyiapkan, menjalankan, dan meruntuhkan eksperimen. Dalam hal ini, perubahan harus diluncurkan ke semua orang dan kinerja tombol dapat dipantau.
Jika ternyata menjalankan eksperimen akan bermanfaat, langkah selanjutnya adalah menentukan metrik bisnis yang harus ditingkatkan (mis., meningkatkan rasio konversi tombol). Kemudian kami memastikan bahwa pengumpulan data yang tepat telah dilakukan.
Once this is complete, the audience is randomly run split testing between two groups; one group is shown the existing version of the button while the other group gets the new version. The conversion rate of each audience is monitored, and once statistical significance is reached, the results of the experiment are determined.
Peep Laja, Institut CXL
A/B testing is a part of a bigger conversion optimization picture. In my opinion it's 80% about the research and only 20% about testing. Conversion research will help you determine what to test to begin with.
My process typically looks like this (a simplified summary):
- Lakukan riset konversi menggunakan kerangka kerja seperti ResearchXL untuk mengidentifikasi masalah di situs Anda.
- Pilih masalah prioritas tinggi (salah satu yang memengaruhi sebagian besar pengguna dan merupakan masalah parah), dan lakukan brainstorming sebanyak mungkin solusi untuk masalah ini. Informasikan proses ide Anda dengan wawasan penelitian konversi Anda. Tentukan di perangkat mana Anda ingin menjalankan pengujian (Anda harus menjalankan pengujian A/B seluler terpisah dari desktop).
- Tentukan berapa banyak variasi yang dapat Anda uji (berdasarkan tingkat lalu lintas/transaksi Anda), lalu pilih satu atau dua ide terbaik untuk solusi untuk diuji terhadap kontrol.
- Wireframe perawatan yang tepat (tulis salinannya, buat perubahan desain, dll.) Tergantung pada ruang lingkup perubahan, Anda mungkin juga perlu menyertakan seorang desainer untuk mendesain elemen baru.
- Minta pengembang front-end Anda menerapkan perawatan di alat pengujian Anda. Siapkan integrasi yang diperlukan (Google Analytics), tetapkan tujuan yang sesuai.
- Lakukan QA pada pengujian (pengujian yang rusak sejauh ini merupakan pembunuh pengujian A/B terbesar) untuk memastikannya berfungsi dengan setiap kombo browser/perangkat.
- Luncurkan tes!
- Setelah tes selesai, lakukan analisis post-test.
- Bergantung pada hasilnya, terapkan pemenang, ulangi perawatan, atau pergi dan uji sesuatu yang lain.
Webinar Gratis:
Pemasaran 101
Berjuang untuk meningkatkan penjualan? Pelajari cara memulai dari hari pertama hingga penjualan pertama dalam kursus pelatihan gratis ini.
Optimalkan pengujian A/B untuk bisnis Anda
Anda memiliki proses, Anda memiliki kekuatan! Jadi, keluarlah, dapatkan perangkat lunak pengujian A/B terbaik, dan mulailah menguji toko Anda. Sebelum Anda menyadarinya, wawasan itu akan menambah lebih banyak uang di Bank Anda.
Jika Anda ingin terus belajar tentang pengoptimalan, pertimbangkan untuk mengikuti kursus gratis, seperti pengujian A/B Udacity oleh Google. Anda dapat mempelajari lebih lanjut tentang pengujian A/B web dan aplikasi seluler untuk meningkatkan keahlian pengoptimalan Anda.