Подводя итоги 2016 года, давайте поговорим о завершении тестов CRO

Опубликовано: 2021-10-23

Пока мы приближаемся к завершению еще одного года, и пока вопрос «Когда можно закончить этот тест?» по-прежнему возникает в моих разговорах, по крайней мере, раз в неделю, я чувствовал, что пора сесть и написать свой процесс завершения теста и все переменные, которые влияют на это решение.

Сегодня я согрею вас двумя советами, которые следует иметь в виду, когда вы приближаетесь к решению о заключении, а затем я раскрою четыре переменные, на которые я обращаю внимание при приближении к этому решению. Смахните пыль с того учебника статистики, который вы давно похоронили, и приступим.

Предисловие. Совет №1: убедитесь, что ваши данные надежны и надежны.

Прежде чем настраивать тест, вы уже должны знать, каковы ваши цели. Обратите внимание, как я сказал там «цели». Да, мы все знаем, что вам нужно централизованное преобразование; одна важная вещь, к которой вы подталкиваете своих пользователей. Но есть много других взаимодействий с любым сайтом, которые мы можем отслеживать, чтобы увидеть, повлияли ли наши изменения на эти взаимодействия. См. Изображение ниже для нескольких примеров.

примеры целей

Прежде чем анализировать какие-либо тестовые данные, дважды проверьте, что все ваши данные находятся на равном игровом поле. Убедитесь, что вы выбрали данные для каждой цели для одного и того же точного диапазона дат, чтобы можно было соответствующим образом сравнить точки данных, не искажая ни одной строки данных. Находясь здесь, также убедитесь, что все данные о ваших целях выглядят «нормально», и что вы не подозреваете, что какие-либо неуспешные цели или мертвые цели никогда не выполнялись.

Предисловие Совет № 2: Никогда не останавливайтесь на одной переменной

Принятие решения о заключении не может полагаться на какую-либо одну переменную. Примите во внимание каждую из этих четырех переменных, и если большинство переменных дополняют друг друга, вы можете сделать вывод с уверенностью.

Если все переменные противоречат друг другу, вы можете рассматривать множество различных сценариев. Но в этот момент, если вы сделаете вывод, вы можете принять нелогичное решение с дорогостоящими последствиями.

Каждая из этих переменных находится под влиянием или влияет по крайней мере на одну из других переменных. Таким образом, дополнительные данные поддерживают себя, в то время как противоречивые данные заставляют вас соединять точки с паутиной лжи. Не делай этого!

Переменная # 1: размер выборки

Размер выборки имеет значение, ребята. Размер выборки позволяет нам уверенно обобщать поведение на основе нашей совокупности (всего пользователей) и допустимой погрешности (статистическая значимость 100-баллов).

На самом деле все дело в пропорциях, но если вы постоянно просматриваете один и тот же сайт с очень небольшими колебаниями трафика, вы можете установить конечную цель, от которой следует работать.

Сто пользователей на каждый сегмент теста - это справедливый минимум. Даже на сайтах с низким трафиком очень сложно обобщить поведение на основе данных нескольких пользователей. Таким образом, чем больше, тем лучше. Более высокий размер выборки также помогает свести к нулю любые перекосы, которые мы могли видеть из-за выбросов.

Однако на довольно большом сайте электронной коммерции, который привлекает не менее 1000 пользователей в день, я не могу рассматривать 100 и соответствующий размер выборки пользователей. Все дело в пропорциях и типичном объеме пользователей на вашем сайте на регулярной основе.

Эта переменная включает конверсии, а также пользователей для целей, которые вы будете учитывать. Даже если у вас сайт с низкой конверсией, если вы сравните 0 конверсий с 2 конверсиями, вариант с 2 конверсиями наверняка выиграет просто потому, что это был единственный вариант, который технически преобразовывался.

Убедитесь, что ваши конверсии выражаются как минимум двузначными числами; и если это ваш самый минимум (двузначные цифры), убедитесь, что у вас есть сильные комплименты в трех других переменных.

Или, если у вас нет большого опыта работы с размером выборки в статистических условиях, вы можете использовать этот удобный калькулятор размера выборки, чтобы определить подходящий размер выборки для вас.

Переменная № 2: Продолжительность теста.

В идеале я провожу тесты от 2 до 6 недель.

Две недели - это твердый минимум, потому что вы сводите к нулю возможность того, что любая переменная будет иметь «хорошую» или «плохую» неделю и будет либо иметь хороший трафик, либо уводить низкомотивированный трафик. Шесть недель - прекрасный максимум, потому что это достаточно широкая временная сеть, чтобы уловить любые колебания, которые вы заметите.

Однако имейте в виду, что выполнение теста вечно и всегда может быть вредным для вашего теста. Важным фактором в результатах тестирования является реакция пользователя на новые стимулы. Таким образом, когда мы впервые запускаем тест, мы, как правило, видим огромные скачки за воротами, когда один вариант сильно проигрывает, в то время как другой остается в выигрышной серии. Со временем этот огромный разрыв между вариациями имеет тенденцию нормализоваться и сокращаться, потому что «новое» стирается, и возвращающиеся пользователи уже не так затронуты новым изменением, как когда-то. Таким образом, чем дольше длится тест, тем менее новизной становится изменение и тем меньше оно влияет на поведение этих вернувшихся пользователей.

первоначальный всплеск результатов

Переменная # 3: статистическая значимость

Хотя статистическая значимость имеет решающее значение для заявления о «уверенности» в вашем заключении, она также может вводить в заблуждение.

Статистическая значимость определяет, вызвано ли изменение двух показателей нормальной дисперсией или внешним фактором. Таким образом, теоретически, когда мы достигаем высокой статистической значимости, мы знаем, что наши изменения повлияли на пользователей.

В идеале вы должны стремиться к статистической значимости как можно ближе к 100%. Чем ближе вы к 100%, тем меньше ваша погрешность. Это означает, что ваши результаты могут воспроизводиться на более стабильной основе. Чем выше ваша статистическая значимость, тем выше ваши шансы сохранить этот рост коэффициента конверсии, если вы реализуете выигрышный вариант. 95% - это хорошая высокая цель. 90% - хорошее место для поселения. Если значение ниже 90%, вы рискуете получить «уверенный» вывод.

Угроза здесь в том, что размер выборки действительно имеет значение. Вы можете достичь статистической значимости 98% за несколько дней и буквально смотреть только на 16 пользователей, что, очевидно, не является надежным размером выборки.

Статистическая значимость также может отражать тот огромный всплеск производительности, о котором я упоминал ранее, когда тест запускается впервые. Тесты обладают всеми возможностями переключения, и мы также знаем, что со временем данные нормализуются. Таким образом, слишком раннее измерение статистической значимости может дать нам совершенно неверную картину того, как это изменение, скорее всего, повлияет на наших пользователей в более долгосрочной перспективе.

Кроме того, не каждый тест будет иметь статистическую значимость. Некоторые внесенные вами изменения могут не повлиять на поведение пользователя настолько сильно, чтобы их можно было рассматривать как отклонение от нормы. И это нормально! Это просто означает, что вам нужно протестировать более крупные изменения, чтобы немного больше привлечь внимание пользователя.

Переменная # 4: согласованность данных

Этот идет на все те прыгающие тесты. Есть некоторые тесты, которые отказываются нормализоваться и отказываются предоставить вам явного победителя. Они будут проводить каждый день, представляя вам разные варианты в качестве победителя, и сводят вас с ума.

флип-флоп против согласованности

Но они существуют, и именно поэтому так важен поиск согласованной направленности данных. Всегда ли вариант, который вы объявляете победителем, был победителем? Если нет, то почему он не всегда побеждал? Если вы не можете с уверенностью ответить на вопрос «почему?» тогда реализация победителя может навредить вашей прибыли, если вы реализуете вариацию, выставляющую напоказ как победитель.

Я также измеряю разницу между коэффициентом конверсии элемента управления и коэффициентом конверсии варианта (также известного как «подъем» или «падение»). Я ищу, чтобы эта метрика была согласованной, чтобы я мог убедиться, что тест вышел из начальной фазы всплеска.

Также полезно периодически рассчитывать статистическую значимость, чтобы видеть, насколько согласован этот показатель.

Последние мысли

Завершение любого теста - это не шутка, и оно наполнено давлением. Если вы сделаете неправильный призыв и реализуете что-то, что, по вашему мнению, было выигрышным, в то время как данные показывают обратное, пострадают ваша прибыль и ваши пользователи.

Подходите к выводу со всех возможных сторон, чтобы вы могли сделать действительно уверенный вывод, основанный на данных!