Enquanto concluímos 2016, vamos falar sobre a conclusão dos testes de CRO

Publicados: 2021-10-23

Enquanto nos aproximamos do fechamento de mais um ano, e enquanto a pergunta "Quando este teste pode ser concluído?" ainda surge em minhas conversas pelo menos uma vez por semana, senti como se fosse hora de sentar e escrever meu processo de conclusão do teste e todas as variáveis que influenciam nessa decisão.

Hoje, vou aquecê-lo com duas dicas para manter em mente quando você abordar a decisão de conclusão e, em seguida, passarei para as quatro variáveis que considero ao abordar essa decisão. Limpe a poeira daquele livro de estatística que você enterrou há muito tempo e vamos começar.

Prefácio Dica nº 1: certifique-se de que seus dados sejam bonitos e robustos

Antes de configurar seu teste, você já deve saber quais são seus objetivos. Observe como eu disse “metas” ali. Sim, todos nós sabemos que você deve ter uma conversão centralizada; a única coisa importante para a qual você está direcionando seus usuários. Mas existem muitas outras interações com qualquer site que podemos rastrear para observar se nossa alteração afetou ou não essas interações. Veja a imagem abaixo para alguns exemplos.

exemplos de metas

Antes de analisar quaisquer dados de teste, verifique se todos os seus dados estão em igualdade de condições. Certifique-se de ter extraído dados para cada meta para o mesmo intervalo de datas exato para que você possa comparar os pontos de dados de forma apropriada sem distorcer uma sequência de dados. Enquanto você estiver aqui, certifique-se também de que todos os seus dados de meta pareçam “normais” e que você não suspeite de nenhuma meta falhada ou morta que nunca teve qualquer ação.

Prefácio Dica nº 2: nunca conclua sobre uma única variável

Tomar uma decisão de conclusão não pode se basear em nenhuma variável. Leve cada uma dessas quatro variáveis em consideração e, se a maioria das variáveis se complementam, você pode concluir com segurança.

Se todas as variáveis estão se contradizendo, você pode estar olhando para uma infinidade de cenários diversos. Mas, nesse ponto no tempo, se você concluir, pode estar tomando uma decisão ilógica com consequências onerosas.

Cada uma dessas variáveis é influenciada por ou afeta pelo menos uma das outras variáveis. Assim, dados complementares se sustentam, enquanto dados contraditórios o forçam a conectar pontos com teias de mentiras. Não faça isso!

Variável # 1: Tamanho da Amostra

O tamanho da amostra é importante, pessoal. O tamanho da amostra nos permite generalizar com segurança um comportamento com base em nossa população (total de usuários) e nossa margem de erro aceitável (significância estatística de 100 objetivos).

É realmente tudo uma questão de proporções, mas se você estiver constantemente olhando para o mesmo site com muito pouca flutuação de tráfego, você pode definir uma meta de linha de fundo a partir da qual trabalhar.

Cem usuários para cada segmento de um teste é o mínimo correto. Mesmo em sites de baixo tráfego, é muito difícil generalizar comportamentos com base nos dados de alguns usuários. Assim, quanto mais, melhor. Um tamanho de amostra maior também ajuda a anular quaisquer distorções que pudéssemos ver nos outliers.

No entanto, em um site de comércio eletrônico bastante grande que atrai pelo menos 1.000 usuários por dia, não há como eu considerar 100 e um tamanho de amostra apropriado de usuários. É tudo uma questão de proporções e o que é um volume de usuário típico para seu site em uma base regular.

Esta variável inclui conversões, bem como usuários para as metas que você levará em consideração. Mesmo se você tiver um site de baixa conversão, se você comparar 0 conversões com 2 conversões, a variação com 2 conversões definitivamente ganhará simplesmente porque foi a única variação a ser tecnicamente convertida.

Certifique-se de que suas conversões tenham pelo menos dois dígitos; e se esse for o seu mínimo (dois dígitos), certifique-se de ter uma ação de elogio forte nas outras três variáveis.

Ou, se você não tem muita experiência com tamanho de amostra em uma configuração estatística, você pode usar esta calculadora de tamanho de amostra útil para determinar um tamanho de amostra apropriado para você.

Variável # 2: Duração do Teste

Idealmente, eu executo testes em qualquer lugar de 2 a 6 semanas.

Duas semanas é um mínimo sólido porque você está anulando a possibilidade de qualquer variável ter uma semana "boa" ou "ruim" e puxar um tráfego feliz ou afastar um tráfego pouco motivado. Seis semanas é um máximo adorável porque é uma rede temporal ampla o suficiente para capturar qualquer flutuação que você possa ver.

No entanto, observe que executar um teste indefinidamente também pode ser prejudicial ao seu teste. Um grande fator nos resultados do teste é a resposta do usuário a novos estímulos. Portanto, quando lançamos um teste pela primeira vez, tendemos a ver grandes saltos fora do portão, onde uma variação está perdendo dramaticamente enquanto a outra passa por sua seqüência de vitórias. Com o tempo, essa enorme lacuna entre as variações tende a se normalizar e fechar, porque o “novo” passou e os usuários que retornam não são tão afetados pela nova alteração como antes. Assim, quanto mais tempo o teste é executado, menos inovadora se torna a alteração e menos ela influencia o comportamento dos usuários que retornam.

pico inicial nos resultados

Variável # 3: Significância Estatística

Embora a significância estatística seja crítica para declarar "confiança" em sua conclusão, ela também pode ser muito enganosa.

A significância estatística determina se uma mudança em duas taxas é devido à variação normal ou devido a um fator externo. Assim, em tese, ao atingirmos uma significância estatística forte, sabemos que nossa alteração afetou os usuários.

Idealmente, você deseja obter uma significância estatística o mais próximo possível de 100%. Quanto mais próximo você estiver de 100%, menor será sua margem de erro. Isso significa que seus resultados podem ser reproduzidos de forma mais consistente. Quanto maior for sua significância estatística, maiores serão suas chances de manter o aumento da taxa de conversão se você implementar a variação vencedora. 95% é um bom objetivo elevado a atingir. 90% é um bom lugar para se estabelecer. Qualquer valor inferior a 90% e você estará se arriscando a realmente ser capaz de concluir com "confiança".

A ameaça aqui é que o tamanho da amostra realmente importa. Você poderia atingir uma significância estatística de 98% em poucos dias e, literalmente, apenas observar um total de 16 usuários, o que obviamente não é um tamanho de amostra confiável.

A significância estatística também pode capturar aquele grande pico de desempenho que mencionei antes quando um teste é iniciado pela primeira vez. Os testes têm toda a capacidade de inverter e também sabemos que, com o tempo, os dados se normalizam. Portanto, medir a significância estatística muito cedo pode nos dar uma imagem completamente incorreta de como essa alteração provavelmente afetará nossos usuários a longo prazo.

Além disso, nem todo teste vai ganhar significância estatística. Algumas alterações que você faz podem não influenciar o comportamento do usuário de maneira forte o suficiente para serem vistas como uma variação maior do que o normal. E tudo bem! Isso simplesmente significa que você precisa testar alterações maiores para capturar um pouco mais a atenção do usuário.

Variável # 4: Consistência de dados

Este vai para todos os testes de flip-flopping que existem. Existem alguns testes que se recusam a normalizar e se recusam a apresentar um vencedor claro. Eles passarão cada dia apresentando uma variação diferente como o vencedor e o deixarão absolutamente maluco.

flip-flopping-vs-consistência

Mas eles existem e são exatamente por isso que procurar uma direcionalidade de dados consistente é tão crucial. A variação que você está declarando um vencedor sempre foi um vencedor? Se não, por que nem sempre foi um vencedor? Se você não consegue responder com segurança ao "por quê?" então, implementar o vencedor pode prejudicar seus resultados financeiros se você implementar a variação desfilando como vencedor.

Também meço a diferença entre a taxa de conversão do controle e a taxa de conversão da variação (também conhecida como “aumento” ou “queda”). Eu procuro que essa métrica seja consistente também para que eu possa garantir que o teste está fora da fase inicial de pico.

Também é benéfico calcular a significância estatística periodicamente para ver o quão consistente esta métrica está apresentando.

Pensamentos finais

Concluir qualquer tipo de teste não é brincadeira e é cheio de pressão. Se você fizer a chamada errada e implementar algo que “sentiu” ser o vencedor, enquanto os dados ilustravam o contrário, seus resultados financeiros e seus usuários sofrerão.

Aproxime-se de uma conclusão de todos os ângulos viáveis para que você possa garantir que terá uma conclusão verdadeiramente confiante, alimentada por dados!