2016년을 마무리하는 동안 CRO 테스트 완료에 대해 이야기해 보겠습니다.

게시 됨: 2021-10-23

우리가 또 한 해를 마감하려고 하는 동안 "이 테스트는 언제 끝낼 수 있습니까?" 적어도 일주일에 한 번은 내 대화에 여전히 등장하지만, 앉아서 테스트 결론 프로세스와 이 결정에 영향을 미치는 모든 변수를 적어야 할 때인 것 같았습니다.

오늘은 결론의 결정에 접근할 때 염두에 두어야 할 두 가지 팁으로 워밍업을 하고 이 결정에 접근할 때 살펴보는 네 가지 변수에 대해 설명하겠습니다. 오래 전에 묻힌 통계 교과서의 먼지를 털어내고 시작합시다.

서문 팁 #1: 데이터가 예쁘고 견고한지 확인

테스트를 설정하기 전에 목표가 무엇인지 이미 알고 있어야 합니다. 내가 "목표"라고 말한 것을 주목하십시오. 예, 우리 모두는 중앙 집중식 전환이 필요하다는 것을 알고 있습니다. 사용자를 이끄는 한 가지 중요한 것입니다. 그러나 우리의 변경이 이러한 상호 작용에도 영향을 미쳤는지 여부를 관찰하기 위해 추적할 수 있는 사이트와의 다른 많은 상호 작용이 있습니다. 몇 가지 예는 아래 이미지를 참조하십시오.

목표 사례

테스트 데이터를 분석하기 전에 데이터가 모두 동일한 경기장에 있는지 다시 확인하십시오. 데이터 문자열 하나를 왜곡하지 않고 데이터 요소를 적절하게 비교할 수 있도록 동일한 정확한 날짜 범위에 대해 각 목표에 대한 데이터를 가져왔는지 확인합니다. 여기에 있는 동안 모든 목표 데이터가 "정상"으로 보이는지 확인하고 실책이나 행동을 본 적이 없는 죽은 목표가 의심되지 않는지 확인하십시오.

서문 팁 #2: 단일 변수로 결론을 내리지 마십시오

결론 결정을 내리는 것은 하나의 변수에 의존할 수 없습니다. 이 네 가지 변수를 각각 고려하고 대부분의 변수가 서로를 보완한다면 자신 있게 결론을 내릴 수 있습니다.

모든 변수가 서로 모순되는 경우 다양한 시나리오를 볼 수 있습니다. 그러나 그 시점에서 결론을 내리면 비용이 많이 드는 비논리적인 결정을 내릴 수 있습니다.

이러한 각 변수는 다른 변수 중 적어도 하나의 영향을 받거나 영향을 받습니다. 따라서 상보적인 데이터는 스스로를 뒷받침하는 반면 모순된 데이터는 점을 거짓의 그물과 연결해야 합니다. 하지마!

변수 #1: 표본 크기

샘플 크기가 중요합니다. 표본 크기를 사용하면 모집단(총 사용자)과 허용 가능한 오차 한계(100개 목표 통계적 유의성)를 기반으로 행동을 자신 있게 일반화할 수 있습니다.

비율이 중요하지만 트래픽 변동이 거의 없는 동일한 사이트를 지속적으로 보고 있다면 수익 목표를 설정할 수 있습니다.

테스트의 각 세그먼트에 대한 100명의 사용자는 정당한 최소한의 것입니다. 트래픽이 적은 사이트에서도 소수의 사용자 데이터를 기반으로 행동을 일반화하는 것은 매우 어렵습니다. 그래서 더 즐겁습니다. 샘플 크기가 클수록 이상값에서 볼 수 있는 왜곡을 무효화하는 데도 도움이 됩니다.

그러나 하루에 최소 1,000명의 사용자가 유입되는 다소 큰 전자상거래 사이트에서는 100명과 적절한 샘플 크기의 사용자를 고려할 방법이 없습니다. 비율과 정기적으로 사이트의 일반적인 사용자 볼륨에 관한 것입니다.

이 변수에는 고려할 목표에 대한 사용자뿐만 아니라 전환도 포함됩니다. 전환율이 낮은 사이트가 있더라도 0개의 전환을 2개의 전환과 비교하면 2개의 전환이 있는 변형이 기술적으로 전환하는 유일한 변형이었기 때문에 순전히 가장 확실하게 승리합니다.

전환이 최소한 두 자릿수인지 확인하십시오. 그리고 그것이 당신의 최소한의 것(두 자리 숫자)이라면, 다른 세 가지 변수에 강력한 칭찬 행동이 있는지 확인하십시오.

또는 통계 설정에서 샘플 크기에 대한 경험이 많지 않은 경우 이 편리한 샘플 크기 계산기를 사용하여 적절한 샘플 크기를 결정할 수 있습니다.

변수 #2: 테스트 기간

이상적으로는 2-6주 동안 테스트를 실행합니다.

변수가 "좋음" 또는 "나쁨"을 가질 가능성을 무효화하고 행복한 트래픽을 끌어들이거나 동기가 낮은 트래픽을 몰아내기 때문에 2주는 확실한 최소값입니다. 6주는 당신이 볼 수 있는 모든 변동을 포착할 수 있을 만큼 충분히 넓은 시간적 네트워크이기 때문에 멋진 최대 시간입니다.

그러나 테스트를 영원히 계속 실행하는 것도 테스트에 해로울 수 있습니다. 테스트 결과의 큰 요인은 새로운 자극에 대한 사용자의 반응입니다. 따라서 테스트를 처음 시작할 때 한 변형은 극적으로 지고 있는 반면 다른 변형은 연속 승리를 거두는 게이트에서 큰 도약을 보는 경향이 있습니다. 시간이 지남에 따라 변형 간의 이 거대한 간격은 정상화되고 닫히는 경향이 있습니다. 왜냐하면 "새로운 것"이 닳았고 재방문 사용자가 이전처럼 새로운 변경의 영향을 받지 않기 때문입니다. 따라서 테스트가 더 오래 실행될수록 변경이 덜 새롭고 복귀 사용자의 행동에 덜 영향을 미칩니다.

초기 스파이크 인 결과

변수 #3: 통계적 의미

통계적 유의성은 결론에서 "자신감"을 선언하는 데 중요하지만, 이는 또한 매우 오해의 소지가 있습니다.

통계적 유의성은 두 비율의 변화가 정규 분산으로 인한 것인지 아니면 외부 요인으로 인한 것인지를 결정합니다. 따라서 이론적으로 강력한 통계적 유의성에 도달하면 변경 사항이 사용자에게 영향을 미쳤음을 알 수 있습니다.

이상적으로는 가능한 한 100%에 가까운 통계적 유의성을 목표로 합니다. 100%에 가까울수록 오차 범위가 작아집니다. 이는 결과를 보다 일관되게 재현할 수 있음을 의미합니다. 통계적 유의성이 높을수록 가장 좋은 대안을 구현할 경우 전환율 상승도를 유지할 가능성이 높아집니다. 95%는 목표로 삼기에 좋은 높은 목표입니다. 90%는 정착하기 좋은 곳입니다. 90% 미만이면 실제로 "자신 있게" 결론을 내릴 수 있어 위험해집니다.

여기서 위협은 표본 크기가 정말 중요하다는 것입니다. 며칠 만에 98%의 통계적 유의성에 도달할 수 있으며 말 그대로 총 16명의 사용자만 볼 수 있으며 이는 분명히 신뢰할 수 있는 표본 크기가 아닙니다.

통계적 중요성은 테스트가 처음 시작될 때 앞서 언급한 성능의 엄청난 스파이크를 포착할 수도 있습니다. 테스트에는 플립 플롭의 모든 기능이 있으며 시간이 지남에 따라 데이터가 정규화된다는 것도 알고 있습니다. 따라서 통계적 유의성을 너무 일찍 측정하면 해당 변경이 장기적으로 사용자에게 어떤 영향을 미칠 것인지에 대한 완전히 잘못된 그림을 얻을 수 있습니다.

또한 모든 테스트가 통계적 유의성을 얻는 것은 아닙니다. 일부 변경 사항은 정상적인 편차 이상으로 보일 정도로 사용자 행동에 강력하게 영향을 미치지 않을 수 있습니다. 그리고 괜찮습니다! 이는 단순히 사용자의 관심을 조금 더 끌기 위해 더 큰 변경 사항을 테스트해야 함을 의미합니다.

변수 #4: 데이터 일관성

이것은 모든 플립 플롭 테스트에 적용됩니다. 정규화를 거부하고 확실한 승자를 제시하는 것을 거부하는 몇 가지 테스트가 있습니다. 그들은 매일 당신에게 다른 변형을 승자로 제시하며 당신을 완전히 미치게 만들 것입니다.

뒤집기 대 일관성

그러나 그것들은 존재하며 일관된 데이터 방향성을 찾는 것이 매우 중요한 이유입니다. 승자로 선언한 변형이 항상 승자였습니까? 그렇지 않다면 왜 항상 승자가 아니었을까? “왜?”라고 자신 있게 대답할 수 없다면 그런 다음 승자로 행진하는 변형을 구현하면 승자를 구현하면 수익이 손상될 수 있습니다.

또한 컨트롤의 전환율과 유사 콘텐츠의 전환율(일명 '상승' 또는 '하락') 간의 차이도 측정합니다. 테스트가 초기 스파이크 단계에서 벗어났는지 확인할 수 있도록 이 메트릭도 일관성이 있어야 합니다.

통계적 유의성을 주기적으로 계산하여 이 메트릭이 얼마나 일관성 있게 표시되는지 확인하는 것도 유용합니다.

마지막 생각들

모든 유형의 테스트를 마치는 것은 농담이 아니며 압박감으로 가득 차 있습니다. 잘못된 호출을 하고 데이터가 달리 설명하는 동안 "느껴진" 무언가를 구현하면 수익과 사용자가 고통을 겪을 것입니다.

데이터를 기반으로 진정으로 확신에 찬 결론을 내릴 수 있도록 모든 가능한 각도에서 결론에 접근하십시오!