بينما نختتم عام 2016 ، لنتحدث عن اختتام اختبارات CRO

نشرت: 2021-10-23

بينما نقترب من إغلاق عام آخر ، وبينما نطرح السؤال "متى يمكن أن ينتهي هذا الاختبار؟" لا يزال يظهر في محادثاتي مرة واحدة على الأقل في الأسبوع ، شعرت كما لو أن الوقت قد حان للجلوس وكتابة عملية استنتاج الاختبار الخاصة بي وجميع المتغيرات التي تؤثر في هذا القرار.

اليوم ، سأقدم لك نصيحتين يجب مراعاتهما عندما تقترب من قرار الاستنتاج وبعد ذلك سوف أتناول المتغيرات الأربعة التي أراها عند الاقتراب من هذا القرار. انفخ الغبار عن كتاب الإحصاء المدرسي الذي دفنته منذ فترة طويلة ودعنا نبدأ.

نصيحة تمهيدية رقم 1: تأكد من أن بياناتك دقيقة وقوية

قبل إعداد اختبارك ، يجب أن تعرف بالفعل أهدافك. لاحظ كيف قلت "الأهداف" هناك. نعم ، نعلم جميعًا أنه يجب أن يكون لديك تحويل مركزي ؛ الشيء الوحيد المهم الذي تدفع المستخدمين نحوه. ولكن هناك العديد من التفاعلات الأخرى مع أي موقع يمكننا تتبعها من أجل ملاحظة ما إذا كان تغييرنا قد أثر على تلك التفاعلات أم لا. انظر إلى الصورة أدناه للحصول على بعض الأمثلة.

أمثلة الهدف

قبل تحليل أي بيانات اختبار ، تحقق جيدًا من أن جميع بياناتك في ساحة لعب متساوية. تأكد من أنك قمت بسحب البيانات لكل هدف لنفس النطاق الزمني المحدد بحيث يمكنك مقارنة نقاط البيانات بشكل مناسب دون تحريف سلسلة واحدة من البيانات. أثناء تواجدك هنا ، تأكد أيضًا من أن جميع بيانات أهدافك تبدو "طبيعية" وأنك لا تشك في أي أهداف غير محققة أو أهداف ميتة لم تشهد أي إجراء من قبل.

نصيحة تمهيدية رقم 2: لا تختتم أبدًا بشأن متغير واحد

لا يمكن أن يعتمد اتخاذ قرار الاستنتاج على أي متغير واحد. ضع كلًا من هذه المتغيرات الأربعة في الاعتبار ، وإذا كانت غالبية المتغيرات تكمل بعضها البعض ، فيمكنك الاستنتاج بثقة.

إذا كانت جميع المتغيرات تتعارض مع بعضها البعض ، فقد تبحث في العديد من السيناريوهات المتنوعة. لكن في هذه المرحلة الزمنية ، إذا استنتجت ، قد تكون تتخذ قرارًا غير منطقي مع عواقب باهظة الثمن.

يتأثر كل من هذه المتغيرات أو يؤثر على واحد على الأقل من المتغيرات الأخرى. وبالتالي ، تدعم البيانات التكميلية نفسها بينما تجبرك البيانات المتناقضة على ربط النقاط بشبكات الأكاذيب. لا تفعل ذلك!

المتغير رقم 1: حجم العينة

حجم العينة مهم للناس. يمكّننا حجم العينة من التعميم بثقة للسلوك بناءً على عدد السكان (إجمالي المستخدمين) وهامش الخطأ المقبول لدينا (دلالة إحصائية 100 هدف).

يتعلق الأمر حقًا بالنسب ، ولكن إذا كنت تبحث باستمرار عن نفس الموقع مع تذبذب ضئيل للغاية في حركة المرور ، فيمكنك تحديد هدف أساسي للعمل من خلاله.

مائة مستخدم لكل جزء من الاختبار هو الحد الأدنى من الصالحين. حتى في المواقع ذات حركة المرور المنخفضة ، من الصعب جدًا تعميم السلوكيات بناءً على بيانات عدد قليل من المستخدمين. وبالتالي ، كلما كان ذلك أكثر كان أفضل. يساعد حجم العينة الأعلى أيضًا على إبطال أي انحرافات يمكن أن نراها من القيم المتطرفة.

ومع ذلك ، في موقع تجارة إلكترونية كبير إلى حد ما يجلب ما لا يقل عن 1000 مستخدم يوميًا ، لا توجد طريقة أفكر في 100 وحجم عينة مناسب من المستخدمين. الأمر كله يتعلق بالنسب وما هو حجم المستخدم المعتاد لموقعك على أساس منتظم.

يتضمن هذا المتغير التحويلات وكذلك المستخدمين للأهداف التي ستأخذها في الاعتبار. حتى إذا كان لديك موقع منخفض التحويل ، إذا قارنت 0 تحويل بتحويلين ، فمن المؤكد أن التباين مع تحويلين سيفوزان فقط لأنه كان الشكل الوحيد الذي تم تحويله تقنيًا.

تأكد من تحويلاتك على الأقل من رقمين ؛ وإذا كان هذا هو الحد الأدنى (رقمين) ، فتأكد من أن لديك إجراء مدح قوي في المتغيرات الثلاثة الأخرى.

أو ، إذا لم تكن لديك خبرة كبيرة في حجم العينة في إعداد إحصائي ، فيمكنك استخدام حاسبة حجم العينة سهلة الاستخدام لتحديد حجم العينة المناسب لك.

المتغير رقم 2: مدة الاختبار

من الناحية المثالية ، أقوم بإجراء الاختبارات في أي مكان من 2-6 أسابيع.

أسبوعان هو الحد الأدنى الثابت لأنك تلغي احتمال حصول أي متغير على أسبوع "جيد" أو "سيئ" وإما أن يسحب حركة مرور سعيدة أو يقود حركة مرور منخفضة الدوافع. ستة أسابيع هي أقصى حد جميل لأنها شبكة زمنية واسعة بما يكفي لالتقاط أي تقلبات قد تراها.

ومع ذلك ، لاحظ أن إجراء الاختبار إلى الأبد وإلى الأبد يمكن أن يكون ضارًا أيضًا لاختبارك. عامل كبير في نتائج الاختبار هو استجابة المستخدم للمنبهات الجديدة. وبالتالي ، عندما نطلق اختبارًا لأول مرة ، فإننا نميل إلى رؤية قفزات هائلة خارج البوابة حيث يخسر أحد الأشكال بشكل كبير بينما السواحل الأخرى في سلسلة انتصاراتها. بمرور الوقت ، تميل هذه الفجوة الضخمة بين الاختلافات إلى التطبيع والإغلاق لأن "الجديد" قد تلاشى ولم يتأثر المستخدمون العائدون بالتغيير الجديد كما كانوا من قبل. وبالتالي ، فكلما طالت مدة تشغيل الاختبار ، قل التغيير الجديد وأقل تأثيره على سلوكيات هؤلاء المستخدمين العائدين.

أول ارتفاع في النتائج

المتغير رقم 3: الدلالة الإحصائية

على الرغم من أهمية الأهمية الإحصائية في إعلان "الثقة" في استنتاجك ، إلا أنها قد تكون مضللة للغاية.

تحدد الأهمية الإحصائية ما إذا كان التغيير في معدلين ناتجًا عن تباين طبيعي أو بسبب عامل خارجي. وهكذا ، من الناحية النظرية ، عندما نصل إلى أهمية إحصائية قوية ، فإننا نعلم أن تغييرنا كان له تأثير على المستخدمين.

من الناحية المثالية ، تريد أن تهدف إلى الحصول على دلالة إحصائية قريبة من 100٪ قدر الإمكان. كلما اقتربت من 100٪ ، كلما قل هامش الخطأ لديك. هذا يعني أنه يمكن إعادة إنتاج نتائجك على أساس أكثر اتساقًا. كلما زادت الأهمية الإحصائية ، زادت فرصك في الحفاظ على معدل التحويل هذا إذا قمت بتنفيذ الصيغة الفائزة. 95٪ هو هدف جيد يجب أن نهدف إليه. 90٪ مكان جيد للاستقرار. أي أقل من 90٪ وأنت معرض للمخاطرة مع قدرتك على الاستنتاج "بثقة".

التهديد هنا هو أن حجم العينة مهم حقًا. يمكن أن تصل إلى دلالة إحصائية بنسبة 98٪ في غضون أيام قليلة ، وأن تنظر حرفيًا فقط إلى إجمالي 16 مستخدمًا وهو حجم عينة غير جدير بالثقة.

يمكن للأهمية الإحصائية أيضًا أن توضح هذا الارتفاع الهائل في الأداء الذي أشرت إليه سابقًا عند إطلاق الاختبار لأول مرة. تتمتع الاختبارات بكل قدرة على التقليب ونعلم أيضًا أنه بمرور الوقت يتم تطبيع البيانات. وبالتالي ، فإن قياس الأهمية الإحصائية في وقت مبكر جدًا قد يعطينا صورة غير صحيحة تمامًا عن كيفية تأثير هذا التغيير على الأرجح على مستخدمينا على أساس طويل المدى.

علاوة على ذلك ، لن يكتسب كل اختبار دلالة إحصائية. قد لا تؤثر بعض التعديلات التي تجريها على سلوك المستخدم بدرجة كافية بحيث يُنظر إليها على أنها أكثر من تباين عادي. وهذا جيد! هذا يعني ببساطة أنك بحاجة إلى اختبار تعديلات أكبر لجذب انتباه المستخدم أكثر قليلاً.

المتغير رقم 4: تناسق البيانات

هذا واحد يذهب لجميع تلك الاختبارات التقليب هناك. هناك بعض الاختبارات التي ترفض التطبيع وترفض تقديم فائز واضح لك. سوف يقضون كل يوم في تقديم شكل مختلف لك على أنه الفائز وسوف يقودونك إلى الجنون تمامًا.

التقليب مقابل الاتساق

لكنها موجودة وهي بالضبط سبب أهمية البحث عن اتجاه بيانات متسق. هل كان الاختلاف الذي تعلن عنه فائزًا دائمًا هو الفائز؟ إذا لم يكن الأمر كذلك ، فلماذا لم يكن الفائز دائمًا؟ إذا كنت لا تستطيع بثقة الإجابة على السؤال "لماذا؟" عندئذٍ قد يؤدي تنفيذ الفائز إلى إلحاق الضرر بالنتيجة النهائية إذا قمت بتنفيذ التباين الذي يتم عرضه كفائز.

أقوم أيضًا بقياس الفرق بين معدل تحويل المجموعة الضابطة ومعدل تحويل الشكل (المعروف أيضًا باسم "الارتفاع" أو "الانخفاض"). أبحث عن هذا المقياس ليكون متسقًا أيضًا حتى أتمكن من التأكد من خروج الاختبار من مرحلة الارتفاع الأولية.

من المفيد أيضًا حساب الأهمية الإحصائية بشكل دوري لمعرفة مدى اتساق عرض هذا المقياس أيضًا.

افكار اخيرة

استنتاج أي نوع من الاختبار ليس مزحة ومليء بالضغط. إذا قمت بإجراء مكالمة خاطئة ونفذت شيئًا "شعرت" أنه الفائز بينما كانت البيانات توضح خلاف ذلك ، فإن النتيجة النهائية والمستخدمين سيعانون.

اقترب من خاتمة من كل زاوية قابلة للتطبيق حتى تتمكن من ضمان حصولك على نتيجة واثقة حقًا تغذيها البيانات!