运行严肃实验程序的要求

已发表: 2023-04-11

运行实验程序是一门艺术,也是一门科学。 我一直这么说。 程序应该具有一定程度的严谨性——即系统、流程和程序。 这不是一件可以掉以轻心的事情。 相信任何人明天都可以在最少的准备和计划下开始一个项目是错误的。 不幸的是,这种情况一直在发生。 这会导致大量金钱、时间和精力的浪费——这并不奇怪。 这让我想到了准备的话题。

如果你想认真对待实验并提高你在市场上的竞争力,你最好把它做好。 你应该假设你的竞争对手做得很好。 因此,如果这引起您的共鸣,请继续阅读,我保证您会立即拿起一两个金块来使用。

建立一个决定你成败的实验程序的不可避免的先决条件:预测试计算

预测试计算。 听说过他们吗? 你做过吗? MDE 或最小可检测效应听起来很熟悉吗? 持续时间估计或样本量如何? 我希望你知道我在说什么,尽管我敢打赌你们中的大多数人都不知道——仅仅因为我个人与客户的经历。

在你做任何与实验相关的事情之前,请看看你是否有足够的数据量来做它。 看看你是否能够通过预测试计算进行测试。 我所说的数据量是指访问者和转化。 访问者可以是您通常使用的任何内容(例如,会话、用户、MAU 等)。 转化来自您将在测试中使用的主要指标。 知道这个:

  1. 并非每个企业都有足够的数据量来以任何容量进行实验。
  2. 如果你能做到,要知道你不是凭空选择你想要的速度。 它基于计算。

忽略其中一个或两个要点的第一大罪魁祸首:销售人员。 如果您正在考虑购买任何类型的工具,请确保这是谈话的一部分。 进入实验程序的最低门槛:足够的数据量可以在八周或更短的时间内在一个泳道中运行一项测试。

几个月前,我为 Experiment Nation 详细介绍了这个主题。 要知道,如果你不理解这个主题并从第一天开始就去做,它会困扰你并且最终肯定会导致某种不良结果。 另一个非常重要的注意事项:了解您的测试工具(或您计划使用的工具)是基于固定水平测试还是顺序测试构建的。 这会影响计算以及您运行程序的方式。

第 1 步(后前体):测量和数据质量

如果您已经清除了预测试计算障碍并且您已经确认您确实有足够的数据量来测试,那么前进的下一个障碍是测量和数据质量。 你必须知道你在这项工作中的目标是什么; 否则,你会像河岸上的鱼一样挣扎。 太多的团队不知道他们在努力什么——比如表单提交、交易、收入、LTV 等。

了解您的主要、次要和第三指标对于实验和整个业务是什么。 完全清楚地理解它。 不要留有挥之不去的困惑或不确定性。 确保每个人都在同一页面上。

然后,一旦你拥有了那么多,确保你在正确的地方收集这些数据并且你可以信任它。

如果测量和/或数据质量是灾难,那就停下来。 停止一切,全力以赴把它做好。 将实验视为金字塔。 这两件事是金字塔的基础层。 如果它在任何时候破裂,其他一切都会在它上面崩溃。 我保证。

我会说我知道这些可能很难。 把它们弄好可能需要额外的时间。 甚至可能超过一两个月。 让他们正确是值得的。 我见过在启动一个程序后六个月或更长时间出现问题——结果一切最终都戛然而止。 那时没有人高兴。

关于什么是主要指标的说明......

有时这在从业者中是一个分裂的话题。 我对此事的立场非常坚定,特别是涉及营销团队和网站(不一定是产品团队和产品)时。

主要指标应始终是向下漏斗指标。 命令。 表单提交。 MQL。 收入。 生命周期价值。 SQL。 你明白了。 有些人说,他们应该始终是最接近您正在做出的改变或参与度指标的行动。 错误的。 不,不。 不正确。 废话。 告诉您这件事的人应该是必须在六个月或一年内向公司的 CMO 或 CEO 证明该计划合理的人。 他们将处于危险之中。 不要有一个充满测试的程序,专注于按钮点击、点击、页面浏览、平均。 会话持续时间、退出率、跳出率、视频观看量等等。 这并不能证明花费数千或数十万美元来完成这项工作是合理的。 每个人都想知道他们的投资回报率以及这项工作如何影响底线。 单击按钮不会那样做。

我并不是说不要衡量参与度指标或更高渠道指标,但它们应该是二级或三级指标。 不是主要的。 他们为测试故事添加上下文。 当需要做出决定时,它们并不是取决于测试的内容。 请注意,我也不是说永远没有例外。 仍然根据具体情况评估测试。

一句忠告:对于那些在你们之间争论这个话题的人,我总是告诉团队讨论选项并自己决定。 只要确保你得出一个集体结论,即每个人都遵守前进的方向。

第 2 步:用户研究和构思

此时,您应该 (1) 知道您有足够的数据量来测试,并且 (2) 知道您在测量什么,并且您正在收集您可以信任的正确数据。 下一个是什么? 它提出要测试的内容。 你的测试想法是什么? 你打算如何生成它们?

猜猜大多数团队会做什么? 他们脱离了直觉和很多“我们认为”、“我们感觉”和“我们相信”。 这太主观了,而且这是运行程序的糟糕方式。 这种方法根本没有数据支持。 这就是从业者所说的“意大利面条测试”,也就是向墙上扔东西,希望它能粘住。 基于数据的对话不涉及太多此类语言,所需的数据来自用户研究。 我总是被问到“研究”是什么意思。

好吧,有几种收集数据的方法,包括但不限于分析、民意调查、调查、用户测试、消息测试、热图、会话记录、卡片分类、树测试、客户旅程映射、角色等等。 还有几个工具可以帮助我们完成每一个。 我总是说从一两个开始,然后从那里开始到其他的。 这当然比没有好。 从技术上讲,我真的不再计算分析了,因为现在每家公司都有分析数据。 如果你没有,你可能有更大的鱼要炸。 如果你确实拥有它,那么甚至可以争取超过一两个(并且不要说“哦,那我们很好”)。

有一种称为启发式评估的方法。 那是有人在视觉上评估体验并根据他们的经验和专业知识发展见解的时候。 它有时间和地点,但大多数时候它没有“硬数据”的支持。 这是非常主观的,并且在某种程度上会有所不同,具体取决于完成它的人。 知道你的程序不应该基于这些类型的洞察力。

我不打算在这里详细介绍如何进行研究,但您可以在此处查看我的 VWO 网络研讨会之一,我在其中详细讨论了 CXL 的 ResearchXL 模型。

第 3 步:确定优先级

一旦有了测试想法列表,就无法一次全部完成。 您需要一种战略性的、合乎逻辑的方式来制定行动计划。 这就是优先级框架发挥作用的地方。 许多存在。 我特别喜欢一个:来自 CXL 的 PXL 框架。 其他常见的包括 PIE、ICE 或 PILL。 PXL 在我看来是最客观的。 它是可定制的并且更健壮(以一种好的方式)。

其他型号还好,聊胜于无。 如果您有什么东西并且对您有用,那就太好了。 只要有一个,并确保每个人都在使用它! 它使您免于处理额外的混乱。

第 4 步:路线图

路线图直观地向您显示在任何给定时间正在运行的内容。 结合您的优先级和预测试计算和繁荣。 你有一个路线图。 这些最好在甘特图中完成。 添加您的所有泳道和测试以及估计的持续时间、设备和其他有用的元数据。 您将避免不需要的重叠和不需要的交互效果。 它可以帮助每个人更有效和高效地进行计划。 这将使您免于更多的混乱。

例子
可用于构建清晰路线图的甘特图示例

第 5 步及以后:照常营业

既然我们所涵盖的所有内容都已解决,一切照常。 您手头有一个要运行的测试。 您通过常规实验工作流程发送它:模型 > 设计 > 开发 > QA > 启动 > 监控 > 结论 > 分析 > 共享和存档 > 重复。

相关主题:项目管理与治理

除了个别测试之外,还有与整个“程序”相关的其他主题需要考虑。 这些包括项目管理和治理。 以下是我如何以一种非常简单的方式思考它们……

项目管理:您打算如何组织和跟踪所有这些工作? 弄清楚您将使用哪些工具来执行任务、数据管理和通信。 (我从 Speero 的首席执行官 Ben Labay 那里得到了这个细分。)

治理:每个人都有哪些角色和责任? 确定这一点的一个有用方法是 (1) 选择治理模型和 (2) 完成与治理模型一致的 RASCI 图表。 需要调查和考虑的通用治理模型:个人、集中式、分散式、卓越中心、测试委员会和混合型。

如果你不把这两个与其他一切都确定下来,那将是额外的混乱,你将在每一步中为此付出代价。 把这些钉下来。 这需要额外的时间,但这是值得的。 如果您暂时解决问题,后果最终会赶上您。 我保证。 (显然,我在这里做出了很多承诺。)

结论

您应该对可以做些什么来开始实验或可以做些什么来升级已经运行的程序感到更有信心一点(或很多)。 不要觉得它太难或太容易。 它通常在中间的某个地方。 我最大的建议适用于我提到的一切:有一个四分卫。 找人领导所有这些工作。 它不一定是他们的全职角色,但应该有人拥有它。 那通常是我看到最成功的时候。

最后,我希望你有一个充满严谨、结果和一点乐趣的实验计划。在一天结束时,这是一项有趣而令人兴奋的工作,可以为企业带来巨大的变化。

如果您想了解更多关于实验如何推动创新和增长以及值得所有炒作的信息,请观看我与 VWO 的最新网络研讨会。