我们有有限的西班牙语的内容。查看西班牙内容

文章

零售A/B测试的成功取决于这些设计考虑
">
EN.
执行摘要
  • 虽然A/B测试的概念很简单,但如果营销人员不仔细考虑几个步骤,计划和执行就会出错。
  • 营销人员应该在设计测试之前彻底审查商业假设,并确保测试的概念显著不同。
  • 其他关键指南包括超越随机化以优化样品选择,并在设计阶段的早期测量结果。
  • 遵循这些指导原则的测试使营销人员对洞察力更有信心,并避免错误的结论。

零售公司的营销人员通常使用A / B测试来优化不同地点或营销渠道的媒体分配,新商店布局或促销,网页设计和其他投资。虽然A/B测试的概念很简单,但如果营销人员不仔细考虑几个步骤,计划和执行就会出错。该评论涵盖了对有效A / B测试至关重要的指导。

在设计测试之前彻底审查业务假设

总是从商业目标开始——公司想要证明或否定什么。

每个目标都应以一套实用的陈述来表述,其中应包含明确的、可衡量的关键绩效指标(kpi),例如:

  • 在一个给定的地点,花X美元营销品牌A比花同样的钱营销品牌B获得更高的销售额(优越性测试)。
  • 新的定价策略A产生的销售与现有策略B不同(不等式检验)。
  • 店铺布局A与布局B的销售额相等(相等检验)。
  • 网页设计A在备选选项B、C和D(多重配对优势测试)中导致最高的网络流量。

业务目标需要是可度量的,这样在测试开始之前就可以清楚地知道要度量什么。它们还应该是实用的,以便在测试结束后,高管们确切地知道应该采取哪些行动以及如何采取。

与多个KPI相同的业务目标,这取决于所使用的频道,测试的目的和其他变量。例如,在电视广告支出的测试中,公司可能会关心观众和观看时间;对于在线搜索广告或社交媒体,他们通常衡量印象;对于电子邮件广告系列,他们查看开放率,点击率和转换率。常见问题是他们应该收集的证据是为了索赔胜利者。

测试具有真正差异的概念

为了让A/B测试能够产生有意义的业务结果,它们必须创造出具有创新性的,有时甚至是完全不同的内容,从而引发不同的反应。相比之下,测试略有不同的变体可能不会产生有意义的见解。

超越随机化,优化样本选择

测试人员应将可用的样品分配到外观相似的测试组和对照组。大多数营销人员都是随机化的。正如在以前的评论,虽然当样品量非常大(每组至少10,000人)时,随机化就足够了,但当样品量很小时,随机化就不够了,就像针对市场或商店的零售测试(通常少于100人)一样。

幸运的是,贝恩公司已经创建BOB体育app了一种优化算法来满足这一目的。当样本量很小的时候,我们会聪明地将每个受试者分成测试组和对照组,这样所有的组看起来都尽可能的相似。这保证了所有群体在基线上都是一样的,当我们不对他们做任何事或我们平等对待所有群体时。然后,如果我们在测试后观察到控制组和测试组被区别对待的任何提升,我们可以自信地将所有的影响完全归因于我们的处理,而不必担心潜在的抽样偏差。

这种“智能样品分配”事项是因为我们观察到的隆起是小的,通常销量增加1%至3%。一个小的抽样偏见很容易混淆我们的治疗方法,并导致错误的结论。

覆盖所有的营销渠道

传统的测试往往是离线或在线的,很少有同时覆盖两者的。然而,在整个Covid-19大流行期间,消费者行为发生了显著变化,特别是在线销售大幅增长,许多实体店的销售下降。

在这种环境下,营销人员需要设计测试来恰当地衡量新行为的影响,制定策略来优化营销支出和增加整体销售。这带来了新的挑战,如样本代表性和在线与离线之间的反应频率偏差。

因此,样品选择变得更加重要。如果所有群体都是相似的,商店或在线购物的可能性应该是平等的。如果任何群体都有不同的倾向于在线购物,那可以邀请某些广告或营销策略。最好开始简单,小而且运行一系列敏捷的测试,以学习每次新的东西,逐渐建立信心。

在设计阶段的早期度量结果

营销人员经常在活动结束后开始考虑如何衡量结果。在设置测试时,将其作为决策的一部分更有用。由于结果测量的可行性决定了可以进行什么样的测试,以及多大的样本量是负担得起的,所以在设计测试时应该仔细考虑。有缺陷的测试设计不能在以后修复。

在样本大小上花足够的时间

样本的大小和选择远非无足轻重的问题,值得重要的科学机构加以应用。

样本尺寸是什么意思?要回答这个问题,首先定义分析单位 - 市场的数量,商店,客户,点击或其他变量。答案取决于测试目标以及人们想要衡量结果。为了定位目的,市场或商店的数量或两者都可能是重要的;对于结果测量,重要的是测量和比较结果的水平,这可能是客户数量或点击次数。

确定正确的样本量需要确定以下几个因素:

  • 测量单位,取决于测量的KPI类型(连续与二进制);
  • 正在运行的比较类型(A/B, A/B/n,其中“n”是测试的变量的数量,多变量,等等);
  • 期望的显著性水平(95%或90%的置信);和
  • 所需效果的量(10%或20%隆起)。

所有这些都需要适当的统计“功率分析”。在实践中,您不希望过分强调统计意义,从而可能失去捕捉有意义信号的机会。有时候,与安全、不运行测试或不实现结果相比,错过上行潜力会带来更多的风险。

监督科学的技术专家必须与拥有领域知识的企业所有者密切合作,共同设计样本大小。在可行的基础上,经常需要权衡利弊。例如,后勤需求可能会限制可能的样本量。如果可用的样本不足以满足测试目的,就需要调整和放松标准,例如减少测试变量的数量,要求更大的提升,或者对结果的重要性有更低的信心。

简单地说,团队必须灵活,设计实际的测试,为特定的市场需求提供有意义的见解。

确定测试持续时间

零售测试通常是纵向的,这需要考虑运行测试的时间。在其他条件相同的情况下,测试持续时间和每天或每周的存储或观察数量之间存在权衡。一旦测试人员知道他们需要几天或几周的时间来宣称成功,他们必须抵制过早窥探和窃取过早结果的冲动,这很容易导致错误的结论。只有在达到所需的最小持续时间并看到结果稳定后,他们才应该深入了解。这个规则的例外是“多武装强盗”测试,它包括一个特定的方法,在这个方法中,早期的测试结果直接影响后期的测试执行。

设计测试是一门涉及大量科学的艺术。如果做得好,测试可以带来洞察,自信地开启新的可能性。相比之下,由于各种限制而设计得很差的测试将导致对洞察力的信心降低,甚至得出错误的结论。

作者感谢贝恩的同事BOB体育app保罗•马科维茨理查德·利希滕斯坦感谢他们对本评论的评论和贡献。

标签

想要继续谈话

我们帮助全球领导者解决他们组织中最关键的问题和机会。我们一起创造持久的变化和成果