专家评论

零售A/B测试的成功取决于这些设计考虑

遵循一些小的指导方针将会产生更有意义和更值得信赖的结果。

到6月吴

FeBrero 19,2021
分钟阅读

- Email
- LinkedIn
- Twitter
- Facebook

执行摘要

虽然A/B测试的概念很简单，但如果营销人员不仔细考虑几个步骤，计划和执行就会出错。
营销人员应该在设计测试之前彻底审查商业假设，并确保测试的概念显著不同。
其他关键指南包括超越随机化以优化样品选择，并在设计阶段的早期测量结果。
遵循这些指导原则的测试使营销人员对洞察力更有信心，并避免错误的结论。

零售公司的营销人员通常使用A / B测试来优化不同地点或营销渠道的媒体分配，新商店布局或促销，网页设计和其他投资。虽然A/B测试的概念很简单，但如果营销人员不仔细考虑几个步骤，计划和执行就会出错。该评论涵盖了对有效A / B测试至关重要的指导。

在设计测试之前彻底审查业务假设

总是从商业目标开始——公司想要证明或否定什么。

每个目标都应以一套实用的陈述来表述，其中应包含明确的、可衡量的关键绩效指标(kpi)，例如:

在一个给定的地点，花X美元营销品牌A比花同样的钱营销品牌B获得更高的销售额(优越性测试)。
新的定价策略A产生的销售与现有策略B不同(不等式检验)。
店铺布局A与布局B的销售额相等(相等检验)。
网页设计A在备选选项B、C和D(多重配对优势测试)中导致最高的网络流量。

业务目标需要是可度量的，这样在测试开始之前就可以清楚地知道要度量什么。它们还应该是实用的，以便在测试结束后，高管们确切地知道应该采取哪些行动以及如何采取。

与多个KPI相同的业务目标，这取决于所使用的频道，测试的目的和其他变量。例如，在电视广告支出的测试中，公司可能会关心观众和观看时间;对于在线搜索广告或社交媒体，他们通常衡量印象;对于电子邮件广告系列，他们查看开放率，点击率和转换率。常见问题是他们应该收集的证据是为了索赔胜利者。

测试具有真正差异的概念

为了让A/B测试能够产生有意义的业务结果，它们必须创造出具有创新性的，有时甚至是完全不同的内容，从而引发不同的反应。相比之下，测试略有不同的变体可能不会产生有意义的见解。

超越随机化，优化样本选择

测试人员应将可用的样品分配到外观相似的测试组和对照组。大多数营销人员都是随机化的。正如在以前的评论，虽然当样品量非常大(每组至少10,000人)时，随机化就足够了，但当样品量很小时，随机化就不够了，就像针对市场或商店的零售测试(通常少于100人)一样。

幸运的是，贝恩公司已经创建BOB体育app了一种优化算法来满足这一目的。当样本量很小的时候，我们会聪明地将每个受试者分成测试组和对照组，这样所有的组看起来都尽可能的相似。这保证了所有群体在基线上都是一样的，当我们不对他们做任何事或我们平等对待所有群体时。然后，如果我们在测试后观察到控制组和测试组被区别对待的任何提升，我们可以自信地将所有的影响完全归因于我们的处理，而不必担心潜在的抽样偏差。

这种“智能样品分配”事项是因为我们观察到的隆起是小的，通常销量增加1％至3％。一个小的抽样偏见很容易混淆我们的治疗方法，并导致错误的结论。

覆盖所有的营销渠道

传统的测试往往是离线或在线的，很少有同时覆盖两者的。然而，在整个Covid-19大流行期间，消费者行为发生了显著变化，特别是在线销售大幅增长，许多实体店的销售下降。

在这种环境下，营销人员需要设计测试来恰当地衡量新行为的影响，制定策略来优化营销支出和增加整体销售。这带来了新的挑战，如样本代表性和在线与离线之间的反应频率偏差。

因此，样品选择变得更加重要。如果所有群体都是相似的，商店或在线购物的可能性应该是平等的。如果任何群体都有不同的倾向于在线购物，那可以邀请某些广告或营销策略。最好开始简单，小而且运行一系列敏捷的测试，以学习每次新的东西，逐渐建立信心。

在设计阶段的早期度量结果

营销人员经常在活动结束后开始考虑如何衡量结果。在设置测试时，将其作为决策的一部分更有用。由于结果测量的可行性决定了可以进行什么样的测试，以及多大的样本量是负担得起的，所以在设计测试时应该仔细考虑。有缺陷的测试设计不能在以后修复。

在样本大小上花足够的时间

样本的大小和选择远非无足轻重的问题，值得重要的科学机构加以应用。

样本尺寸是什么意思？要回答这个问题，首先定义分析单位 - 市场的数量，商店，客户，点击或其他变量。答案取决于测试目标以及人们想要衡量结果。为了定位目的，市场或商店的数量或两者都可能是重要的;对于结果测量，重要的是测量和比较结果的水平，这可能是客户数量或点击次数。

确定正确的样本量需要确定以下几个因素:

测量单位，取决于测量的KPI类型（连续与二进制）;
正在运行的比较类型(A/B, A/B/n，其中“n”是测试的变量的数量，多变量，等等);
期望的显著性水平(95%或90%的置信);和
所需效果的量（10％或20％隆起）。

所有这些都需要适当的统计“功率分析”。在实践中，您不希望过分强调统计意义，从而可能失去捕捉有意义信号的机会。有时候，与安全、不运行测试或不实现结果相比，错过上行潜力会带来更多的风险。

监督科学的技术专家必须与拥有领域知识的企业所有者密切合作，共同设计样本大小。在可行的基础上，经常需要权衡利弊。例如，后勤需求可能会限制可能的样本量。如果可用的样本不足以满足测试目的，就需要调整和放松标准，例如减少测试变量的数量，要求更大的提升，或者对结果的重要性有更低的信心。

简单地说，团队必须灵活，设计实际的测试，为特定的市场需求提供有意义的见解。

确定测试持续时间

零售测试通常是纵向的，这需要考虑运行测试的时间。在其他条件相同的情况下，测试持续时间和每天或每周的存储或观察数量之间存在权衡。一旦测试人员知道他们需要几天或几周的时间来宣称成功，他们必须抵制过早窥探和窃取过早结果的冲动，这很容易导致错误的结论。只有在达到所需的最小持续时间并看到结果稳定后，他们才应该深入了解。这个规则的例外是“多武装强盗”测试，它包括一个特定的方法，在这个方法中，早期的测试结果直接影响后期的测试执行。

设计测试是一门涉及大量科学的艺术。如果做得好，测试可以带来洞察，自信地开启新的可能性。相比之下，由于各种限制而设计得很差的测试将导致对洞察力的信心降低，甚至得出错误的结论。

作者感谢贝恩的同事BOB体育app保罗•马科维茨和理查德·利希滕斯坦感谢他们对本评论的评论和贡献。

办公室

北美洲

欧洲和非洲

中东

亚洲和澳大利亚

选择您的地区和语言

全球的

北美洲

欧洲、中东和非洲

亚洲和澳大利亚

行业

BOB体育app

向量℠

一套集成的数字交付能力，专业知识和伙伴关系。

的见解

特色主题

职业生涯

热门搜索

你以前的搜索

最近访问过的页面

零售A/B测试的成功取决于这些设计考虑

零售A/B测试的成功取决于这些设计考虑

执行摘要

在设计测试之前彻底审查业务假设

测试具有真正差异的概念

超越随机化，优化样本选择

覆盖所有的营销渠道

在设计阶段的早期度量结果

在样本大小上花足够的时间

确定测试持续时间

标签

想要继续谈话

我们能为您做些什么?

办公室

北美洲

欧洲和非洲

亚洲和澳大利亚

选择您的地区和语言

全球的

北美洲

欧洲、中东和非洲

亚洲和澳大利亚

您的红色文件夹中没有保存的内容。

北美洲

欧洲和非洲

亚洲和澳大利亚

全球的

北美洲

欧洲、中东和非洲

亚洲和澳大利亚

热门搜索

你以前的搜索

最近访问过的页面

执行摘要

在设计测试之前彻底审查业务假设

测试具有真正差异的概念

超越随机化，优化样本选择

覆盖所有的营销渠道

在设计阶段的早期度量结果

在样本大小上花足够的时间

确定测试持续时间

标签

我们是如何帮助客户的

鼓励零售业思考和行为

全球扩张促进了超市的收益和增长

区域性战略有助于全球零售商找到出路

想要继续谈话

我们能为您做些什么?

饼干帮助我们提高您的体验

严格必要的饼干

功能的饼干

分析或性能cookie

针对或广告饼干