测试中我们都会犯的十个常见错误
作者:Romain AYRES
本文由AI公园授权转载,转载请联系出处
编译:ronghuaiyang
导读
这篇博客文章的目的 不是告诉你在运行A/B测试时应该做什么,而是告诉你不应该做什么。
“没有数据,你只是一个有观点的人。”
这个著名的_W. Edwards Deming_引用说明了 A/B测试对于做出好的商业决策至关重要。在ManoMano,我们向数百万用户展示数以百万计的DIY和园艺产品,并每天运行几十个A/B测试,以改善我们网站上的客户体验。
产品排名算法A/B测试示例,garden sheds页面
运行A/B测试和解释结果可能非常困难,如果方法错误,可能会导致错误的结论。这篇博客文章的目的 不是告诉你在运行A/B测试时应该做什么,而是告诉你不应该做什么。下面是在A/B测试结果时都会犯的10个常见错误。
1 — 当只有一个局部受到影响时,观察的是整个分布
例如:你想要测试搜索引擎的相关性,但是在分析A/B测试结果时,你查看了整个人群,而不是只使用搜索引擎的客户。虽然这在科学上没有错,但达到统计显著性需要更长的时间,因为你在分析数据中添加了一些噪声:
要点1:为了更快地达到统计显著性,只观察与测试功能交互过的用户的结果(这里是搜索引擎)。
2 — 在没有任何业务直觉的情况下跑测试
这个错误的一种情况时跑具有太多变量(A/B/C/…/n)的测试。这是一个关于_多重比较问题_的例子。因此,商业直觉对于决定进行哪种AB测试至关重要。
要点2:使用你的直觉(或者更好地做用户研究)来决定启动哪个A/B测试。
3 — 对分布进行分割以达到统计学显著性
这是_多重比较问题的另一个例子:__“我的A/B测试不重要,所以我将在设备上按国家分割数据,以获得显著性结果_”。在做测试后的分割时,你必须非常小心。的确,你比较的segments越多,得到假阳性结果的可能性就越大。
对于在设备上按国家分割示例,我们在ManoMano有n=15个细分市场(5个国家×3个设备:法国/移动、法国/台式机、西班牙/平板电脑等)。让我们计算一下在这些分割中至少有一个显著结果的概率:
我们有超过50%的机会在我们的细分人群中得到至少一个显著的结果,完全是由于偶然。因此,从测试后的分割中得出结论并采取行动是非常危险的。尽管存在一些技术来缓解这个问题,比如Bonferroni correction。
要点3:不要为了达到统计意义而分割你的人群。
4 — 查看好几个指标以达到统计上显著性
关于多重比较问题的另一个例子是:“*我的A/B测试没有显示在转化率、平均购物篮和弹跳率上有显著的结果。但这对每个篮子里的产品数量来说意义重大!” 如果你查看足够多的度量标准,你最终会发现一个显示为显著的度量标准,但这是由于偶然:
A/B测试结果显示
要点4: 坚持以测试目的为标注的度量方式。
5 — 达到统计学显著性时停止测试
统计显著性不能告诉你什么时候应该停止测试。 在停止测试前,你需要等待计算出的样本量达到。你还可以模拟一个A/A测试,以查看在测试早期达到统计显著性的频率是相当高的,即使测试最后并没有达到显著性:
根据样本数量,观察A/A测试实验的显著性
要点5: 即使你的测试在具有统计显著性,也要保持测试的有效性,直到测试完成为止。
6 — 在达到统计显著性之前,保持测试有效
再次强调,统计显著性不能告诉你何时可以停止测试或继续测试。 你不应该等待一个测试具有显著性,因为它可能永远不会发生,特别是如果你已经达到所需的样本量,这意味着你的测试有了一个足够的统计能力的结论。
要点6: 一旦达到所需的样本量,就停止测试。
7 — 把(1 - p值)当成B优于A的概率
这是一个很常见的错误。P-value为2%并不意味着B有98%的几率比a好,这一假设在数学上是错误的,因为它还依赖于基本比率,这是测试执行上有积极的效果的比例(只有上帝知道这个数!)。这个数字反映了你的商业直觉水平。
假设我们是上帝,我们知道ManoMano的基本比率是20%,这意味着 20% 的测试结果是positive的:
80% 阳性检验(灰色),拒绝原假设(统计幂):
5% 阴性检验(白色),拒绝原假设(显著性阈值):
结论:给定80%的统计能力、5%的显著性阈值和20%的基准率, 当一个测试被认为是阳性时(p值< 0.05),我们只有16 /(16+4)= 80%的机会它实际上是阳性的,而不是95%。
在这种配置中(统计能力=80%,显著性阈值=5%),并且知道你的A/B测试结果是显著的,下面是你的测试实际上是阳性的一些概率,具体取决于基本比率:
要点7:(1 - p-value)不是测试结果为positive的概率。
8 — 认为观测到的增量是特征带来的增量
测试中观察到的增量允许你计算统计显著性, 但是将观察到的增量视为特征带来的实际增量是错误的,因为这通常需要更多的用户或会话。
如果仅仅说明B比A好是不够的,需要选择使用置信区间而不是原始增量。为了说明这一点,我们举一个A/B测试的例子:
p值为0.014,在显著性水平为95%的情况下,A/B检验为阳性,说明变异组显著优于对照组。观测到的转化率相对增量很容易计算:
但是,将这个观察到的增量看作特征带来的实际增量是不正确的。你应该使用标准误差计算每组的置信区间:
p是观察到的是这个组的转化率,n采样池样本量,Zα相对应的z值置信水平α(在我们的例子中95%)。
利用该公式,最终可以计算出两组95%置信区间(CI)的转化率:
也可以计算相对增量(PctDiff)的置信区间,但它更复杂。
要点8:当你的测试结果显著性为阳性时,请使用置信区间,而不是原始增量。
9 — 当A/B测试结果与你的直觉相反时,忽略它
如果你还没有准备好使用获胜的版本更新你的产品,那么启动A/B测试是没有意义的,而只是提供你的确认偏差。在选择测试内容时,直觉是至关重要的,但它不应该与A/B测试的无偏结果相抵触。
要点9: 在测试前与涉众确定阈值和相关操作。
10 — 忘记检查你的A/B测试系统是否可靠
为了保证你的A/B测试结果的可靠性,你的A/B测试系统必须经过校准并正常工作。确保这种可靠性的一种方法是持续进行A/A测试,并检�
- 原文作者:知识铺
- 原文链接:https://geek.zshipu.com/post/%E4%BA%92%E8%81%94%E7%BD%91/%E6%B5%8B%E8%AF%95%E4%B8%AD%E6%88%91%E4%BB%AC%E9%83%BD%E4%BC%9A%E7%8A%AF%E7%9A%84%E5%8D%81%E4%B8%AA%E5%B8%B8%E8%A7%81%E9%94%99%E8%AF%AF/
- 版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议进行许可,非商业转载请注明出处(作者,原文链接),商业转载请联系作者获得授权。
- 免责声明:本页面内容均来源于站内编辑发布,部分信息来源互联网,并不意味着本站赞同其观点或者证实其内容的真实性,如涉及版权等问题,请立即联系客服进行更改或删除,保证您的合法权益。转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。也可以邮件至 sblig@126.com