AB测试的实验数据统计展示的主要是实时指标和离线指标,用来观察每个实验的表现情况,评估实验效果。按照统计时间口径的不同,离线数据报表展示和实时数据指标报表展示的优缺点和用途如下表所示。

离线数据与实时数据使用

报表类型时间选择优缺点
离线数据报表可以选择从实验开始到昨天的历史数据情况,以天为时间粒度优点是比较准确,指标全面;缺点是更新周期较长,当天更新前一天数据。一般用于实验效果的数据分析
实时数据报表对应的趋势图为当天各小时或者分钟某指标的变化趋势,对应的表格为当天各个指标各小时或者分钟的累计数据优点是更新快,分钟级更新;缺点是相对不精确,并且只支持一些核心指标的展示。一般用于实验上线初期的实验数据调试
  • 实时数据报表

实时报告只包括趋势图表。在AB实验平台中,实时数据的时间粒度可以选择“分钟”和“小时”两种,小时口径为该小时下对应的各分钟数据之和。

实时数据主要用来做实验上线后的追踪,便于排查一些问题,衡量实验的效果主要依靠离线数据。

  • 离线数据报表

离线数据报表页面包括指标选择控件、维度筛选器、时间控件、图表等,例如展示实验的样本数和日志数,如下图所示。

实验组与对照组离线数据展现

对于离线指标,不仅能够展示指标的“统计值”,还要能够展示该指标的“P-Value值”和“置信范围”,在实际应用中,实现部分核心指标支持“P-Value值”和“置信范围”,其实已经足够使用,对于有些不能用P值来衡量的指标,更不用提供“P值”和“置信区间”的展示,下图所示为实验平台带有“P-Value值”的表格页面。

实验平台中“P-Value值”的展现

“P-Value值”和“置信范围”是数据分析中经常用到的统计学概念,由于篇幅有限,这里只做简单介绍,有兴趣的读者可以查看统计学相关数据进一步了解。P-Value也就是P值,它是推断统计中的一个重要指标,在假设检验有着重要的应用,是用于判断原假设是否正确的依据。P值的计算方式为每个用户作为一个样本,实验组两两之间按天统计,所以在查看P值时,根据需要选择实验组和对照组。根据统计学原理,如果P值小于0.05,则认为两组之间存在显著性差异,实验结果可信。如果P值大于0.05,则表明当前实验结果无显著性差异,可以考虑增大实验样本量,或者更换实验方法后重开实验,以便得出更具说服力的实验结果

A/B 测试是一种对比试验,而试验就是从总体中抽取一些样本进行数据统计,进而得出对总体参数的一个评估。这里提一下统计显著性的概念,在假设检验中,如果样本数据拒绝原假设,那么我们说检验的结果是显著的;反之,则说结果不显著。

置信范围主要用来评估实验效果,用来查看采用实验组策略上线后,指标变化预计的波动范围。在查看实验的置信范围时,需要首先选定实验组和对照组。置信区间的置信水平代表了实验假设的可靠程度,在通常的实验方案中,我们使用 95% 的置信水平进行区间估计。通俗一点地讲,置信区间是一个平均区间范围,该区间有95%的概率包含真实的总体均值。通过AB测试实验,得到了如下表所示的实验数据。

产品支付流程优化实验结果数据

实验分组用户总量支付订单数人均支付订单数变化[95%置信区间]变化显著性
对照组42470929902.19
实验组426741084682.54+16.09%[14.98%, 17.20%]显著

为了对比两种产品设计方案的效果,对增加了X功能的设置为实验组,而没有该功能的设置为对照组,实验经过一段时间,统计实验结果数据如表7-2所示。观察数据,可以发现:

对照组一共有42470个用户,总共支付完成92990个订单,平均每个用户贡献2.19个订单。

实验组一共有42670个用户,公共支付完成108468个订单,平均每个用户贡献2.54个订单。

相比于对照组,实验组提高了16.09%,我们有95%的概率相信,在最差的情况下实验组比对照组好14.98%,在最好的情况下实验组比对照组好17.20%,检验结果为显著,代表实验组比对照组好这个假设是成立的,因此可以上线X功能优化产品生产订单流程。

点赞(2) 打赏

Comment list 共有 0 条评论

暂无评论
立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部