作者介绍

@张锦波

字节跳动解决方案总监





上期说到的是“管用”的功能,接下去还要有 “有趣”的灵魂。AB测试持续地帮助我们运营的小伙伴去探索一些新的玩法。比如,上图中展示的是头条Lite的一项策略实验,我们激励用户提升阅读时长的方式是每读完一篇文章就可以获得一定数量的金币,但是这样就对阅读习惯是只看摘要或者快速浏览开头的用户就不是非常友好。所以我们产品的同事设计了基于阅读时长的激励措施的实验策略,从“阅读完”变成了“阅读时长”来综合评估用户的粘性和收益,并对比这两类指标间的对冲效果。


这项实验中,对照组是:用户读完了内容后返金币。实验组(分为一、二、三组)分别是根据阅读时长的不同,返回不同的数值,并区分低中高的数值。实验开始一个月之后,我们分析了一次结果。


实验组一的新用户,他的粘性提升的比较少,但是因为他阅读时间比较短,得到的钱虽然比较少(这是真金实银的钱),广告收益和金币返利对冲之下,成为了收益最好的实验组。实验组二的表现是比较均衡的,它的粘性和收益都有上升。而实验组三,因为它返利特别多,所以新用户对于留存刺激是比较好的,它的阅读时长和 21 天的留存率都表现得非常出色,粘性提升的也比较明显,但是因为它返利太多了,所以我们的收益为负。综合考虑之后,我们最终上线了代表中数值的实验组二。



讲完“有趣的灵魂”,在这个看脸的时代,我们再看看在“好看的皮囊”上我们有哪些探索?今日头条做了一个非常深度的用户画像群体分析,发现主要的目标群体停留在了中年男性。经过用户研究部门的分析,最后希望通过改变 UI 样式的方式向年轻的族群或者女性族群的用户进行泛化,所以我们做了一系列的 UI 的测试实验。例如上图中左右两版不同的UI 设计,搜索框从直方角变成了圆角,包括字号、字重,上下左右的这个间距、icon 等等,都进行了很多的实验。


那经过持续的迭代优化之后,发现对于“Z 时代”年轻人或者女性用户,用图文资讯类的阅读时长,显著提升了1.66%, UI 风格的变更也更加印证了AB实验确实有助于我们在整个人群上的一个泛化。



说完提升“自然访问”的 AB 实验,之前提到的增长地图当中还有右半部分内容,也就是“运营增长”。我们是怎么通过 AB 测试工具,再结合我们自动化营销的平台去提升运营访问的呢?是通过了这种 5w 的一个智能化、立体化网格的运营策略,去针对合适的人群选择合适的物料,再通过合适的渠道、合适的时机以及比较个性化的运营策略,进行智能化的触达和激活,这就是我们的最佳实践。



接下去给大家来分享一个在字节跳动内部去提活促留的一套“组合拳”案例。如上图,经过数据分析发现这个垂类社区,新用户的这个流失率是比较高的,而新用户的阅读时长也比较低。所以从产品侧的角度是希望可以探索一些新的策略去改变这样的情况。


产品针对最近 7 天留存的新用户进行了推送实验,设定了一个对照组和三个实验组。三个实验组分别是在推送频次和下发时间上提供不同的探索策略。


实验组一是每天早上和下午推送;实验组二是在每天中午和下午推送;实验组三是每天早、中午、晚上,共发 4 条。我们放量40%,经过了两周的实验,发现实验组二的变现是最好的。实验组三显著的提升了11%,但实验组三推送的太过频繁,打扰到了用户,带来了负向影响,很多用户就直接卸载了这款 App。 


我们进一步分析,发现整个这个社区内容的画像群体,主要是一些白领,这类用户早上时间要么是在睡觉,要么就是在通勤或者吃饭,所以空闲或休闲时间只有在午休或者是下午茶的时间,在这个时间区间可以看到push 资讯,此时对他推送是最有效果的,这也是为什么实验组二胜出的一个原因。


这是一个成功促活的一个案例,那我们客户来了之后怎么能够让他留存下来?就让他像中毒了一样,早上来,下午还想来,今天来了,明天还要来,来了就不想走,走了还想再回来,这个怎么办呢?在字节跳动,我们通过这个“组合拳”中的第二个实验:通过使用推荐把用户留下来。



我们的分析师发现新用户的阅读时长是明显的要低于老用户的,于是提出了针对新用户去设置或者是改进推荐模型。


在第一轮实验,我们是在“不使用个性化推荐算法”和“使用个性化推荐算法模型 1.0 ”,这两个策略之间做了对比,我们也感受了个性化推荐的魅力,确实有个性化推荐的用户,它的使用时长提升了59%,非常显著,也能看到 App 的点赞、评论的增加,渗透率也提升了81%。


不过算法工程师并没有止步于这样的成绩,他们继续去求证新的模型和参数,也引入了更多新的特征,推出个性化推荐模型的2.0。模型 2.0 带来的新用户使用时长有 8.4% 的一个显著的提升,渗透率也提升了18.2%。于是我们就利用这样“经典的实验组合拳”的方式先促活,然后再提留,让我们的新用户会尽快的体会到整个产品的核心价值,并提升了用户对产品的忠诚度。



AB实验为字节跳动内部业务以及 ToB 的外部客户带来了非常高的价值和收益。比如说提活促留、业务创新、收益提升、降本增效和管理提效等等。在产品发展的场景之下,我们可以通过改进算法模型或者 UI 交互体验等方式,去大幅的降低创新和试错的成本,激发创新潜能,快速找到业务增长点,提升整体产品的核心价值。


此外,还可以通过一些实验,比如说像正交实验,提供在部门之间的精准的衡量新策略或新功能对业绩的贡献度,给我们的业务部门在决策和汇报时提供了更加科学的依据。



我们已经通过几个案例来了解字节跳动 AB 实验理念和实践。字节跳动下属的企业级的 ToB 品牌叫火山引擎,就是提供一个 ToB 的 AB 实验平台,那火山引擎都有哪些核心能力?


在营销场景下,我们会结合自动化的运营工具,通过研究整个 App 的用户流失曲线,然后在流失拐点的到来之前就去做推送和促活。比如,这是一个电商类的 App ,我们根据用户的活跃曲线,在他首购、复购和唤醒的这些环节,可以在关键节点上通过优惠券、折扣、猜你喜欢等等这些推送活动来激活。


同时,也支持我们在推送平台、推送的通道、推送时机、推送标题、推送的文案内容(包括推送的落地页以及提醒方式),以及我们推送的目标受众等进行对比和验证,来探索出最好的推送运营策略。甚至是 AB 实验的这种流量循环的方式,包括动态赛马的这些能力,去自动化的进行流量分配,达到整体收益最大化的效果。



另外,我们的 AB 实验平台还提供了进展的可视化操作,是对于市场和运营人员特别友好的一个功能,这样可以减少对研发“大大”们的依赖,市场和运营人员可以通过这种可视化的方式直接在页面上对页面的标题、文案内容、图片、字体、字号、背景图案等元素进行在线的编辑,新增或者是删除元素也都可以支持。


因此实验成本是非常低,几分钟就可以快速的配置一个新的版本,非常适合我们的广告或者是 H5 落地页前端优化的场景,真正实现了人人皆可为实验官,它极大的降低了我们整个实操的门槛和理解成本。



还有另外一个有趣的实验,就是多链接合并实验。当页面布局改版非常大的时候,我是没有办法通过在页面编辑的方式去直接操作。所以我们也提供了“多链接页面合并”来对整个实验效果进行快速验证。


“多链接页面合并”指的是同一个入口可以定向到不同的页面,非常适合在网页首页进行大改版,或者是在节日大促的时候,做多个活动页的优选,以及我们在公域投放的场景下,做多渠道落地页的推广,都可以来进行实验。


比如,上图右侧区域中展示的是我们火山引擎“火种计划”的活动页,我们当时就做了两个版本,通过AB实验的方式选出了带火种(上面的)的方案。“火种计划”,指的是火山引擎去赋能给SMB 中长尾客户,帮助他们在创业早期的时候能够更好的使用一些数据分析的工具,帮助他们做量化分析,驱动业务的增长。



因为实验是影响实验者决策的重要一环,所以它必须科学、客观、全面、准确,才能够去避免决策者以偏概全,做错策略。所以字节跳动在做实验的时候会全面的监测各种各样的分析模型,比如说像多维的下钻、概率分布、转化漏斗、分时趋势、累积趋势等就是经常使用的。在底层统计策略层面,我们会有专门的数据科学家团队进行持续探索和应用研究。



再给大家分享一个非常有趣又很有用的一个例子,关于 AI 控流,也叫做智能流量动态调优。在内部我们叫做它为 MAB,类似于博彩场景---多臂老虎机。


一个赌徒来到了赌场,他去玩多臂老虎机,每个老虎机中奖的概率都不相同,每玩一次都需要一枚硬币,假设他只有 50 枚硬币,他要如何分配在每台老虎机上面的尝试次数,才能够获得最高的收益呢?这个案例对比在 AB 实验,我们可以做一个对标,比如说每台老虎机,它其实是代表了AB实验中的一个实验组,每次拉动多臂老虎机的一个臂杆,就代表着我们实验版本的一次曝光,那累计回报就代表着核心指标的一个累积转化。


当我们面临着多个创意需要同时实验,但是这个创意的好坏本身可能又跟时间因素强相关。例如,我们即将到来的“双 11 大促”,就短短的几天时间,如果我们按照比较经典、传统的实验方式,就是固定流量比例,等到活动结束之后,的确我们可以通过小流量的实验方式决出一个优胜者,然而已经没有意义了,因为实验最佳的黄金窗口期已经过去了,活动已经结束了。


那么这就需要在整个活动期间去动态的,根据我们实时采集到的用户的反馈,去调整流量,快速的将剩余的流量分配到最有可能的、收益最高的那个策略上面去。这个过程当中我们也不能放弃对新创意的尝试,这就是探索和利用的一个问题。我们在快速的发现高价值创意和放弃尝试新创意之间去寻求一个平衡。


所以,我们这个时候就会使用 AI 的技术,利用这种智能流量调优的实验,减少成本,比如人工介入,同时这个零误判风险和零时间成本的一个方式,可以帮助快速的找到优胜版本,达到一个收益的最大化。


字节跳动内部会使用这种 MAB 动态调优去进行很多的实验,包括运营推送活动的文案赛马、广告落地页的投放策略的优选,以及我们在页面上进行多元素、多变量组合的一个智能择优。



我再拿大家比较经常接触的 push 场景来举例。有一款游戏,为了保持用户的粘性,已经设置了比较完善的用户激励的体系,上图是这款游戏近期发“元宝”,并且推送消息去召回用户的四组文案,如果单靠人工经验去决策,那么产出的质量是不稳定的,毕竟用户的喜好是难以琢磨的,所以肉眼其实很难分辨哪一个文案能有更好的效果。


这个时候我们可以通过MAB的方式揭晓答案。实验开启后,我们就不需要人工介入和分析数据了,让这四款文案去进行持续不断的自动化调优。经过了数轮的控流迭代之后,最终我们从最早期的这个均分,变成了最后大多数的流量都导给了 B 和 D 这两组。文案 C 其实也有满足一些小众人群偏好,最后 A 是惨遭淘汰。最终效果相比均分实验方式,它的 CTR 提升了9.2%,效果还是非常显著的。


未完待续……敬请关注《数据驱动增长-字节A/B实验揭秘(三)》


想了解更多数据知识也欢迎看,7 位大厂产品联合写的《大数据实践之路:数据中台+数据分析+产品应用》这本书。



点赞(1204) 打赏

评论列表 共有 0 条评论

暂无评论
立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部