王晔:让 AB 测试为增长黑客助力

 

前Google工程师、现吆喝科技创始人及CEO王晔为大家带来了「AB测试:增长黑客必杀技」。...





5月21日,由吆喝科技、出门问问主办,氪空间、拉勾网、峰瑞资本、活动行、GrowingIO 联办的「增长黑客——互联网时代的超级英雄」上海站中,前 Google 工程师、现吆喝科技创始人及 CEO 王晔作为第三位演讲嘉宾为大家带来了「AB 测试:增长黑客必杀技」。



增长黑客有很多方法和实践的经验可以帮助产品落地,帮助公司做出更大的贡献,以及造福广大互联网用户,但是更多的其实是指一种思想,一个社区或者理念,相当于用这个概念把人圈了起来。讲小了是发展人,讲大了是人类的进步。

增长黑客要用到很多法宝和技术,其中,AB 测试是大家经常提到的。因为我们公司做的就是 AB 测试云服务,所以我会在这里讲述它在增长黑客中起的作用,技术以及使用上面的一些干货。

数据的重要性

我特别喜欢引用 DataStax CEO Billy Bosworth 说的一句话,「从现在开始的10年之内,当我们回顾大数据时代是如何发展时,我们会震惊于在以往做出决策时信息的匮乏。」没有 AB 测试,没有数据统计,也就是使用传统企业的方法,往往会盲目地做出很随机的决策。但是有了数据这样的法宝,我们可以做出改变。而且他的预测很正确,再过十年所有公司、所有人都会用到这样的工具。

将来我们会发现数据是多么丰富,但我们不能光有一堆数据,还得看它到底有什么用。首先第一个用处就是可以透过现象看本质,其实有很少数的数据就已经可以帮助我们学到很多东西,帮助我们理性和科学的思考。比如说1682年的时候有一个天文学家观测到一颗很巨大的慧星,他翻阅历史资料,发现1531年和1607年也有类似的天文现象。通过这些数据,他就预测76年之后这颗星还会来到地球,这就是哈雷慧星。

除了本质以外,还有一个东西更加容易落地,更加好用,就是 AB 测试,这个技术或者理念其实并不是很新的东西。特别是在现代西方科技发展当中的医学领域起到了很大的作用。比如说医学新药的研发,如何证明这个药物可以让大家放心去用,又比如说大家还持怀疑态度的转基因。有的药可以治心脏病或者癌症,然而这个药没有人试过,所以大家不敢去用,即使有人用过,也担心这个药到底是治好人还是治死人?



通过这样的方法,医生会把同样病情的患者召集起来,分成两组,一组为对照组,一组为试验组,给对照组安慰剂,给试验组新药。患者并不知道自己在参与试验,通过做这种单盲试验检验试验组的患者康复情况,若没有副作用,可以证明这个是有效的,这就是 AB 测试的本质意义。在科学层面 AB 测试被认为是最高的科学检验的标准,所以它其实是更加强大,更加科学的工具。第一次接触它的时候,可能会觉得有些复杂,但是一旦用好之后,就会觉得它很强大,并且很好用。

增长黑客的流程与 AB 测试扮演的角色

首先这个流程里最基础的东西就是数据,你得知道你用户的重要行为,用户基础数据画像,你才可以做出分析。很出色的互联网公司,在国内像知乎、点评、美团、百度、腾讯这种都会做很详细的用户分析,从中找到一些增长机会,一些不为人所知的规律。有了这些发现之后,他就会提出一些对自己的产品或者运营改进的想法和策略,这就是增长黑客里面比较好玩和炫酷的部分。我可以提出一个好的方法,比如一个很炫酷的抽奖大轮盘,或者是拉用户来注册然后给钱,或者我伪装得像知乎运营人员一样邀请你回答问题,想各种各样的方法,做一些很炫酷的事情。

但是这些事情大部分没有用,而且大部分都是反效果的。如何才能找到真正有效的方法呢?就要通过 AB 测试和验证,也就是说 AB 测试在增长黑客里面是在真正策略层面上使用的,成功的方案才会被发布。

为什么一定要用 AB 测试?或者说不一定要用?Facebook 和 Google,是自己搭个东西先试用一段时间,通过 AB 测试一段时间后,发现这个东西不太好,就再搭一个东西。而 Airbnb 不太一样,它是从第一天开始的时候产品就很不被外界看好,但是通过后来决定去做大量的 AB 测试,增长得越来越好。为什么 Airbnb 在后来会开始使用 AB 测试呢?其实这是跟创始人有关的,他们画了一张图,里面大概有不到一个季度的数据,呈现的是 Airbnb 增长的趋势,这张图里面红色的部分是发布一个新功能的时间段,很有意思。这个新功能从发布开始到发布结束,还有发布前和发布后,数据的变化是很剧烈的,一直在增长。



然而这个增长的曲线并没有给产品经理还有运营人员带来任何有价值的经验,因为他根本不知道这个数据和产品发布之间到底有没有关系。从实践中得出的经验就是外部环境对产品数据的影响实在是太大了,以至于你去做一些改动,你上一些策略的时候,你没有办法科学地知道,这个改动到底会带来什么样的影响?怎么办?用 AB 测试的方法。



虽然听着感觉会有很多高科技的东西,确实也有,但是实践中使用流程很简单,就是访客来了以后做一些分割,让一部分看到 A 版本,一部分看到 B 版本,修改一些小的地方看看会不会提高转化率。如果统计分析可信,则最后结果为 A 版本13%的转化率,B 版本14%的转化率,我们就使用 B 版本,这就是 AB 测试大家经常使用的方式。



说一点实践的案例,让大家了解一下这个体验是什么样的,这个是 Bing 的一个很典型的案例,产品经理和工程师希望调一下颜色,这两个版本只是颜色上有区别,其他没有,结果改变以后每年营收增加1000万。



还有一个例子与运营相关,比如说亚马逊推信用卡的时候,最初把这个信用卡的推荐,放在商品推荐里,结果发现基本无人问津,还浪费了一个广告位。运营就想能不能把这个推荐放到结算页面去,结果带来了上亿美元的年化利率增长。



在线教育课程网站则是为他选课页面做了各种各样的 AB 测试,左边的课程是按照分类来的,有办公室、英语或者 office,而右边的则是按照具体的课程内容热门程度来排序,比如说学 pohotoshop 的多,我就重点推荐这门课程,结果转化率增长了40%。通过做各种各样的试验,作为增长黑客,你可以学到很多经验,并且可以反向想原因是什么。因为学生并不在意这些课程是如何整理分类的,他更在意的是别人在学什么,别人学什么我就学什么,可能是这样的原因。

说了一些案例,让大家知道 AB 测试在使用当中的体验究竟是怎么样。其实就是将原来你总结的经验、分析和一些很酷的主意,拿去试,试完之后一部分成功了,大部分失败了。想让这个试验结果可信,而且好用,其实并不是那么容易的。

AB 测试的难点

我们做这套系统有一些经验可以和大家分享,这里面就包括 AB 测试的几个难点,一个是准确性,一个是敏感性,一个是复杂性,还有实际的效果。比如说你是初创公司,或者是你特别小的时候,你做这个事情特别麻烦,我们可以想办法让它简单一下。

准确性



试验准确性比较容易理解,如果你在做试验的时候选择的试验组的用户和你实际的用户不一样,那么你的试验结果肯定不可信。比如说谷歌用所有的员工试了谷歌的产品,觉得活跃度很高,肯定能打过 Facebook,上线以后发现不行。

敏感性



还有就是我们自己的官网,早期的时候访问量很低,一开始几天过去之后只有上千个访问量,在这种情况下我们也做了一个实验,看能不能让注册率提升,就把这个表单换成看上去比较吸引人的注册表单,结果注册率提高了400%。如果你用统计学去分析的话,这里面其实置信区间是负200到400%,按统计学得出的结论并不能告诉你这个注册率是不是真正提高了。这就是敏感性的问题,其实很难解释,就是我们现在正在上更多好的方法来改进这个问题,它也是现实中遇到的问题。

以 Aribnb 为例子,他们上了十天降到0.05%,一般认为这个实验结果很可信了,但是没过几个星期又上去了,说明本身你是0.05%,你有5%的可能性不准确,95%都是准确的,但是有可能还是不准确,过一段时间发现它确实不准。这里面牵扯到很多方法去提高试验结果可靠性和可信性的东西,这都是我们利用一些方法可以去解决的。

复杂性

当然实践中还有问题,就是我们做 AB 测试这套支撑系统要解决的问题,以及一些增长黑客在使用中的问题。我们设计试验的时候,试验很复杂,我们做了很多稀奇古怪的改动,改动之后发现你的试验数据也发生了稀奇古怪的变化。那这个试验结果到底说明了什么,你什么也不知道,你也不知道到底什么地方改动带来什么影响,结果这个试验对你来说就是浪费时间。为了让你的实验更有价值,你需要科学地设计它,总结经验,这样才有意义。

当然你可以充分利用我们提供的比较好的 AB 测试,我们有一些很巧妙的办法可以提供可信度、快速实验速度,还可以支持大量的数据。刚才提到的分层,我们也可以支持非常巧妙定向交叉的试验配制来帮你不断地积累经验,反向地做分析。这个是我们的 AB 测试产品长的样子,大致告诉你的试验怎么样,你做了什么试验,提升了多少,当提升了20%-30%就可以做决策了,前后端都可以做尝试。



我们在国内推广 AB 测试这件事情,遇到一个很有意思的现象,就是有一些技术公司,他们虽然有这样的理念,也觉得 AB 测试这个工具对他们有帮助,但是他们的反馈是想要增长黑客给他们出一个主意,第二天就能实现疯狂增长。但是我告诉他这个不现实,并不是这样的,但是很多人又不愿意使用这种科学的方法,为什么不愿意使用?因为需要人去设计,跑一个试验,过了几天还要数据采集分析,结果是 A 版本点了几下,B 版本点了几下,到底怎么样还是不确定,所以它是没有实际产出的工作,浪费时间了。所以 AB 测试没有什么用。

但现实中 Facebook 也好,谷歌也好,他们在做 AB 测试的时候,会怎么做?实际上是这样,他们会真的去跑很多试验,比如不同的产品经理可能有不同的想法,不同的运营,或者一个产品的策略可以有多种实践的方式,你的参数是0.6、0.5,还是0.4%,放在左上还是右下,你是四个按钮还是五个按钮,这些东西都可以去尝试。你会发现有了大量地试验支持的话,你可能一个星期就可以完成100个试验,但很遗憾100个实验里面60个都没有提升,20个跟你想的完全不一样,比你想的完全要糟,但是总归有20能提升,你如果做这么多试验,一开始可能不做100个,可能做两三个,越往后越多,才越有可能有效果。但是只要你有效果,七天提升20%,一个半月就可以超过竞争对手一倍,这样在长远距离看才是增长黑客的曲线。

用专业的 AB 测试云服务带来增长黑客的工作革新

实际上这个方法理念还有工具,从听者的角度来说都很简单,但是真正要落地的话,更重要的是改变我们的工作思维和工作流程。以往我们企业软件都是希望让工作更有效率,而目前软件的机会在于变革工作本身,原来会议是讨论,现在就是随时可以把你想要的信息传递出去。那么有了 AB 测试工具也是一样,原先我们可能是有想法,大家讨论需求,开个会确定了方案之后,直接实施,但是有了 AB 测试工具不一样,你可以首先设计一些方案,构建一些假想,当你实践这个方案之后,可以绕开 QA,绕开其他负责的测试,你让用户进来看数据,很低风险的去尝试,东西不好就重做,这样可以使你每一次改进都能带来确定性提升。



上面图中所描绘的两个产品,并不是虚构的,这是两个匿名的同质软件,不用 AB 测试也会迭代,但是不能保证提升,但是你用了 AB 测试,肯定会提升,虽然不是很大,但是随着日积月累,效果是惊人的。



再回到我在硅谷的经历,做 AB 测试的话,开始的时候只放1%的流量,如果好的话放5%,之后再放更多的。上面图中两款 Airbnb 的界面,大家觉得哪个更好呢?肯定是 Facebook 在上面的更好。

谷歌每个月都会跑很多实验,通过这种方法可以保证每个月提升2%的营收,大概是10亿的收入。有些试验比较离谱,任何改动之前都要试一下。Facebook 每次上线的时候都会把未来6个月要做的试验打包,所以你看到 Facebook 可能会比较大,里面会有很多试验,因为产品的想法太多了,只能反复不断地试验。试验让 Facebook 不断增长当然是很重要的,但还有一点我们忽略了,那就是新的改动都有小流量测试的方法,所以我们大部分用户不会受到这种改变的影响。所以他们得到了一个很牛的口碑,Facebook 这个 APP 没有 bug,几十亿下载的 APP 没有 bug 是非常可怕的。



这张片子比较干,这是我们这个领域,就是 AB 测试科学研究领域很著名的人总结的七条经验,第一条就是效果惊人,某些很微小的改动可能对 KPI 造成巨大影响。但是第二条就告诉我们大多数改动都不会大幅度提高 KPI,Twyman 法则更好的解释了原因,因为凡是看上去很出乎意料的图表,通常都是因为数据统计错了。第三条指出各个产品几乎完全不同,所以复制他人经验往往得不到什么效果。你也会发现百度其实产品设计跟谷歌不一样,他们几乎没有抄,而且他们也做 AB 测试,所以还好,而人人就另当别论了。第四条是任何能够加速用户响应时间的改动都会给 KPI 带来提升。还有就是刚才也提到,想改变某一个页面的点击率其实很简单,只要在上面放一个大美女,点击率就可以提升,但是这个东西对你没有意义,你真正需要提高的是用户的核心行为,真正要改变的是流失率。还有一条是尽量不要做复杂的大量改动的试验,应该做一些小的试验不断迭代。最后一条关于用户数量,如果你是初创企业,你还没有用户就千万不要做 AB 测试浪费时间,如果你有几千个用户,你就可以去试一试了,如果有几万用户,你就可以在关键的层面,比如说购物车的结算,或者说你的金融产品排序,或者是推荐的首页几个按钮都可以试试,再往后可以越来越细,到很多地方都可以通过 AB 测试确定你的增长。这就是几个经验,我觉得基本上把一些实践中能够去掌握的诀窍都包含了。

我还想再提一点的是,大家测试的时候,最好知道你的优化目标到底是什么?有的时候我们要有一个比较清晰的认识,时刻注意这一点。就像刚才提到的,如果你总是关注页面的点击率,关注对你没有用的指标,是没有意义的。你要想想北极星在哪里,你到底希望公司将重点放在哪里,这是我们增长黑客不一样的地方,我们要从公司的角度,要从整个企业,整个产品,还有理念去想问题,到底什么东西才是你最终追求的。你去设计一些目标,让这个现有的状态可以朝着北极星不断地发展,这样才是增长黑客去想问题的方法。



这是我们一些客户的情况,有各种各样的互联网公司,比如说百度音乐,也有这种金融类、保险的,还有生活服务类的这种公司。



其实我们 AppAdhoc A/B Testing 前面一段时间都是内测期,整整测了一年的时间,去和我们的早期种子用户一起成长,我们通过和他们共同努力,不断地改进产品和服务,使我们也做到一定的增长。我们现在注册企业有400多家,运行跑了将近3000个试验,每个月大概能覆盖1亿多的设备,在座的可能也参与过我们的一些试验。

说两点延伸的,比较好玩的东西。其实 AB 测试这个理念,你尝试和使用之后,也有可能把它用到很多其他方面。比如说在谷歌,我们有时候会把这个理念放在非技术的东西上面,我们的餐厅盘子的大小和员工健康的关系,就可以做试验验证,他们做了小盘子,大盘子,大小盘子混合的试验,最后得出结论是很少大盘子,很多的小盘子是最好的组合,因为员工请病假少了。还有颜色,办公室都会刷各种各样的颜色,去试过黄色的,红色的,绿色的,最后发现还是蓝色的比较好。



其实这样的理念也可以慢慢地延伸,不光是 AB 测试,还可以针对不同用户有不同的用户体验,将这些东西自动化,增加机器学习的方法。但是无论这些工具是什么,我们增长黑客自己才是最重要的,我们如何去利用这样强大的工具创造价值,还是要靠我们发挥。那些炫酷的东西,那些苦逼的东西还是我们做,那是东西还得靠我们自己去创业。反过来这样想,有了 AB 测试这样强大的工具,我们自己也可以变得更牛逼。特别是机器学习已经打败人类了,是不是将来所有优化都靠机器学习就可以了,然而真正的增长黑客武器并不是机器,是创造力,是机器不具备的超能力,通过这些才能把机器的力量放大,真正实现增长。



点击以下你感兴趣的标签,立即阅读相关精彩文章

什么是Growth Hacking | 初创团队如何践行Growth Hacking | 揭开Growth Hacking面纱 | 增长黑客线下活动 | 吆喝科技

AB测试基础 | 广告 | 着陆页优化 | 导航栏设计 | 改标题 | 用户增长 | loading动画 | APP注册率 | CTA转化率 | 科学分配流量 | 大数据

案例:Facebook | Twitter | Google | APP Store | Airbnb & Dropbox | 天猫 | 今日头条 | 大众点评 | 美团

人生没有AB可选,做产品可以

……



吆喝科技开发的 AB 测试云服务,用数据帮助用户优化产品,是国内唯一同时支持前端(Web/H5、iOS、Android)及后端(Node.js、PHP、Java 等)AB 测试服务的专业 SaaS 平台。

AppAdhoc 优化平台:能够帮助用户用数据验证最佳方案,提高产品的设计、研发、运营和营销的效率,降低产品决策风险。平台特色包括:线上灰度发布、多维度数据统计分析、科学的流量分配系统、一键发布新版本无需应用市场审核、定向测试等。

长按下方二维码,关注“吆喝科技”公众号
影响那些影响世界的产品
©2016 吆喝科技 保留所有权利


    关注 吆喝科技


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册