数据实验组对照组

5个提醒，让你远离“数据呆”

随着数据积累得越来越多，数据获取成本不断降低，人们开始走向另一个危险的极端，那就是任何事情都要看数据，任何决定都去依赖数据。...

随着数据积累得越来越多，数据获取成本不断降低，人们开始走向另一个危险的极端，那就是任何事情都要看数据，任何决定都去依赖数据。这种风气培养出了越来越多的“数据呆”。作为一个数据分析师，我是非常反对“唯数据论”的。为什么呢？让我详细地来说一说。

数据库并不能记录一切

你觉得，通过数据库中的记录，你能够充分了解你的业务吗？答案是否定的。说白了，数据库只是记录了发生在业务链条上的行为，但行为的结果并不代表业务的全部。举个例子，通过用户的使用行为数据，我们就能知道用户的体验吗？答案是不能，我们只是根据用户的“行为结果”去猜测他使用体验的好坏。真正的用户感觉，在他们的心理，许多时候，不会通过既定的使用路径和产品功能提现出来。

那么，数据库不能记录的信息，怎么获取呢？答案其实很简单，通过外部手段，创造条件去获取。概括为“调查”和“实验”两个词。比如用户体验不能量化的问题，直接问不就好了？调查分为访谈和问卷调查两个方式，每种方式都需要落地成可量化的结果。问卷调查建议规律性地长期进行，连续收集的数据在时间维度上可比，价值远远大于单次的问卷调查。实验的方式在第四章中有所论述，它正是一种创造数据的手段。通过实验组和对照组，创造出一个对比的条件，进而量化出差异，最终形成可靠的判断。

不可能分离多重因素影响

我们在运营当中最容易犯的错误就是试图用一个“宏观指标”的变化来评估某个细节动作（策略的改变、产品的改变或者活动的改变）的影响。做这件事情好比买彩票，幸运的时候，某个运营动作对业务的影响非常大，那么从指标中能反映出来。但绝大多数时候，不管是策略的变更还是产品的改进，对业务全局的影响都是有限的，宏观指标（往往是KPI）的变化并不敏感。真正要做的是就事论事，根据具体的行动，去定义一个信度和效度高的指标。

另一个角度，业务指标的变动往往是多种运营动作共同施加的结果，这种影响并不能简简单单的分解为“A+B+C+…”或者“A*B*C*…”。有些因素叠加可能相互放大影响，有些则可能相互抑制，宏观指标只是这众多影响的结果，内部的影响机制是黑箱。极端点说，不可能将每个因素的影响都分离出来。

那么怎么办呢？怎样能衡量具体某个运营动作带来的影响呢？答案就是实验，也只有实验。就是通常所讲的AB测试。实验中，运营动作施予对象必须分为实验组和对照组，实验组和对照组唯一的不同，就是实验组被施予了运营动作，而对照组没有。只有这样，观察实验组与对照组的指标差异（方差分析或者DID），我们才有可能去量化某个运营动作的影响。

数据不能替代逻辑推理

一个逻辑混乱的人，给他再多的数据，也不会得出正确的结论。能否形成正确的判断和合理的决策，很大程度上并不是数据的多少，数据足够（信息充分）就可以了。很多时候，我们真正要锻炼的是自己的分析问题的能力，或者说逻辑思维能力。尤其是在“根据数据变化查找问题”这样的场景中。

要对这一点有深刻的理解，希望大家读我的《数据驱动决策的13种思维方式》。你是不是一个明智的决策者，并不在于你手头有多少的数据，而在于你能否从数据中正确地解读信息。需要提醒各位的是，当数据达到一定的量后，数据越多，往往数据质量越差，你犯错的可能性越大。你是否记起了本书第一章最后部分，数据图中指标数量与混淆概率的关系了？

预测的根基未必牢固

‍数据分析工作，很大一部分是为了“预测”。所有预测模型的“根基”都是“通过过去发生的事来预知将来的事”。说得更玄乎一点，就是“历史是会重演的”。但这个基本逻辑靠得住吗？

从我的个人经历来说，许多时候是靠不住的。这也是我在工作中很少进行预测型建模的原因。在我所处的互联网行业，业务变化非常快。一个“政策”的决定，往往造成各项业务数据的巨变。经常是“一夜回到解放前”或者“一晚跨入新时代”。在这种背景下，重要的不是去对某个指标进行预测，而是理解业务背后最根本的商业逻辑（商业模式）。若一个商业逻辑被证明是有效的，那么它在相当长的一段时间内不会变化，那么你就能获得一些“定性”的预测能力，这就足够了。

大多数人会因数据而变傻

为什么这么说呢？在我的工作经历中，大多数的管理层，都会因为数据资源的丰富而或多或少地放弃思考。放弃思考意味着变傻，难道不是吗？许多人，自身因为长期业务经验的积累，其实是有很好的直觉的。而现在，却被一个不熟悉业务，只会从数据库中做些统计的所谓数据分析师牵着鼻子走。实在是“可歌可泣”。许多人过分地依赖数据统计了。这个现象是值得警觉的。

曾经有一位学者告诉我，数据分析使人短视甚至盲目。开始我不以为意，但之后越来越觉得这话有道理。为什么呢？现实情况是，许多人有了数据资源后，放弃了最基本的商业思考，不断地去统计数据，不断地去提“帮我查一下这个数字，帮我看一下那个数字”这样的需求。失去了思考的深度，非常危险。

我觉得，真正的数据分析（业务分析），应该有很高的门槛。这个门槛并不来自于分析方法的应用，而来自于对业务的理解。只有对业务有深刻的理解，才能将分析方法用对地方，才能正确地解读信息，获得结论。

所以，许多深耕在业务中的管理者，不需要因为数据资源的爆炸而惊慌失措，真正有价值的东西在你们经验里，只需要有一个量化的出口，你才是那个将数据价值发挥到最大的人。

那么问题来了，如何做到不因数据而变傻呢？我没有答案。我认为在未来，不应该有数据分析师这个职业，而应该是所有决策者都懂得“分析数据”。这实际上是写作本书最深层的一个目的。当所有决策者都能正确地获取数据、合适地应用分析方法，得出可靠的结论时，我们的商业将进入一个新的阶段，商业智能才真正落地。

最后，我还是想强调，任何人在应用数据前，都要记住这样一句话：“对业务的理解和思考，永远高于分析技术的选择”。

关注川术