科赛网对话“我这么纯洁根本听不懂”战队

对于每一个参赛选手而言，比赛至于他，意义不尽相同。当问及及比赛中最开心的事情，周廷英告诉小科，当他自己和小伙...

对于每一个参赛选手而言，比赛至于他，意义不尽相同。当问及及比赛中最开心的事情，周廷英告诉小科，当他自己和小伙伴提出的设想被数据集所验证，他们曾经为此兴奋的难以入眠。

在这个比赛中，【我这么纯洁根本听不懂】团队将主要讲精力放在对数据集的理解以及变量衍生上，例如Third Party数据的分析。

“我们当时结合其目标变量的强相关性，因此将它推定为一个人的金融行为——因为只有一个人的金融行为会和他的另外一个金融行为有如此强的相关性。再结合我们对其的相关性分析，再加上对于特定时间，如1~6月，7~9月，10~12月其内部的相关性远大于月份之间的相关性。然后通过对于内部相关性的分析对时间维度进行切片，最后衍生出的变量对整个模型起到了千分之三到千分之五的提升。”

除此之外，对于零散的类别变量的处理也是周廷英团队的重点。最开始在对于独热编码的处理中，城市及省份具有极多的属性，对于整个数据的处理带来了许多的困难，因此二项分布检验时，周廷英团队对于干扰变量进行了删除，这使得整个模型的精度又前进了千分之一。

“既然二项分布检验能够起到一定的作用，能不能用二项分布检验的P值来描述类别属性的一些性质？”小伙伴灵光一闪的点子，又为团队模型带来了千分之二的提升。

Q1 请向kesci的粉丝介绍一下你们的团队。

我们是来自百融(北京)金融信息服务有限公司的一支团队。在公司大家都是比较能聊到一起的小伙伴，也都对数据科学非常感兴趣。这次参加比赛其实很大程度是想检验自己这一套理解数据的手段是否真的行得通，恰好kesci的宣传也非常吸引人。然后我们就来参加了魔镜杯的比赛。

至于队名纯粹是我这个队长有点逗比，小伙伴们也吐槽过我命名的水准（笑）

Q2 可以给我们推荐一些机器学习中常用工具和库吗？

进入机器学习这个领域时间还比较短，用的工具也比较少。我个人比较喜欢用r这样的轻量化语言。主要是考虑R的单位代码产出量很高，有时候整套逻辑搭完也就四五十行代码。这可以让像我这样对计算机接触不多的数学系学生可以将更多时间花在理论框架上。算是扬长避短吧。

至于好用的库，其实在我看来陈天齐大大的xgboost非常给力，再次也借着这个机会感谢一下陈天奇大大这些造轮子的大神们。就个人经验来看，许多可视化做的优秀的包也为我们的分析提供了便利，ggplot，html widgets都是这方面的利器。

Q3 你认为哪些素质是想要或者正在从事大数据行业的人应该具备的？

我认为从事大数据行业有三个比较重要的素质，首先要对自己的工作感兴趣，要愿意去主动的想各种各样的方案；其次是有韧性，试错的过程是很痛苦的；第三就是愿意交流，大家一起开脑洞，相互取长补短也很重要。

数据满要求综合实力的，要想做的好，统计、业务、工程都要好。不过只要有兴趣，也有韧性，这些东东都会随着你不断做项目，不断参加比赛，慢慢学会的。

Q4 本次比赛中，你觉得自己的团队最大的亮点是什么？

在这次比赛里，我们队的亮点主要在于对数据的理解。在复赛里面我们花了几乎90%的时间用来读懂数据。建模和调参几乎是在最后两天的时间里完成的，可以说是对数据的理解让我们走到了决赛。

Q5 这次拍拍贷魔镜杯比赛花费了多长时间？

由于平时有各种工作，比赛的主要花费业余时间。大概算下来平均每天在2个小时到3个小时。

Q6 魔镜杯比赛中遇到了怎样的挑战吗？是怎样解决的？

这次比赛中的很长一段时间，我们都没有理好自己做特征工程的思路，直到后来把可视化、模型和特征过程结合起来才有了思路。

采访邓以勒

编辑汪梦梦

推荐阅读魔镜杯决赛风控算法组【入围奖】-大数据预测的一条途径有颜有实力！拍拍贷“魔镜杯”决赛现场独家回顾

【魔镜杯决赛倒计时12小时】顾鸣：致数据青年的一封信——回望初心，澎湃如昨

Kesci数据实践

专业大数据竞赛平台

中国数据青年成长之家