【明星团队】科赛网对话朱治亮:天赋决定上限,努力决定下限

 

本周明星团队——【不得仰视本王】。...





朱治亮,浙大研二在读,研究方向为智能控制与模式识别方向;目前研究内容为基于本体语义的DEVS仿真建模,涉及本体建模、本体映射和本体翻译。



个人独白——我的数据之路

文/朱治亮依稀记得,本科期间我还没听过机器学习、数据挖掘这些高大上的专业名词,只在大三课余时间参加过实验室图像模式识别的相关工作。当时做的事情就是通过图像算法Canny检测轮廓,通过八邻域算法提取轮廓数据,以及通过傅里叶变换提取波形频域特征,最后采用模糊识别和神经网络进行模式识别,这就是我第一次机器学习的经历——能够将课本上的知识转化为实际应用,令人有着莫名的兴奋。

本着看好大数据的前景态度,研一时我便积极投身于该领域。一方面夯实基础理论知识上,另一方面了解一些前沿算法内容,比如目前火热的深度学习和人工智能内容。当时最有感触的是一篇DeepMind的论文《Playing Atari with Deep Reinforcement Learning》,我对它研究了好久,也折腾其在github上的代码,最终因显卡问题程序无法运行,体会到了科研中有块显卡的重要性,总体而言研一是知识增长的一年。

研二直到现在,大概是疯狂比赛的一年吧,年轻就需要野草般的野蛮生长。比赛期间有过与小伙伴奋斗通宵,坐等排行榜更新而睡不着的时候——有时为了压榨计算机的计算时间,半夜调模型,等到程序能顺利正常运行了才会安心回去睡觉;有时早上刷排行榜都快把键盘F5擦没了,有时会因为线下成绩提升兴奋地睡不着,然而第二天又因线上评测下降而心塞,重新定位错误改算法,真是折腾不断快乐不断。



对话kesci——天赋决定上限,努力决定下限

采访/邓以勒

Q1 从事大数据行业遇到的第一个问题是什么?是如何解决的?

大概是去年吧,我作为一名毫无实战经验的菜鸟,参加了天池的穿衣搭配比赛,最终意外地取得了第三名的成绩。当时遇到的问题就是需要自学一些内容,比如自然语言处理、图像深度学习以及排序优化等。

Q2 进入大数据领域,最令你骄傲的事是什么?

由于目前尚未从业,还没有体会到将算法运用于实际项目中并产生经济效益,相信未来会有更多机会。目前而言,最让我骄傲的是与小伙伴们一起通宵奋斗打比赛,尽管成绩有时好有时差,但是大家都感到知识与经验有所提升才是最值得的。当然比赛过程中也结识了诸多大神,不仅拓阔眼界也拓展了优质朋友圈。

Q3 在学习数据科学的经历中,最主要的困难是什么?

最困难当然是前沿算法的理解、复杂公式的数学推导等等,这就需要各种查看paper和Google相关大神博客介绍,学一些深度神经网络学习、人工智能方面的Q-learning算法、自然语言处理等相关知识。这些内容都是传统教科书上很少介绍到的,但是又非常前沿和有趣,研究他们尽管费时,但是乐在其中。

Q4 最初是怎样接触到大数据领域的比赛的?在最初接触到大数据行业后,除了比赛,你还做了哪些尝试?

(笑)大致故事就是某人说XX比赛还挺有意思的,奖金高,要不组队玩一玩,再不济以后找工作有点用。我就听到奖金这么唬人,必须拼命搞。

其实目前来说,接触到大数据行业主要是比赛,其他尝试大致就是研一期间主动接触和学习相关大数据处理技术,掌握Hadoop平台及其MapReduce的工作机理,编写过MapReduce的分布式程序。同时在实验室环境下成功部署过8个节点的Hadoop小集群,并在其上集成运行大数据处理框架Mahout,用kaggle数据集跑分布式的随机森林,最后作为某课的大作业提交了上去,还受到了老师的一致好评。

Q5 这次拍拍贷魔镜杯的比赛大概花费了多长时间?

大致花了1个月的时间,期间如果没事情,就一窝心扑在比赛上,因为个人觉得专注做一件事情,哪怕成绩没提升,但是在尝试的过程中也会收获很多。

Q6 团队合作过程中你负责什么部分呢?

在团队合作中主要负责模型实现和模型融合部分,大致把所有的sklearn上效果好的模型诸如LR,SVM,RF,GDBT,ET等都实现,外加xgboost、graphlab版本xgboost和keras的DNN模型。

Q7 比赛中有遇到什么困难吗,你是如何解决的?

实现模型的过程中遇到的困难主要在于参数具体含义和设置。解决的话,就是去官网查阅英文技术文档,一个一个啃下来。在模型融合上会参考Kaggle的模型融合教程和参考历届的冠军代码,他们采用的是blending和stacking融合方案,不过最后发现我们自己的融合方法最为有效。其实我们尝试过程中经常发现以前认为好的模型或者优秀的解决方案表现不佳,所以具体问题还需具体分析。

Q8 当你选择参加一个比赛时,什么因素是最吸引你的?

比赛吸引我因素有很多,比如赛题的趣味性和可玩性,比赛奖金,队友的必胜信念和拼搏精神等,如果非要选择一个最吸引我的,我会选择队友的必胜信念和拼搏精神,因为只要大家目标一致并且不断努力,梦想总会实现的。

Q9 在平时大数据相关问题的学习中,你比较倾向于个人学习还是团队学习?

其实这个问题个人觉得不是非此即彼的,反而是互补的。个人学习能针对某些问题不断深入研究,按图索骥的方式进行。团队学习中,由于不同的人关注的面不同,而且个人精力有限,因此可以通过交流拓宽自己的知识面。

Q10 你将来的发展方向是什么?对工作有什么期待?

将来的发展方向大致是大数据算法工程师,即大数据的掘金“矿工”,希望能参与分布式算法实现,将自己的算法应用于实际的项目中并产生商业价值。其实随着互联网的发展,数据越来越大,大数据算法工程师也越来越有用武之地。短期的规划就是多实践,比如参加大数据相关比赛,同时通过paper学习前沿技术,多多积淀,对以后工作有些知识技术储备。

Q11 你认为哪种素质是正在或者将要从事大数据行业的人应该具备的?

一是需要扎实的知识储备,即对模型的深入理解。大家可能存在一个误区,认为大数据行业的人员只需要使用模型,不需要了解模型。其实恰恰相反,深入理解模型对于模型在数据上的表现有着深刻的认识,通过数据表现可以优化模型。

二是技术上要不断学习,毕竟现在技术更新特别快,大数据技术比如Hadoop、Hive、Mahout、HBase、Spark、Storm等技术就如雨后春笋般涌现,目前的算法都需要应用到这些分布式平台中才能产生价值,而不仅仅是传统的线下少量的数据集。

三是业务上要不断深入,据从业人员说,业务上有效特征对效果的提升会好于模型调优,这也验证机器学习领域的真理:特征决定上限,模型和算法只是逼近这个上限。作为大数据行业人才需要热爱目前从事的领域,并对背景业务有着深刻的理解。

最后就是坚持,坚持是种可贵的品质,哪里都适用。

Q12 请分享一句你最喜欢的话。

对应机器学习中特征决定上限,我最喜欢的一句话是:天赋决定上限,努力决定下限。

整理&编辑  邓以勒 汪梦梦

推荐阅读

【明星团队】科赛网对话黄伟鹏:左手诗句,右手数据【明星团队】科赛网对话陈靖:一入数据“坑”,赛霸路上皆友人

【致青春】“梦创上海”2016年上海市产业和信息化职业青年创新大赛正式开赛!

Kesci数据实践

专业大数据竞赛平台




中国数据青年成长之家


    关注 Kesci数据实践


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册