【数据科学】每位数据科学家都应该要知道的12个统计和机器学习方法

 

数据科学家的核心方法论。数据人网是数据人学习、交流和分享的平台。数据人网诚邀数据人来写博客。http://shujuren.org!!...



每位数据科学家都应该要知道的12个统计和机器学习方法

以下的内容是我个人列出的一个清单,写的是在2016年中,每位数据科学家都应当知道的12个统计和机器学习方法。

1.统计假设性检验(t检验、卡方检验和方差分析)

2.多元回归分析(线性模型)

3.广义线性回归(逻辑回归、泊松回归)

4.随机森林

5.Xgboost(极端梯度提升决策树)

6.深度学习

7.基于MCMC的贝叶斯建模

8.word2vec

9.k均值聚类

10.图论和网络分析

1)LDA分配和主题建模

2)因数分解(奇异值分解、非负矩阵分解)

从我在数据科学行业的4年从业经验来看,我认为当前的这12种方法是用的最多的,最有用的,而且也是最适合应对数据科学里的各种问题的。


就我的认知来看,目前有不少人已经列举出很多“数据科学行业里最有代表性的方法”的清单,然而有些清单由于缺乏对当前先进的数据科学技术进行跟进从
而变成了过时的清单了。因此,我以一位处理业务的人员的角度来列举这样的一个清单,而这份清单则包含了在数据科学里一些实际的东西和解决方案,它包括统计
学和机器学习里的一些方法。
此外,就这份清单本身而言,我会针对每种方法进行相关的实验,并对此配备相应的数据集和R和Python的脚本,这样就给读者一个机会来尝试用这些方法。
原来的帖子在这里,包括R和Python的脚本以及每个实验所配对的数据集。

数据人网作者:何品言
热爱数据科学和英语
严禁修改,可以转载,请注明出自数据人网和原文链接。

今日数据人网精选推荐

《怎样入手学习R的算法》

《机器学习的分类算法及实例》

点击【阅读原文】,查看更多。


    关注 R语言


微信扫一扫关注公众号

0 个评论

要回复文章请先登录注册