模型算法分享

IMTech数据挖掘兴趣小组专题分享会第二期

12月17日晚6:30，信管数据挖掘兴趣小组专题分享会第二期于信息管理学院316教室举办。...

12月17日晚6:30，信管数据挖掘兴趣小组专题分享会第二期于信息管理学院316教室举办。此次分享会主要由四位同学进行分享。

首先由15级硕士王腾飞同学分享word2vec的内容。王腾飞先简单介绍了huffman编码、softmax回归等预备知识的内容，以方便大家更容易理解word2vec的内容。

然后王腾飞介绍了词向量和统计语言模型的相关知识，其中统计语言模型中涉及到了模型参数的计算方法：n-gram模型、决策树、最大熵模型、最大熵马尔科夫模型、条件随机场和神经网络等算法。作为获得词向量的方法，LSA、LDA和神经概率语言模型都是常用的模型。

接着她介绍了word2vec的两个主要模型：其一是基于Hierarchical Softmax框架的CBOW模型，这个模型包括输入层、投影层和输出层三个层次；其二是基于Hierarchical Softmax框架的Skip-gram模型。通过王腾飞同学的分享，大家对word2vec有了一个很好的认识和了解。

接着，16级硕士史昱天以一个很有意思的“魔鬼的游戏”的故事引入了SVM（支持向量机）算法，很形象地指出了SVM算法是用来干什么的，并通过类比引入了SVM算法里面的数据、分类器、最优化、核函数和超平面等概念。

史昱天同学分享了SVM算法的优点，即我们为什么选择SVM算法来解决很多问题。后面是SVM算法的重点：SVM算法是怎么实现的？史昱天同学介绍了假设函数、映射函数、分类函数等知识，并指出了理解SVM算法实现过程的有效方法是记住“最小距离最大化”，这也是是SVM的目的。

他接下来介绍了SVM算法求解过程中必不可少的几何距离的概念，以及求解过程主要用到的拉格朗日乘子法。当然，其推导过程涉及到了很多公式，不过在史昱天同学的仔细讲解下，大家对其构造和推导过程有了一定了解。再深入一层次，SVM可以处理非线性可分的数据，可以通过将数据向量映射到高维空间来实现。

后面，由15级硕士孟凡赛介绍一下LR（逻辑回归）和GBDT（迭代决策树）的主要思想。其中LR是逻辑回归，孟凡赛同学给出了理解其思想的主要方法。对于GBDT，其中GT是决策树，接着分别详细介绍了回归树分类模型和GBDT分类模型的例子。然后介绍了DT和GBDT的区别，即指出了二者在模型过拟合方面的相关内容；LR和GBDT在模型本身、数据需求和特征选择方面的差别，鉴于LR和GBDT的优缺点，将二者融合使用成为一种实用性很强的方法。

最后，由15级硕士戚尔鹏分享最大熵模型的有关内容。首先，戚尔鹏同学先指出了机器学习中监督学习模型包括概率模型和非概率模型。最大熵模型属于概率模型，其中，“熵”的概念及其公式很重要。然后展示了最大熵模型的推导公式和最大熵原理——“选择熵最大的模型”，并展示了一个最大熵模型的例子。紧接着，又以统计建模形式的角度对最大熵模型进行了介绍，给大家展示了模型的经验分布、特征函数等内容，使得大家对最大熵模型的理解更进一个层次。