《Spark机器学习》

《Spark机器学习》 《Spark机器学习》

  • 书名:《Spark机器学习》
  • 分类:计算机
  • 作者:彭特里思 (Nick Pentreath)
  • 出版社:人民邮电出版社
  • 出版年:2015-9-1
  • 售价:CNY 59.00
  • 装订:平装
  • 页码:224

《Spark机器学习》 内容介绍:

本书每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了Spark 的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据开始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。

作者彭特里思 (Nick Pentreath)介绍:

Nick Pentreath 是Graphflow公司联合创始人。Graphflow是一家大数据和机器学习公司,专注于以用户为中心的推荐系统和客户服务智能化技术。Nick拥有金融市场、机器学习和软件开发背景,曾任职于高盛集团,之后去在线广告营销创业公司Cognitive Match Limited(伦敦)担任研究科学家,后又去非洲最大的社交网络Mxit领导数据科学与分析团队。Nick是Apache Spark项目管理委员会成员之一。

《Spark机器学习》 目录大纲:

第1章 Spark的环境搭建与运行  1
1.1 Spark的本地安装与配置  2
1.2 Spark集群  3
1.3 Spark编程模型  4
1.3.1 SparkContext类与SparkConf 类  4
1.3.2 Spark shell  5
1.3.3 弹性分布式数据集  6
1.3.4 广播变量和累加器  10
1.4 Spark Scala编程入门  11
1.5 Spark Java编程入门  14
1.6 Spark Python编程入门  17
1.7 在Amazon EC2上运行Spark  18
1.8 小结  23
第2章 设计机器学习系统  24
2.1 MovieStream介绍  24
2.2 机器学习系统商业用例  25
2.2.1 个性化  26
2.2.2 目标营销和客户细分  26
2.2.3 预测建模与分析  26
2.3 机器学习模型的种类  27
2.4 数据驱动的机器学习系统的组成  27
2.4.1 数据获取与存储  28
2.4.2 数据清理与转换  28
2.4.3 模型训练与测试回路  29
2.4.4 模型部署与整合  30
2.4.5 模型监控与反馈  30
2.4.6 批处理或实时方案的选择  31
2.5 机器学习系统架构  31
2.6 小结  33
第3章 Spark上数据的获取、处理与准备  34
3.1 获取公开数据集  35
3.2 探索与可视化数据  37
3.2.1 探索用户数据  38
3.2.2 探索电影数据  41
3.2.3 探索评级数据  43
3.3 处理与转换数据  46
3.4 从数据中提取有用特征  48
3.4.1 数值特征  48
3.4.2 类别特征  49
3.4.3 派生特征  50
3.4.4 文本特征  51
3.4.5 正则化特征  55
3.4.6 用软件包提取特征  56
3.5 小结  57
第4章 构建基于Spark的推荐引擎  58
4.1 推荐模型的分类  59
4.1.1 基于内容的过滤  59
4.1.2 协同过滤  59
4.1.3 矩阵分解  60
4.2 提取有效特征  64
4.3 训练推荐模型  67
4.3.1 使用MovieLens 100k数据集训练模型  67
4.3.2 使用隐式反馈数据训练模型  68
4.4 使用推荐模型  69
4.4.1 用户推荐  69
4.4.2 物品推荐  72
4.5 推荐模型效果的评估  75
4.5.1 均方差  75
4.5.2 K值平均准确率  77
4.5.3 使用MLlib内置的评估函数  81
4.6 小结  82
第5章 Spark构建分类模型  83
5.1 分类模型的种类  85
5.1.1 线性模型  85
5.1.2 朴素贝叶斯模型  89
5.1.3 决策树  90
5.2 从数据中抽取合适的特征  91
5.3 训练分类模型  93
5.4 使用分类模型  95
5.5 评估分类模型的性能  96
5.5.1 预测的正确率和错误率  96
5.5.2 准确率和召回率  97
5.5.3 ROC曲线和AUC  99
5.6 改进模型性能以及参数调优  101
5.6.1 特征标准化  101
5.6.2 其他特征  104
5.6.3 使用正确的数据格式  106
5.6.4 模型参数调优  107
5.7 小结  115
第6章 Spark构建回归模型  116
6.1 回归模型的种类  116
6.1.1 最小二乘回归  117
6.1.2 决策树回归  117
6.2 从数据中抽取合适的特征  118
6.3 回归模型的训练和应用  123
6.4 评估回归模型的性能  125
6.4.1 均方误差和均方根误差  125
6.4.2 平均绝对误差  126
6.4.3 均方根对数误差  126
6.4.4 R-平方系数  126
6.4.5 计算不同度量下的性能  126
6.5 改进模型性能和参数调优  127
6.5.1 变换目标变量  128
6.5.2 模型参数调优  132
6.6 小结  140
第7章 Spark构建聚类模型  141
7.1 聚类模型的类型  142
7.1.1 K-均值聚类  142
7.1.2 混合模型  146
7.1.3 层次聚类  146
7.2 从数据中提取正确的特征  146
7.3 训练聚类模型  150
7.4 使用聚类模型进行预测  151
7.5 评估聚类模型的性能  155
7.5.1 内部评价指标  155
7.5.2 外部评价指标  156
7.5.3 在MovieLens数据集计算性能  156
7.6 聚类模型参数调优  156
7.7 小结  158
第8章 Spark应用于数据降维  159
8.1 降维方法的种类  160
8.1.1 主成分分析  160
8.1.2 奇异值分解  160
8.1.3 和矩阵分解的关系  161
8.1.4 聚类作为降维的方法  161
8.2 从数据中抽取合适的特征  162
8.3 训练降维模型  169
8.4 使用降维模型  172
8.4.1 在LFW数据集上使用PCA投影数据  172
8.4.2 PCA和SVD模型的关系  173
8.5 评价降维模型  174
8.6 小结  176
第9章 Spark高级文本处理技术  177
9.1 处理文本数据有什么特别之处  177
9.2 从数据中抽取合适的特征  177
9.2.1 短语加权表示  178
9.2.2 特征哈希  179
9.2.3 从20新闻组数据集中提取TF-IDF特征  180
9.3 使用TF-IDF模型  192
9.3.1 20 Newsgroups数据集的文本相似度和TF-IDF特征  192
9.3.2 基于20 Newsgroups数据集使用TF-IDF训练文本分类器  194
9.4 评估文本处理技术的作用  196
9.5 Word2Vec 模型  197
9.6 小结  200
第10章 Spark Streaming在实时机器学习上的应用  201
10.1 在线学习  201
10.2 流处理  202
10.2.1 Spark Streaming介绍  202
10.2.2 使用Spark Streaming缓存和容错  205
10.3 创建Spark Streaming应用  206
10.3.1 消息生成端  207
10.3.2 创建简单的流处理程序  209
10.3.3 流式分析  211
10.3.4 有状态的流计算  213
10.4 使用Spark Streaming进行在线学习  215
10.4.1 流回归  215
10.4.2 一个简单的流回归程序  216
10.4.3 流K-均值  220
10.5 在线模型评估  221
10.6 小结  224


微信扫一扫关注公众号

0 个评论

要评论图书请先登录注册

你也许想看:

Apache ZooKeeper Essentials

《Apache ZooKeeper Essentials》

Saurav Haloi.Packt Publishing - ebooks Account.2015-1-28

“”

Joel on Software

《Joel on Software》

Joel Spolsky.Apress.02 August, 2004

“This book covers every imaginable aspect of softward program...”

学习 Vi 编辑器(第六版)

《学习 Vi 编辑器(第六版)》

Linda Lamb,Arnold Robbins.机械工业出版社.2003-1-1

“学习Vi编辑器对许多用户来说,在UNIX环境下工作就意味着使用vi,这是一个在大部分UNIX系统上可以使用的全屏幕文本编...”

IntelliJ IDEA Essentials

《IntelliJ IDEA Essentials》

Jaroslaw Krochmalski.Packt Publishing - ebooks Account.2014-12-26

“”

The Hacker's Guide to Python

《The Hacker's Guide to Python》

Julien Danjou..2014-3-27

“Python is a wonderful programming language that is being use...”

Learning Unix for OS X

《Learning Unix for OS X》

Dave Taylor.O'Reilly Media.2016-2-14

“”

奔跑吧Ansible

《奔跑吧Ansible》

Lorin Hochstein.电子工业出版社.2016-1

“”

User Story Mapping

《User Story Mapping》

Jeff Patton.O'Reilly Media.2014-9-25

“”

轻松学Android开发

《轻松学Android开发》

王雅宁.电子工业出版社.2013-4

“《轻松学Android开发(图解版)》共分四篇。“Android基础篇”主要介绍Android系统、Android布局设...”

Managing the Unmanageable

《Managing the Unmanageable》

Mantle, Mickey W.; Lichty, Ron;..2012-10

“"Mantle and Lichty have assembled a guide that will help you...”

现代信息检索

《现代信息检索》

Ricardo Baeza-Yates,Berthier Ribeiro-Neto,王知津,贾福新,郑红军.机械工业出版社.2005-3-1

“本书介绍了现代信息检索的绝大部分研究领域,全面展示了现代信息检索的基础知识和高级主题,涉及该领域的各个方面。本书的两位主...”

Pro Android 3 Games

《Pro Android 3 Games》

Vladimir Silva.Apress.2011-12-30

“”

苹果生存手册

《苹果生存手册》

游雷.清华大学出版社.2009-8

“《苹果生存手册:Mac电脑达人速成》是一本全面介绍苹果电脑应用的书籍,不仅涵盖面广,内容也达到了足够的深度。《苹果生存手...”

C现代编程

《C现代编程》

[日] 花井志生.人民邮电出版社.2016-4

“本书主要讲解如何将集成开发环境、设计模式、极限编程、测试驱动开发、重构、持续集成这些现代编程方法应用到C语言的嵌入式开发...”

Compiler Construction Using Java, JavaCC, and Yacc

《Compiler Construction Using Java, JavaCC, and Yacc》

Anthony J. Dos Reis.Wiley-IEEE Computer Society Pr.2011-12-20

“Broad in scope, involving theory, the application of that th...”

机器学习实践:测试驱动的开发方法

《机器学习实践:测试驱动的开发方法》

[美] Matthew Kirk.人民邮电出版社.2015-8

“本书主要介绍如何将测试驱动开发运用于机器学习算法。每一章都通过示例介绍了机器学习技术能够解决的有关数据的具体问题,以及求...”

Machine Learning with R

《Machine Learning with R》

Brett Lantz.Packt Publishing.2013-10-25

“”

微软的软件测试之道

《微软的软件测试之道》

Alan Page,Ken Johnston,Bj Rollison.机械工业出版社.2009

“本书是以使读者熟悉微软产品、微软工程师、微软测试人员、测试的作用和对软件工程的通常做法作为开始。书的第二部分讨论许多在微...”

Instant Varnish Cache How-to

《Instant Varnish Cache How-to》

Roberto Moutinho.Packt Publishing.2013-1-25

“”

Software Architecture Patterns

《Software Architecture Patterns》

Mark Richards..2015-2

“The success of any application or system depends on the arch...”