Python机器学习及实践 从零开始通往Kaggle竞赛之路
作者: 范淼,李超编著
出版时间:2016年版
内容简介
本书面向所有对机器学习与数据挖掘的实践及竞赛感兴趣的读者,从零开始,以Python编程语言为基础,在不涉及大量数学模型与复杂编程知识的前提下,逐步带领读者熟悉并且掌握当下流行的机器学习、数据挖掘与自然语言处理工具,如Scikit-learn、NLTK、Pandas、gensim、XGBoost、Google Tensorflow等。全书共分4章。第1章简介篇,介绍机器学习概念与Python编程知识;第2章基础篇,讲述如何使用Scikit-learn作为基础机器学习工具;第3章进阶篇,涉及怎样借助高级技术或者模型进一步提升既有机器学习系统的性能;第4章竞赛篇,以Kaggle平台为对象,帮助读者一步步使用本书介绍过的模型和技巧,完成三项具有代表性的竞赛任务。
目录
第1章 简介篇..............................................................1
1.1 机器学习综述..............................................................1
1.1.1 任务....................................................................3
1.1.2 经验....................................................................5
1.1.3 性能....................................................................5
1.2 Python编程库..............................................................8
1.2.1 为什么使用Python........................................................8
1.2.2 Python机器学习的优势....................................................9
1.2.3 NumPy & SciPy..........................................................10
1.2.4 Matplotlib.............................................................11
1.2.5 Scikit-learn..........................................................11
1.2.6 Pandas.................................................................11
1.2.7 Anaconda...............................................................12
1.3 Python环境配置...........................................................12
1.3.1 Windows系统环境........................................................12
1.3.2 Mac OS 系统环境........................................................17
1.4 Python编程基础...........................................................18
1.4.1 Python基本语法.........................................................19
1.4.2 Python 数据类型........................................................20
1.4.3 Python 数据运算........................................................22
1.4.4 Python 流程控制........................................................26
1.4.5 Python 函数(模块)设计................................................28
1.4.6 Python 编程库(包)的导入..............................................29
1.4.7 Python 基础综合实践....................................................30
1.5章末小结..............................................................33第2章 基础篇..............................................................34
2.1监督学习经典模型.........................................................34
2.1.1分类学习...............................................................35
2.1.1.1 线性分类器
2.1.1.2 支持向量机(分类)
2.1.1.3 朴素贝叶斯
2.1.1.4 K近邻(分类)
2.1.1.5 决策树
2.1.1.6 集成模型(分类)
2.1.2回归预测...............................................................64
2.1.2.1 线性回归器
2.1.2.2 支持向量机(回归)
2.1.2.3 K近邻(回归)
2.1.2.4 回归树
2.1.2.5 集成模型(回归)
2.2 无监督学习经典模型.......................................................81
2.2.1数据聚类......................................................81
2.2.1.1 K均值算法
2.2.2特征降维...............................................................91
2.2.2.1 主成分分析
2.3 章末小结.................................................................97第3章 进阶篇...............................................................98
3.1 模型实用技巧.............................................................98?
3.1.1 特征提升...............................................................99
3.1.2 模型正则化............................................................111
3.1.3 模型检验..............................................................121
3.1.4 超参数搜索............................................................122
3.2 流行库/模型实践.........................................................129
3.2.1自然语言处理包(NLTK)................................................131
3.2.2 词向量(Word2Vec)技术................................................133
3.2.3 XGBoost模型...........................................................138
3.2.4 Tensorflow框架........................................................140
3.3 章末小结................................................................152第4章 实战篇..............................................................153
4.1 Kaggle平台简介..........................................................153
4.2 Titanic罹难乘客预测.....................................................157
4.3 IMDB影评得分估计........................................................165
4.4 MNIST手写体数字图片识别.................................................174
4.5 章末小结................................................................180后记.....................................................................181参考文献.................................................................182