<bdo id='Ywd5u'><sup id='CKSS8'><div id='3YDxX'><bdo id='REGQz'></bdo></div></sup></bdo>

PySpark机器学习、自然语言处理与推荐系统（印）普拉莫德辛格（PramodSingh）著 2020年版

大小：21.45 MB
语言：中文版
格式： PDF文档
阅读软件： Adobe Reader

资源简介

PySpark机器学习、自然语言处理与推荐系统
作者：（印）普拉莫德辛格（PramodSingh）著
出版时间： 2020年版
内容简介
　　使用PySpark构建机器学习模型、自然语言处理应用程序以及推荐系统，从而应对各种业务挑战。该书首先介绍Spark的基础知识及其演进，然后讲解使用PySpark构建传统机器学习算法以及自然语言处理和推荐系统的全部知识点。
　　《PySpark机器学习、自然语言处理与推荐系统》阐释如何构建有监督机器学习模型，比如线性回归、逻辑回归、决策树和随机森林，还介绍了无监督机器学习模型，比如K均值和层次聚类。该书重点介绍特征工程，以便使用PySpark创建有用的特征，从而训练机器学习模型。自然语言处理的相关章节将介绍文本处理、文本挖掘以及用于分类的嵌入。
　　在阅读完该书后，读者将了解如何使用PySpark的机器学习库构建和训练各种机器学习模型。此外，还将熟练掌握相关的PySpark组件，比如数据获取、数据处理和数据分析，通过使用它们开发数据驱动的智能应用。

目录
第1章数据革命
1．1 数据生成
1．2 Spark
1．2．1 Spark Core
1．2．2 Spark组件
1．3 设置环境
1．3．1 Windows
1．3．2 iOS
1．4 小结

第2章机器学习简介
2．1 有监督机器学习
2．2 无监督机器学习
2．3 半监督机器学习
2．4 强化学习
2．5 小结

第3章数据处理
3．1 加载和读取数据
3．2 添加一个新列
3．3 筛选数据
3．3．1 条件1
3．3．2 条件2
3．4 列中的非重复值
3．5 数据分组
3．6 聚合
3．7 用户自定义函数（UDF）
3，7．1 传统的Python函数
3．7．2 使用lambda函数
3．7．3 Pandas UDF（向量化的UDF）
3．7．4 Pandas UDF（多列）
3．8 去掉重复值
3．9 删除列
3．10 写入数据
3．10．1 csv
3．10．2 嵌套结构
3．11 小结

第4章线性回归
4．1 变量
4．2 理论
4．3 说明
4．4 评估
4．5 代码
4．5．1 数据信息
4．5．2 步骤1：创建
SparkSession对象
4．5．3 步骤2：读取数据集
4．5．4 步骤3：探究式数据分析
4．5．5 步骤4：特征工程化
4．5．6 步骤5：划分数据集
4．5．7 步骤6：构建和训练线性回归模型
4．5．8 步骤7：在测试数据上评估线性回归模型
4．6 小结

第5章逻辑回归
5．1 概率
5．1．1 使用线性回归
5．1．2 使用Logit
5．2 截距（回归系数）
5．3 虚变量
5．4 模型评估
5．4．1 正确的正面预测
5．4．2 正确的负面预测
5．4．3 错误的正面预测
5．4．4 错误的负面预测
5．4．5 准确率
5．4．6 召回率
5．4．7 精度
5．4．8 F1分数
5．4．9 截断／阈值概率
5．4．10 ROC曲线
5．5 逻辑回归代码
5．5．1 数据信息
5．5．2 步骤1：创建Spark会话对象
5．5．3 步骤2：读取数据集
5．5．4 步骤3：探究式数据分析
5．5．5 步骤4：特征工程
5．5．6 步骤5：划分数据集
5．5．7 步骤6：构建和训练逻辑回归模型
5．5．8 训练结果
5．5．9 步骤7：在测试数据上评估线性回归模型
5．5．10 混淆矩阵
5．6 小结
……
第6章随机森林
第7章推荐系统

下载地址

点击进入下载地址列表

立即下载

新太阳城

太阳城官网

太阳城规范

论文

工业技术

资料

图纸模型

PPT模板

专题

资源合集

PySpark机器学习、自然语言处理与推荐系统（印）普拉莫德辛格（PramodSingh）著 2020年版

推荐信息

PySpark机器学习、自然语言处理与推荐系统 （印）普拉莫德 辛格（PramodSingh）著 2020年版

推荐信息

PySpark机器学习、自然语言处理与推荐系统（印）普拉莫德辛格（PramodSingh）著 2020年版