大数据基础与应用
作者: 赵国生,王健,宋一兵主编
出版时间: 2019年版
丛编项: “十三五”普通高等教育规划教材
内容简介
《大数据基础与应用》共分为12章,第1章介绍了大数据产生的背景、大数据的结构与特征、大数据相关概念、大数据可视化、大数据相关工具与发展前景。第2-9章为基础知识部分,介绍了大数据的生态系统全貌,重点对计算平台Hadoop、分布式文件系统HDFS、计算框架MapReduce、开源数据库HBase、典型工具NoSQL、集群计算Spark、流计算Storm和分布式协调系统Zookeeper等相关技术进行了详细介绍,通过实例使读者具备解决实际问题的能力。第10-12章为典型应用案例部分,介绍了大数据分析应用系统的开发过程,涵盖了数据采集、数据分析、数据转换和结果显示的整个交互式大数据处理和分析流程。《大数据基础与应用》内容丰富、条理清晰、示例指导性强,读者可以通过章后的习题对所学内容作进一步巩固,熟练掌握大数据基本原理、工程应用场景及实验分析技巧。《大数据基础与应用》适合作为大中专院校数据科学与大数据专业、计算机类专业的教材,也可以作为读者自学或者科研技术人员的参考书。《大数据基础与应用》配套授课电子课件,需要的教师可登录www.cmpedu.com免费注册,审核通过后下载,或联系编辑索取。
目录
前言
第1章 初识大数据
1.1 大数据产生的背景
1.2 大数据的结构与特征
1.2.1 大数据的结构
1.2.2 大数据的特征
1.3 大数据相关概念
1.3.1 大数据关键技术
1.3.2 数据类型与数据管理
1.3.3 数据仓库
1.3.4 数据挖掘
1.4 大数据可视化
1.4.1 什么是数据可视化
1.4.2 数据可视化的工具与方法
1.4.3 数据可视化的建模
1.4.4 数据可视化分类
1.5 大数据相关工具
1.5.1 Hadoop
1.5.2 R语言
1.5.3 Python语言
1.5.4 Rapid Miner
1.5.5 Tableau
1.6 大数据时代的新机遇
1.6.1 数据价值
1.6.2 应用价值
1.6.3 发展前景
1.7 本章小结
1.8 习题
第2章 大数据处理架构Hadoop
2.1 Hadoop简介
2.2 Hadoop发展史及特点
2.3 Hadoop体系结构
2.3.1 HDFS体系结构
2.3.2 MapReduce体系结构
2.4 醌置Linux环境
2.4.1 安装VMware12虚拟机
2.4.2 部署CentOS64位操作系统
2.4.3 配置网络
2.4.4 Linux终端
2.5 Hadoop环境搭建
2.5.1 JDK安装和测试
2.5.2 Hadoop安装和配置
2.5.3 SSH免密码配置
2.6 Hadoop关键组件
2.6.1 HDFS
2.6.2 HBase
2.6.3 MapReduce
2.6.4 Hive
2.6.5 Pig
2.6.6 Mahout
2.6.7 Zoo Keeper
2.6.8 Flume
2.6.9 Sqoop
2.6.10 Ambari
2.7 本章小结
2.8 习题
第3章 分布式文件系统HDFS
3.1 HDFS概念
3.1.1 HDFS简介
3.1.2 HDFS相关概念
3.2 HDFS体系结构
3.3 HDFS文件存储机制
3.4 HDFS的数据读写过程
3.4.1 读数据的过程
3.4.2 写数据的过程
3.5 HDFS应用实践
3.5.1 HDFS常用命令
3.5.2 HDFS的Web界面
3.5.3 HDFS常用JavaAPI及应用实例
3.6 本章小结
3.7 习题
第4章 计算系统MapReduce
4.1 MapReduce概述
4.1.1 MapReduce简介
4.1.2 MapReduce数据类型与格式
4.1.3 数据类型Writable接口
4.1.4 Hadoop序列化与反序列化机制
4.2 MapReduce架构
4.2.1 数据分片
4.2.2 MapReduce的集群行为
4.2.3 MapReduce作业执行过程
4.3 MapReduce接口类
4.3.1 MapReduce输入的处理类
4.3.2 MapReduce输出的处理类
4.4 MapReduce应用案例——单词计数程序
4.4.1 WordCount代码分析
4.4.2 WordCount处理过程
4.5 本章小结
4.6 习题
……
第5章 分布式数据库HBase
第6章 NoSQL数据库
第7章 集群计算Spark
第8章 流计算Storm
第9章 分布式协调系统ZooKeeper
第10章 销售数据分析系统
第11章 交互式数据处理
第12章 协同过滤推荐系统
附录 课后习题答案
参考文献