书籍介绍
在数字化时代,我们生活在一个被海量信息包围的世界里。这些数据蕴含着无尽的商业价值和科研洞察,但如何有效地管理和分析它们,却是一个挑战。《Hadoop大数据挖掘从入门到进阶实战》就是这样一本指南,它引领你探索Hadoop这个强大工具的世界,教你如何构建稳定可靠的集群,运用SQL进行数据分析,甚至处理实时流数据。无论你是希望在企业环境中提升数据处理能力的工程师,还是对大数据分析充满好奇的学生,这本书都将为你开启一扇通往大数据世界的大门。
作者简介
邓杰,一位在博客园享有盛誉的资深博主,也是大数据领域的全栈开发专家。他在极客学院担任大数据讲师,并且是一位热衷于开源项目的开发者。他的专长在于利用大数据监控系统提升工作效率,这得益于他主导的大数据自助平台系统的开发。特别值得一提的是,他创建了Kafka Eagle,这是一个用于管理Kafka系统的工具,该工具在GitHub上发布后,得到了业界开发者的高度评价。此外,邓杰还作为极客学院的特邀讲师,精心制作了多个技术视频,涵盖了Hadoop和Kafka等技术课程,深受学员们的喜爱与好评。
推荐理由
《Hadoop大数据挖掘从入门到进阶实战(视频教学版)》一书深入浅出地介绍了Hadoop技术的各个方面,包括集群搭建、开发环境配置、数据处理工具实践以及实时数据分析等。它不仅涵盖了理论知识,还提供了丰富的实战案例和详细的操作步骤,帮助读者将理论付诸实践,掌握大数据处理的核心技能。无论是对大数据初学者还是希望提升技能的专业人士来说,这本书都是理解并应用Hadoop进行大规模数据挖掘的理想选择。
适合哪些人读
对Hadoop技术感兴趣,希望学习大数据处理和分析的初学者
需要在工作中应用Hadoop进行数据挖掘和管理的专业人士
计算机科学、数据分析相关专业的学生
对分布式系统和大规模数据处理有研究兴趣的研究者。
书籍目录
前言
第1章 集群及开发环境搭建\t1
1.1 环境准备\t1
1.1.1 基础软件下载\t1
1.1.2 准备Linux操作系统\t2
1.2 安装Hadoop\t4
1.2.1 基础环境配置\t4
1.2.2 Zookeeper部署\t7
1.2.3 Hadoop部署\t9
1.2.4 效果验证\t21
1.2.5 集群架构详解\t24
1.3 Hadoop版Hello World\t25
1.3.1 Hadoop Shell介绍\t25
1.3.2 WordCount初体验\t27
1.4 开发环境\t28
1.4.1 搭建本地开发环境\t28
1.4.2 运行及调试预览\t31
1.5 小结\t34
第2章 实战:快速构建一个Hadoop项目并线上运行\t35
2.1 构建一个简单的项目工程\t35
2.1.1 构建Java Project结构工程\t35
2.1.2 构建Maven结构工程\t36
2.2 操作分布式文件系统(HDFS)\t39
2.2.1 基本的应用接口操作\t39
2.2.2 在高可用平台上的使用方法\t42
2.3 利用IDE提交MapReduce作业\t43
2.3.1 在单点上的操作\t43
2.3.2 在高可用平台上的操作\t46
2.4 编译应用程序并打包\t51
2.4.1 编译Java Project工程并打包\t51
2.4.2 编译Maven工程并打包\t55
2.5 部署与调度\t58
2.5.1 部署应用\t58
2.5.2 调度任务\t59
2.6 小结\t60
第3章 Hadoop套件实战\t61
3.1 Sqoop——数据传输工具\t61
3.1.1 背景概述\t61
3.1.2 安装及基本使用\t62
3.1.3 实战:在关系型数据库与分布式文件系统之间传输数据\t64
3.2 Flume——日志收集工具\t66
3.2.1 背景概述\t67
3.2.2 安装与基本使用\t67
3.2.3 实战:收集系统日志并上传到分布式文件系统(HDFS)上\t72
3.3 HBase——分布式数据库\t74
3.3.1 背景概述\t74
3.3.2 存储架构介绍\t75
3.3.3 安装与基本使用\t75
3.3.4 实战:对HBase业务表进行增、删、改、查操作\t79
3.4 Zeppelin——数据集分析工具\t85
3.4.1 背景概述\t85
3.4.2 安装与基本使用\t85
3.4.3 实战:使用解释器操作不同的数据处理引擎\t88
3.5 Drill——低延时SQL查询引擎\t92
3.5.1 背景概述\t93
3.5.2 安装与基本使用\t93
3.5.3 实战:对分布式文件系统(HDFS)使用SQL进行查询\t95
3.5.4 实战:使用SQL查询HBase数据库\t99
3.5.5 实战:对数据仓库(Hive)使用类实时统计、查询操作\t101
3.6 Spark——实时流数据计算\t104
3.6.1 背景概述\t104
3.6.2 安装部署及使用\t105
3.6.3 实战:对接Kafka消息数据,消费、计算及落地\t108
3.7 小结\t114
第4章 Hive编程——使用SQL提交MapReduce任务到Hadoop集群\t115
4.1 环境准备与Hive初识\t115
4.1.1 背景介绍\t115
4.1.2 基础环境准备\t116
4.1.3 Hive结构初识\t116
4.1.4 Hive与关系型数据库(RDBMS)\t118
4.2 安装与配置Hive\t118
4.2.1 Hive集群基础架构\t119
4.2.2 利用HAProxy实现Hive Server负载均衡\t120
4.2.3 安装分布式Hive集群\t123
4.3 可编程方式\t126
4.3.1 数据类型\t126
4.3.2 存储格式\t128
4.3.3 基础命令\t129
4.3.4 Java编程语言操作数据仓库(Hive)\t131
4.3.5 实践Hive Streaming\t134
4.4 运维和监控\t138
4.4.1 基础命令\t138
4.4.2 监控工具Hive Cube\t140
4.5 小结\t143
第5章 游戏玩家的用户行为分析——特征提取\t144
5.1 项目应用概述\t144
5.1.1 场景介绍\t144
5.1.2 平台架构与数据采集\t145
5.1.3 准备系统环境和软件\t147
5.2 分析与设计\t148
5.2.1 整体分析\t148
5.2.2 指标与数据源分析\t149
5.2.3 整体设计\t151
5.3 技术选型\t153
5.3.1 套件选取简述\t154
5.3.2 套件使用简述\t154
5.4 编码实践\t157
5.4.1 实现代码\t157
5.4.2 统计结果处理\t163
5.4.3 应用调度\t169
5.5 小结\t174
第6章 Hadoop平台管理与维护\t175
6.1 Hadoop分布式文件系统(HDFS)\t175
6.1.1 HDFS特性\t175
6.1.2 基础命令详解\t176
6.1.3 解读NameNode Standby\t179
6.2 Hadoop平台监控\t182
6.2.1 Hadoop日志\t183
6.2.2 常用分布式监控工具\t187
6.3 平台维护\t196
6.3.1 安全模式\t196
6.3.2 节点管理\t198
6.3.3 HDFS快照\t200
6.4 小结\t203
第7章 Hadoop异常处理解决方案\t204
7.1 定位异常\t204
7.1.1 跟踪日志\t204
7.1.2 分析异常信息\t208
7.1.3 阅读开发业务代码\t209
7.2 解决问题的方式\t210
7.2.1 搜索关键字\t211
7.2.2 查看Hadoop JIRA\t212
7.2.3 阅读相关源码\t213
7.3 实战案例分析\t216
7.3.1 案例分析1:启动HBase失败\t216
7.3.2 案例分析2:HBase表查询失败\t219
7.3.3 案例分析3:Spark的临时数据不自动清理\t222
7.4 小结\t223
第8章 初识Hadoop核心源码\t224
8.1 基础准备与源码编译\t224
8.1.1 准备环境\t224
8.1.2 加载源码\t228
8.1.3 编译源码\t230
8.2 初识Hadoop 2\t233
8.2.1 Hadoop的起源\t233
8.2.2 Hadoop 2源码结构图\t234
8.2.3 Hadoop模块包\t235
8.3 MapReduce框架剖析\t236
8.3.1 第一代MapReduce框架\t236
8.3.2 第二代MapReduce框架\t238
8.3.3 两代MapReduce框架的区别\t239
8.3.4 第二代MapReduce框架的重构思路\t240
8.4 序列化\t241
8.4.1 序列化的由来\t242
8.4.2 Hadoop序列化\t243
8.4.3 Writable实现类\t245
8.5 小结\t247
第9章 Hadoop通信机制和内部协议\t248
9.1 Hadoop RPC概述\t248
9.1.1 通信模型\t248
9.1.2 Hadoop RPC特点\t250
9.2 Hadoop RPC的分析与使用\t251
9.2.1 基础结构\t251
9.2.2 使用示例\t257
9.2.3 其他开源RPC框架\t264
9.3 通信协议\t266
9.3.1 MapReduce通信协议\t266
9.3.2 RPC协议的实现\t273
9.4 小结\t277
第10章 Hadoop分布式文件系统剖析\t278
10.1 HDFS介绍\t278
10.1.1 HDFS概述\t278
10.1.2 其他分布式文件系统\t282
10.2 HDFS架构剖析\t283
10.2.1 设计特点\t283
10.2.2 命令空间和节点\t285
10.2.3 数据备份剖析\t289
10.3 数据迁移实战\t292
10.3.1 HDFS跨集群迁移\t292
10.3.2 HBase集群跨集群数据迁移\t297
10.4 小结\t301
第11章 ELK实战案例——游戏应用实时日志分析平台\t302
11.1 Logstash——实时日志采集、分析和传输\t302
11.1.1 Logstash介绍\t302
11.1.2 Logstash安装\t306
11.1.3 实战操作\t308
11.2 Elasticsearch——分布式存储及搜索引擎\t309
11.2.1 应用场景\t309
11.2.2 基本概念\t310
11.2.3 集群部署\t312
11.2.4 实战操作\t317
11.3 Kibana——可视化管理系统\t323
11.3.1 Kibana特性\t324
11.3.2 Kibana安装\t324
11.3.3 实战操作\t328
11.4 实时日志分析平台案例\t331
11.4.1 案例概述\t331
11.4.2 平台体系架构与剖析\t332
11.4.3 实战操作\t334
11.5 小结\t339
第12章 Kafka实战案例——实时处理游戏用户数据\t340
12.1 应用概述\t340
12.1.1 Kafka回顾\t340
12.1.2 项目简述\t347
12.1.3 Kafka工程准备\t348
12.2 项目的分析与设计\t349
12.2.1 项目背景和价值概述\t349
12.2.2 生产模块\t350
12.2.3 消费模块\t352
12.2.4 体系架构\t352
12.3 项目的编码实践\t354
12.3.1 生产模块\t354
12.3.2 消费模块\t356
12.3.3 数据持久化\t362
12.3.4 应用调度\t364
12.4 小结\t369
第13章 Hadoop拓展——Kafka剖析\t370
13.1 Kafka开发与维护\t370
13.1.1 接口\t370
13.1.2 新旧API编写\t372
13.1.3 Kafka常用命令\t380
13.2 运维监控\t383
13.2.1 监控指标\t384
13.2.2 Kafka开源监控工具——Kafka Eagle\t384
13.3 Kafka源码分析\t391
13.3.1 源码工程环境构建\t391
13.3.2 分布式选举算法剖析\t394
13.3.3 Kafka Offset解读\t398
13.3.4 存储机制和副本\t398
13.4 小结\t402
用户评论
实战挺好