課程簡介
第一部分: Data Management 在 HDFS 中
- 多种数据格式 (JSON / Avro / Parquet)
- 压缩方案
- 数据掩码
- 实验: 分析不同数据格式, 启用压缩
第二部分: 高级 Pig
- 用户自定义函数
- Pig 库介绍 (ElephantBird / Data-Fu)
- 使用 Pig 加载复杂结构化数据
- Pig 调优
- 实验: 高级 Pig 脚本编写, 解析复杂数据类型
第三部分: 高级 Hive
- 用户自定义函数
- 压缩表
- Hive 性能调优
- 实验: 创建压缩表, 评估表格式和配置
第四部分: 高级 HBase
- 高级模式建模
- 压缩
- 批量数据导入
- 宽表/高表比较
- HBase 和 Pig
- HBase 和 Hive
- HBase 性能调优
- 实验: 调优 HBase, 从 Pig 和 Hive 访问 HBase 数据, 使用 Phoenix 进行数据建模
最低要求
- 熟悉Java編程語言(大多數編程練習使用Java)。
- 熟悉Linux環境(能夠使用Linux命令行,使用vi/nano編輯文件)。
- 具備Hadoop的基本知識。
實驗環境
零安裝:無需在學生的機器上安裝Hadoop軟件!將爲學生提供一個可用的Hadoop集羣。
學生需要具備以下條件:
客戶評論 (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay