課程簡介

第一部分: Data Management 在 HDFS 中

  • 多种数据格式 (JSON / Avro / Parquet)
  • 压缩方案
  • 数据掩码
  • 实验: 分析不同数据格式, 启用压缩

第二部分: 高级 Pig

  • 用户自定义函数
  • Pig 库介绍 (ElephantBird / Data-Fu)
  • 使用 Pig 加载复杂结构化数据
  • Pig 调优
  • 实验: 高级 Pig 脚本编写, 解析复杂数据类型

第三部分: 高级 Hive

  • 用户自定义函数
  • 压缩表
  • Hive 性能调优
  • 实验: 创建压缩表, 评估表格式和配置

第四部分: 高级 HBase

  • 高级模式建模
  • 压缩
  • 批量数据导入
  • 宽表/高表比较
  • HBase 和 Pig
  • HBase 和 Hive
  • HBase 性能调优
  • 实验: 调优 HBase, 从 Pig 和 Hive 访问 HBase 数据, 使用 Phoenix 进行数据建模

最低要求

  • 熟悉Java編程語言(大多數編程練習使用Java)。
  • 熟悉Linux環境(能夠使用Linux命令行,使用vi/nano編輯文件)。
  • 具備Hadoop的基本知識。

實驗環境

零安裝:無需在學生的機器上安裝Hadoop軟件!將爲學生提供一個可用的Hadoop集羣。

學生需要具備以下條件:

 21 時間:

人數


每位參與者的報價

客戶評論 (5)

Provisional Upcoming Courses (Require 5+ participants)

課程分類