課程簡介

第一部分:Hadoop簡介

  • Hadoop歷史與概念
  • 生態系統
  • 發行版
  • 高層架構
  • Hadoop的誤區
  • Hadoop的挑戰
  • 硬件/軟件
  • 實驗:初識Hadoop

第二部分:HDFS

  • 設計與架構
  • 概念(水平擴展、複製、數據局部性、機架感知)
  • 守護進程:Namenode、Secondary namenode、Data node
  • 通信/心跳
  • 數據完整性
  • 讀/寫路徑
  • Namenode高可用性(HA)、聯邦
  • 實驗:與HDFS交互

第三部分:MapReduce

  • 概念與架構
  • 守護進程(MRV1):jobtracker/tasktracker
  • 階段:驅動、映射、洗牌/排序、歸約
  • MapReduce版本1與版本2(YARN)
  • MapReduce內部機制
  • Java MapReduce程序簡介
  • 實驗:運行示例MapReduce程序

第四部分:Pig

  • Pig與Java MapReduce對比
  • Pig作業流程
  • Pig Latin語言
  • 使用Pig進行ETL
  • 轉換與連接
  • 用戶定義函數(UDF)
  • 實驗:編寫Pig腳本分析數據

第五部分:Hive

  • 架構與設計
  • 數據類型
  • Hive中的SQL支持
  • 創建Hive表與查詢
  • 分區
  • 連接
  • 文本處理
  • 實驗:使用Hive處理數據的多個實驗

第六部分:HBase

  • 概念與架構
  • HBase與RDBMS、Cassandra對比
  • HBase Java API
  • HBase中的時間序列數據
  • 模式設計
  • 實驗:使用Shell與HBase交互;使用HBase Java API編程;模式設計練習

最低要求

  • 熟悉Java編程語言(大多數編程練習使用Java)
  • 熟悉Linux環境(能夠使用Linux命令行,使用vi/nano編輯文件)

實驗環境

零安裝:無需在學生機器上安裝Hadoop軟件!將爲學生提供一個可用的Hadoop集羣。

學生需要準備以下內容

  • SSH客戶端(Linux和Mac已自帶ssh客戶端,Windows推薦使用Putty)
  • 瀏覽器訪問集羣,推薦使用Firefox
 28 時間:

人數


每位參與者的報價

客戶評論 (5)

即將到來的課程

課程分類