課程簡介

第一部分:Hadoop 简介

  • Hadoop 历史与概念
  • 生态系统
  • 发行版
  • 高层架构
  • Hadoop 误区
  • Hadoop 挑战
  • 硬件/软件
  • 实验:初识 Hadoop

第二部分:HDFS

  • 设计与架构
  • 概念(水平扩展、复制、数据本地性、机架感知)
  • 守护进程:Namenode、Secondary namenode、Data node
  • 通信/心跳
  • 数据完整性
  • 读/写路径
  • Namenode 高可用性 (HA)、联邦
  • 实验:与 HDFS 交互

第三部分:Map Reduce

  • 概念与架构
  • 守护进程 (MRV1):jobtracker / tasktracker
  • 阶段:driver、mapper、shuffle/sort、reducer
  • Map Reduce 版本 1 和版本 2 (YARN)
  • Map Reduce 内部机制
  • Java Map Reduce 程序简介
  • 实验:运行一个 MapReduce 示例程序

第四部分:Pig

  • Pig 与 Java Map Reduce 对比
  • Pig 作业流程
  • Pig Latin 语言
  • 使用 Pig 进行 ETL
  • 转换与连接
  • 用户定义函数 (UDF)
  • 实验:编写 Pig 脚本来分析数据

第五部分:Hive

  • 架构与设计
  • 数据类型
  • Hive 中的 SQL 支持
  • 创建 Hive 表与查询
  • 分区
  • 连接
  • 文本处理
  • 实验:使用 Hive 处理数据的多个实验

第六部分:HBase

  • 概念与架构
  • HBase 与 RDBMS 与 Cassandra 对比
  • HBase Java API
  • HBase 上的时间序列数据
  • 模式设计
  • 实验:使用 shell 与 HBase 交互;使用 HBase Java API 编程;模式设计练习

最低要求

  • 熟悉Java编程语言(大多数编程练习使用Java)
  • 熟悉Linux环境(能够使用Linux命令行,使用vi / nano编辑文件)

实验环境

零安装:无需在学生机器上安装Hadoop软件!将为学生提供一个可用的Hadoop集群。

学生需要准备以下内容

  • 一个SSH客户端(Linux和Mac已经自带SSH客户端,Windows推荐使用Putty)
  • 一个浏览器来访问集群,推荐使用Firefox
 28 時間:

人數


每位參與者的報價

客戶評論 (5)

Provisional Upcoming Courses (Require 5+ participants)

課程分類