課程簡介
數據倉庫概念
- 什麼是 Data Ware?
- OLTP 和 Data Ware Housing 之間的區別
- 數據採集
- 數據提取
- 數據轉換。
- 數據載入
- 數據集市
- 從屬數據集市與獨立數據集市
- 資料庫設計
ETL 測試概念:
- 介紹。
- 軟體開發生命週期。
- 測試方法。
- ETL 測試工作流程。
- 數據階段的 ETL 測試職責。
大數據基礎
- Big Data 及其在企業界的作用
- 公司內部 Big Data 戰略的發展階段
- 解釋整體方法的基本原理 Big Data
- Big Data 平臺所需的元件
- 大數據存儲解決方案
- 傳統技術的局限性
- 資料庫類型概述
否SQL 資料庫
Hadoop
Map Reduce(地圖縮減)
Apache Spark
Open Training Courses require 5+ participants.
Big Data & Database Systems Fundamentals培訓 - Booking
Big Data & Database Systems Fundamentals培訓 - Enquiry
Big Data & Database Systems Fundamentals - 咨詢詢問
咨詢詢問
客戶評論 (5)
很多實際的例子,處理同一問題的不同方法,有時還不那麼明顯的技巧如何改進當前的解決方案
Rafal - Nordea
Course - Apache Spark MLlib
機器翻譯
how the trainor shows his knowledge in the subject he's teachign
john ernesto ii fernandez - Philippine AXA Life Insurance Corporation
Course - Data Vault: Building a Scalable Data Warehouse
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Course - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Course - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Course - Apache NiFi for Developers
Provisional Upcoming Courses (Require 5+ participants)
相關課程
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 時間:本課程面向希望在其應用程式中理解和實施人工智慧的開發人員和數據科學家。 特別關注數據分析、分散式人工智慧和自然語言處理。
Unified Batch and Stream Processing with Apache Beam
14 時間:Apache Beam 是一個開源的統一程式設計模型,用於定義和執行並行數據處理管道。它的強大之處在於它能夠同時運行批處理和流式管道,執行由 Beam 支援的分散式處理後端之一執行:Apache Apex、Apache Flink、Apache Spark 和 Google Cloud Dataflow。Apache Beam 對於 ETL(提取、轉換和載入)任務非常有用,例如在不同的存儲介質和數據源之間移動數據、將數據轉換為更理想的格式以及將數據載入到新系統。
在這個由講師指導的現場培訓(現場或遠端)中,參與者將學習如何在 Java 或 Python 應用程式中實施 Apache Beam SDK,該應用程式定義了一個數據處理管道,用於將大數據集分解成更小的塊,以進行獨立的並行處理。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Apache Beam。
- 使用單個程式設計模型從其 Java 或 Python 應用程式執行批處理和流處理。
- 跨多個環境執行管道。
課程形式
- 部分講座、部分討論、練習和大量動手實踐
注意
- 本課程將在未來提供 Scala。請聯繫我們安排。
NoSQL Database with Microsoft Azure Cosmos DB
14 時間:這種由講師指導的香港 現場培訓(現場或遠端)面向希望使用Microsoft Azure Cosmos DB開發和管理高回應和低延遲應用程式的資料庫管理員或開發人員。
在培訓結束時,參與者將能夠:
- 預配必要的 Cosmos DB 資源以開始生成資料庫和應用程式。
- 利用 Cosmos DB 中的 API 縮放應用程式效能和儲存。
- 通過優化 Cosmos DB 資源來管理資料庫操作並降低成本。
Data Vault: Building a Scalable Data Warehouse
28 時間:在這個由 香港 講師指導的現場培訓中,參與者將學習如何構建 Data Vault。
在本次培訓結束時,參與者將能夠:
- 瞭解 Data Vault 2.0 背後的架構和設計概念,以及它與 Big Data、NoSQL 和 AI 的交互。
- 使用數據保險庫技術對數據倉庫中的歷史數據進行審計、跟蹤和檢查。
- 開發一致且可重複的 ETL(提取、轉換、載入)流程。
- 構建和部署高度可擴展且可重複的倉庫。
Flink for Scalable Stream and Batch Data Processing
28 時間:這個由 香港 的講師指導式現場培訓(在線或現場)介紹了分散式流和批處理數據處理背後的原理和方法,並引導參與者在 Apache Flink 中創建實時數據流應用程式。
在本次培訓結束時,參與者將能夠:
- 設置用於開發數據分析應用程式的環境。
- 瞭解 Apache Flink 的 圖形處理庫 (Gelly) 的工作原理。
- 打包、執行和監控基於 Flink 的容錯數據流應用程式。
- 管理各種工作負載。
- 執行高級分析。
- 設置多節點 Flink 集群。
- 衡量和優化性能。
- 將 Flink 與不同的 Big Data 系統集成。
- 將 Flink 功能與其他大數據處理框架的功能進行比較。
Introduction to Graph Computing
28 時間:在這個由 香港 的講師指導式現場培訓中,參與者將瞭解用於處理圖形數據的技術產品和實施方法。目的是識別現實世界的物件、它們的特徵和關係,然後對這些關係進行建模,並使用 Graph Computing(也稱為圖形分析)方法將它們作為數據處理。我們從廣泛的概述開始,然後逐步完成一系列案例研究、動手練習和即時部署,然後縮小具體工具的範圍。
在本次培訓結束時,參與者將能夠:
- 瞭解如何持久保存和遍歷圖形數據。
- 為給定任務選擇最佳框架(從圖形資料庫到批處理框架)。
- 實現 Hadoop、Spark GraphX 和 Pregel 以跨多台機器並行執行圖計算。
- 從圖形、流程和遍歷的角度查看真實的大數據問題。
Hortonworks Data Platform (HDP) for Administrators
21 時間:這個由講師指導的現場培訓在 香港(在線或現場)介紹 Hortonworks Data Platform (HDP) 並引導參與者完成Spark + Hadoop 解決方案的部署。
在本次培訓結束時,參與者將能夠:
- 使用 Hortonworks 可靠地大規模運行 Hadoop。
- 將 Hadoop 的安全、治理和運營功能與Spark的敏捷分析工作流統一起來。
- 使用 Hortonworks 調查、驗證、認證和支援 Spark 專案中的每個元件。
- 處理不同類型的數據,包括結構化、非結構化、動態和靜態數據。
Data Analysis with Hive/HiveQL
7 時間:本課程介紹如何從Hive提取數據的人員使用Hive SQL語言(AKA: Hive HQL, Hive SQL , Hive QL)
Impala for Business Intelligence
21 時間:Cloudera Impala 是適用於 Apache Hadoop 集群的開源大規模並行處理 (MPP) SQL 查詢引擎。
Impala 使用戶能夠 對存儲在 Hadoop 分散式文件系統 和 Apache Hbase 中的數據發出低延遲 SQL 查詢,而無需移動或轉換數據。
觀眾
本課程面向 分析師和數據科學家,他們通過 Business Intelligence 或 SQL 工具對存儲在 Hadoop 中的數據進行分析。
完成本課程后,學員將能夠
- 使用 Impala 從 Hadoop 集群中提取有意義的資訊。
- 編寫特定的程序以促進 Impala SQL 方言的 Business 智慧。
- 故障排除 Impala。
Confluent KSQL
7 時間:這個由 講師指導的 香港 現場培訓(在線或現場)面向希望在不編寫代碼的情況下實現 Apache Kafka 流處理的開發人員。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Confluent KSQL。
- 僅使用 SQL 命令(無 Java 或 Python 編碼)設置流處理管道。
- 完全在 SQL 中執行數據過濾、轉換、聚合、連接、視窗化和會話化。
- 為流式 ETL 和即時分析設計和部署互動式連續查詢。
Apache NiFi for Administrators
21 時間:在這個以講師為主導的香港現場或遠端培訓中,參與者將學習如何在實時實驗室環境中部署和管理Apache NiFi。
在培訓結束時,參與者將能夠:
- 安裝並配置 Apachi NiFi。
- 從不同的分散式數據源(包括資料庫和大數據湖)中獲取、轉換和管理數據。
- 自動化數據流。
- 啟用流分析。
- 應用各種方法進行數據引入。
- 轉換 Big Data 並轉化為業務洞察。
Apache NiFi for Developers
7 時間:在這個由講師指導的 香港 現場培訓中,參與者將學習基於流程的程式設計的基礎知識,因為他們使用 Apache NiFi 開發許多演示擴展、元件和處理器。
在培訓結束時,參與者將能夠:
- 瞭解 NiFi 的架構和數據流概念。
- 使用 NiFi 和第三方 API 開發擴展。
- 定製開發自己的Apache Nifi處理器。
- 從不同和不常見的檔格式和數據源中攝取和處理實時數據。
Python and Spark for Big Data (PySpark)
21 時間:在這個由講師指導的 香港 現場培訓中,參與者將學習如何在動手練習中同時使用 Python 和 Spark 來分析大數據。
在培訓結束時,參與者將能夠:
- 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
- 進行模仿真實世界案例的練習。
- 使用 PySpark 使用不同的工具和技術進行大數據分析。
Spark Streaming with Python and Kafka
7 時間:這種以講師為主導的香港現場培訓(現場或遠端)針對希望使用Spark Streaming功能處理和分析即時數據的數據工程師,數據科學家和程式師。
在本次培訓結束時,參與者將能夠使用 Spark Streaming 處理實時數據流,以便在資料庫、文件系統和即時儀錶板中使用。
Apache Spark MLlib
35 時間:MLlib是Spark的機器學習(ML)庫。其目標是使實用的機器學習可擴展且簡單。它由常見的學習算法和實用程序組成,包括分類,回歸,聚類,協同過濾,降維,以及低級優化原語和更高級別的管道API。
它分為兩個包:
spark.mllib包含在RDD之上構建的原始API。
spark.ml提供了構建在DataFrame之上的更高級API,用於構建ML管道。
聽眾
本課程面向希望利用Apache Spark內置機器庫的工程師和開發人員