數據流與即時數據處理培訓
課程概述
本課程提供了一種實用且結構化的方法,介紹如何構建即時數據流系統。課程涵蓋核心概念、架構模式以及用於大規模處理連續數據的行業工具。參與者將學習如何使用現代框架設計、實現和優化流處理管道。課程從基礎概念逐步過渡到實際應用,使學員能夠自信地構建生產就緒的即時解決方案。
培訓形式
• 講師引導的課程,附帶詳細講解
• 結合真實案例的概念講解
• 動手演示與編碼練習
• 與每日主題相關的漸進式實驗
• 互動討論與問答環節
課程目標
• 理解即時數據流概念與系統架構
• 區分批處理與流數據處理模型
• 設計可擴展且容錯的流處理管道
• 使用分佈式流處理工具與框架
• 應用事件時間處理、窗口操作與有狀態操作
爲業務用例構建並優化即時數據解決方案
課程簡介
課程大綱 第1天
• 數據流概念介紹
• 批處理與即時處理基礎
• 事件驅動架構基礎
• 行業中的常見用例
• 流處理生態系統概覽
第2天
• 流處理架構設計模式
• 分佈式消息系統基礎
• 生產者與消費者
• 主題、分區與數據流
• 數據攝取策略
第3天
• 流處理概念與框架
• 事件時間與處理時間
• 窗口技術與用例
• 有狀態流處理
• 容錯與檢查點基礎
第4天
• 流處理管道中的數據轉換
• 即時系統中的ETL與ELT
• 模式管理與演進
• 流連接與數據增強
• 基於雲的流處理服務介紹
第5天
• 流處理系統中的監控與可觀測性
• 安全與訪問控制基礎
• 性能調優與優化
• 端到端管道設計回顧
• 真實用例,如欺詐檢測與物聯網處理
公開培訓課程需要5名以上參與者。
數據流與即時數據處理培訓 - 訂單
數據流與即時數據處理培訓 - 詢問
數據流與即時數據處理 - 咨詢詢問
客戶評論 (1)
實踐練習。課程本應爲5天,但3天的學習幫助我解決了在使用NiFi時遇到的許多問題。
James - BHG Financial
課程 - Apache NiFi for Administrators
機器翻譯
即將到來的課程
相關課程
高級Apache Iceberg
21 小時本課程爲講師指導的線下或線上培訓,面向高級數據專業人員,旨在優化數據處理工作流程,確保數據完整性,並實施強大的數據湖倉解決方案,以應對現代大數據應用的複雜性。
培訓結束後,學員將能夠:
- 深入瞭解Iceberg的架構,包括元數據管理和文件佈局。
- 在各種環境中配置Iceberg以實現最佳性能,並將其與多種數據處理引擎集成。
- 管理大規模Iceberg表,執行復雜的模式變更,並處理分區演化。
- 掌握優化查詢性能和數據掃描效率的技術,適用於大規模數據集。
- 實施機制以確保數據一致性,管理事務保證,並處理分佈式環境中的故障。
Apache Iceberg 基礎
14 小時本課程爲講師指導的線下或線上培訓,面向初級數據專業人士,旨在幫助他們掌握使用Apache Iceberg管理大規模數據集、確保數據完整性和優化數據處理工作流程所需的知識與技能。
培訓結束後,學員將能夠:
- 深入瞭解Apache Iceberg的架構、功能和優勢。
- 學習表格式、分區、模式演進和時間旅行功能。
- 在不同環境中安裝和配置Apache Iceberg。
- 創建、管理和操作Iceberg表。
- 瞭解如何將數據從其他表格式遷移到Iceberg。
使用Google Colab和Apache Spark進行大數據分析
14 小時本課程爲講師指導的培訓,在香港(線上或線下)進行,面向希望使用Google Colab和Apache Spark進行大數據處理和分析的中級數據科學家和工程師。
通過本課程,學員將能夠:
- 使用Google Colab和Spark搭建大數據環境。
- 利用Apache Spark高效處理和分析大型數據集。
- 在協作環境中可視化大數據。
- 將Apache Spark與基於雲的工具集成。
Big Data Business Intelligence for Govt. Agencies
35 小時技術進步和信息量的增加正在改變許多行業的業務模式,包括政府機構。由於移動設備和應用、智能傳感器和設備、雲計算解決方案以及面向公民的門戶的快速增長,政府數據生成和數字存檔率正在上升。隨着數字信息的擴展和複雜化,信息管理、處理、存儲、安全和處置也變得更加複雜。新的捕獲、搜索、發現和分析工具正在幫助組織從其非結構化數據中獲得洞察。政府市場正處於一個轉折點,意識到信息是一種戰略資產,政府需要保護、利用和分析結構化和非結構化信息,以更好地服務和滿足任務需求。隨着政府領導者努力發展數據驅動的組織以成功完成任務,他們正在爲跨事件、人員、流程和信息的依賴關係奠定基礎。
高價值的政府解決方案將由最具顛覆性的技術組合而成:
- 移動設備和應用
- 雲服務
- 社交商業技術和網絡
- 大數據和分析
大數據是智能行業解決方案之一,它使政府能夠通過分析大量數據(相關和不相關、結構化和非結構化)揭示的模式來做出更好的決策。
但實現這些成就遠不止簡單地積累大量數據。白宮科技政策辦公室的Tom Kalil和Fen Zhao在OSTP博客的一篇文章中寫道:“理解這些大數據量需要尖端工具和技術,能夠從大量和多樣化的信息流中分析和提取有用的知識。”
白宮在2012年設立了國家大數據研究與開發計劃,朝着幫助機構找到這些技術邁出了一步。該計劃包括超過2億美元,以充分利用大數據的爆炸式增長及其分析工具。
大數據帶來的挑戰幾乎與其承諾一樣令人望而生畏。高效存儲數據是這些挑戰之一。預算總是緊張的,因此機構必須最大限度地降低每兆字節的存儲成本,並確保數據易於訪問,以便用戶能夠在需要時獲取數據。備份大量數據進一步加劇了這一挑戰。
有效分析數據是另一個主要挑戰。許多機構採用商業工具,使他們能夠篩選大量數據,發現有助於提高運營效率的趨勢。(MeriTalk最近的一項研究發現,聯邦IT高管認爲大數據可以幫助機構節省超過5000億美元,同時還能實現任務目標。)
定製開發的大數據工具也允許機構滿足分析數據的需求。例如,橡樹嶺國家實驗室的計算數據分析組已將其Piranha數據分析系統提供給其他機構。該系統幫助醫學研究人員找到了一種可以在主動脈瘤發作前提醒醫生的鏈接。它還用於更平凡的任務,例如篩選簡歷以將求職者與招聘經理聯繫起來。
Data Analysis和Big Data的實用介紹 - 3天
21 小時在 香港 完成此講師指導的現場培訓的參與者將獲得對 Big Data 及其相關技術、方法和工具的實用、真實理解。
參與者將有機會通過動手練習將這些知識付諸實踐。小組互動和教師反饋構成了課程的重要組成部分。
本課程首先介紹了 Big Data 的基本概念,然後進入用於執行 Data Analysis 的程式設計語言和方法。最後,我們討論了支援 Big Data 存儲、分散式處理和 Scala 特性的工具和基礎設施。
Big Data 和高級分析
42 小時Big Data 和高級分析是應用複雜技術和工具來分析大型、複雜數據集,以獲取可操作的洞察和戰略決策支持。
本次由講師指導的培訓(線上或線下)面向高級數據專業人員,旨在幫助他們利用前沿的分析方法和大數據技術進行預測性、規範性和即時性分析。
培訓結束後,參與者將能夠:
- 設計和實施大規模數據處理管道,處理結構化和非結構化數據。
- 將高級機器學習和深度學習技術應用於海量數據集。
- 利用分佈式計算框架進行即時分析和數據流處理。
- 將大數據分析集成到商業智能和決策支持系統中。
課程形式
- 互動式講座和討論。
- 大量練習和實踐。
- 在即時實驗環境中進行動手操作。
課程定製選項
- 如需爲本課程定製培訓,請聯繫我們安排。
Apache NiFi for Administrators
21 小時Apache NiFi 是一個開源的、基於數據流的數據集成和事件處理平臺。它支持自動化的即時數據路由、轉換和系統中介,通過基於 Web 的用戶界面和細粒度的控制,連接不同的系統。
本次由講師主導的培訓(線下或遠程)面向中級管理員和工程師,旨在幫助他們部署、管理、保護和優化生產環境中的 NiFi 數據流。
培訓結束後,參與者將能夠:
- 安裝、配置和維護 Apache NiFi 集羣。
- 設計和管理來自不同源和目的地的數據流。
- 實現流的自動化、路由和轉換邏輯。
- 優化性能、監控操作並解決問題。
課程形式
- 互動講座,結合實際架構討論。
- 動手實驗:構建、部署和管理數據流。
- 在即時實驗室環境中進行基於場景的練習。
課程定製選項
- 如需定製本課程,請聯繫我們安排。
PySpark與機器學習
21 小時本培訓提供了一個實用的入門指南,介紹如何使用PySpark構建可擴展的數據處理和機器學習工作流。參與者將學習Apache Spark在現代大數據生態系統中的運作方式,以及如何利用分佈式計算原理高效處理大規模數據集。
Apache Spark基礎
21 小時這種以講師為主導的香港現場培訓(現場或遠端)針對的是希望建立和部署Apache Spark系統以處理大量數據的工程師。
在培訓結束時,參與者將能夠:
- 安裝和配置 Apache Spark。
- 快速處理和分析非常大的數據集。
- 瞭解Apache Spark和Hadoop MapReduce之間的區別,以及何時使用哪個。
- 將 Apache Spark 與其他機器學習工具整合。
Apache Spark 管理
35 小時這種由講師指導的現場培訓香港(遠端或遠端)面向希望部署、維護和優化Spark集群的初級到中級系統管理員。
在培訓結束時,參與者將能夠:
- 在各種環境中安裝和配置 Apache Spark。
- 管理群集資源並監視Spark應用程式。
- 優化Spark集群性能。
- 實施安全措施並確保高可用性。
- 調試和排查常見的Spark問題。
Apache Spark 雲端應用
21 小時Apache Spark的學習曲線在開始時較爲平緩,但需要付出大量努力才能獲得初步回報。本課程旨在幫助學員跳過最初的學習難關。完成本課程後,學員將掌握Apache Spark的基礎知識,能夠清晰區分RDD與DataFrame,學習Python和Scala API,理解執行器和任務等。此外,課程還將遵循最佳實踐,重點關注雲部署、Databricks和AWS。學員還將瞭解AWS EMR與AWS Glue之間的區別,後者是AWS最新的Spark服務之一。
受衆:
數據工程師、DevOps、數據科學家
Python與Spark大數據分析(PySpark)
21 小時在這個由講師指導的 香港 現場培訓中,參與者將學習如何在動手練習中同時使用 Python 和 Spark 來分析大數據。
在培訓結束時,參與者將能夠:
- 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
- 進行模仿真實世界案例的練習。
- 使用 PySpark 使用不同的工具和技術進行大數據分析。
Python、Spark和Hadoop在大數據中的應用
21 小時這種以講師為主導的香港現場培訓(現場或遠端)針對希望使用和集成Spark,Hadoop和Python以處理,分析和轉換大型複雜數據集的開發人員。
在培訓結束時,參與者將能夠:
- 設置必要的環境以開始使用 Spark、Hadoop 和 Python 處理大數據。
- 瞭解 Spark 和 Hadoop 的功能、核心元件和架構。
- 瞭解如何集成 Spark、Hadoop 和 Python 進行大數據處理。
- 探索 Spark 生態系統中的工具(Spark MlLib、Spark Streaming、Kafka、Sqoop、Kafka 和 Flume)。
- 構建類似於 Netflix、YouTube、Amazon、Spotify 和 Google 的協作過濾推薦系統。
- 使用 Apache Mahout 擴展機器學習演算法。
Stratio: 使用PySpark的Rocket與Intelligence模塊
14 小時Stratio是一個以數據爲中心的平臺,集成了大數據、人工智能和治理功能,提供一體化解決方案。其Rocket和Intelligence模塊支持在企業環境中快速進行數據探索、轉換和高級分析。
本次由講師指導的培訓(線上或線下)面向中級數據專業人員,旨在幫助他們有效使用Stratio中的Rocket和Intelligence模塊與PySpark,重點涵蓋循環結構、用戶自定義函數和高級數據邏輯。
培訓結束後,參與者將能夠:
- 在Stratio平臺中導航並使用Rocket和Intelligence模塊。
- 在數據攝取、轉換和分析中應用PySpark。
- 使用循環和條件邏輯控制數據工作流和特徵工程任務。
- 創建並管理用戶自定義函數(UDFs),以在PySpark中實現可重用的數據操作。
課程形式
- 互動式講座與討論。
- 大量練習與實踐。
- 在即時實驗室環境中進行動手操作。
課程定製選項
- 如需爲本課程定製培訓,請聯繫我們安排。