Administration of Apache Spark培訓
Apache Spark 是一個用於大規模數據處理的開源統一分析引擎。
這種由講師指導的現場培訓(遠端或遠端)面向希望部署、維護和優化Spark集群的初級到中級系統管理員。
在培訓結束時,參與者將能夠:
- 在各種環境中安裝和配置 Apache Spark。
- 管理群集資源並監視Spark應用程式。
- 優化Spark集群性能。
- 實施安全措施並確保高可用性。
- 調試和排查常見的Spark問題。
課程形式
- 互動講座和討論。
- 大量的練習和練習。
- 在現場實驗室環境中動手實施。
課程定製選項
- 如需申請本課程的定製培訓,請聯繫我們安排。
課程簡介
Apache Spark 簡介
- Spark在大數據處理中的作用
- Spark體系結構及其元件
設定Apache Spark
- 硬體和軟體要求
- 單機模式和集群模式的安裝過程
- 面向系統管理員的配置最佳實踐
管理 Spark 群集
- 群集管理工具和技術
- 監視 Spark 應用程式和群集資源
- 安全配置和使用者管理
性能調優和優化
- 資源分配和調度
- 調整 Spark 以獲得最佳性能
- 識別和解決常見瓶頸
故障排除和問題解決
- 常見的Spark管理挑戰
- 用於故障排除的診斷工具和技術
- 解決常見問題的分步方法
- 維護正常運行的 Spark 環境的最佳做法
高級管理主題
- 與其他大數據工具集成
- 確保高可用性和災難恢復
- 升級和擴展 Spark 群集
摘要和後續步驟
最低要求
- 網路配置和管理的基本知識
- 熟悉 Linux 操作系統和命令行介面
- 有興趣學習分散式計算系統和大數據管理
觀眾
- 系統管理員
Open Training Courses require 5+ participants.
Administration of Apache Spark培訓 - Booking
Administration of Apache Spark培訓 - Enquiry
Administration of Apache Spark - 咨詢詢問
咨詢詢問
客戶評論 (5)
很多實際的例子,處理同一問題的不同方法,有時還不那麼明顯的技巧如何改進當前的解決方案
Rafal - Nordea
Course - Apache Spark MLlib
機器翻譯
The live examples
Ahmet Bolat - Accenture Industrial SS
Course - Python, Spark, and Hadoop for Big Data
very interactive...
Richard Langford
Course - SMACK Stack for Data Science
Sufficient hands on, trainer is knowledgable
Chris Tan
Course - A Practical Introduction to Stream Processing
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Course - Apache Spark in the Cloud
Provisional Upcoming Courses (Require 5+ participants)
相關課程
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 時間:本課程面向希望在其應用程式中理解和實施人工智慧的開發人員和數據科學家。 特別關注數據分析、分散式人工智慧和自然語言處理。
Big Data Analytics with Google Colab and Apache Spark
14 時間:這項由 講師指導的現場培訓香港(在線或現場)面向希望使用 Google Colab 和 Apache Spark 進行大數據處理和分析的中級數據科學家和工程師。
在本次培訓結束時,參與者將能夠:
- 使用 Google Colab 和 Spark 設置大數據環境。
- 使用 Apache Spark 高效處理和分析大型數據集。
- 在協作環境中可視化大數據。
- 將 Apache Spark 與基於雲端的工具整合。
Big Data Analytics in Health
21 時間:大數據分析涉及檢查大量不同數據集的過程,以便發現相關性,隱藏模式和其他有用的見解。
健康產業擁有大量複雜的異構醫學和臨床數據。對健康數據應用大數據分析在獲得改善醫療保健服務的見解方面具有巨大潛力。然而,這些數據集的巨大性給分析和臨床環境的實際應用帶來了巨大挑戰。
在這個以講師為主導的現場培訓(遠程)中,參與者將學習如何在健康狀況下進行大數據分析,因為他們將逐步進行一系列動手實踐練習。
在培訓結束時,參與者將能夠:
- 安裝和配置大數據分析工具,如Hadoop MapReduce和Spark
- 了解醫療數據的特徵
- 應用大數據技術處理醫療數據
- 在健康應用的背景下研究大數據系統和算法
聽眾
- 開發商
- 數據科學家
課程格式
- 部分講座,部分討論,練習和繁重的實踐練習。
注意
- 要申請本課程的定制培訓,請聯繫我們安排。
Introduction to Graph Computing
28 時間:在這個由 香港 的講師指導式現場培訓中,參與者將瞭解用於處理圖形數據的技術產品和實施方法。目的是識別現實世界的物件、它們的特徵和關係,然後對這些關係進行建模,並使用 Graph Computing(也稱為圖形分析)方法將它們作為數據處理。我們從廣泛的概述開始,然後逐步完成一系列案例研究、動手練習和即時部署,然後縮小具體工具的範圍。
在本次培訓結束時,參與者將能夠:
- 瞭解如何持久保存和遍歷圖形數據。
- 為給定任務選擇最佳框架(從圖形資料庫到批處理框架)。
- 實現 Hadoop、Spark GraphX 和 Pregel 以跨多台機器並行執行圖計算。
- 從圖形、流程和遍歷的角度查看真實的大數據問題。
Hadoop and Spark for Administrators
35 時間:這種由講師指導的香港現場培訓(現場或遠端)針對的是希望學習如何在組織內設置,部署和管理Hadoop集群的系統管理員。
在培訓結束時,參與者將能夠:
- 安裝和配置 Apache Hadoop。
- 瞭解 Hadoop 生態系統中的四個主要元件:HDFS、MapReduce、YARN 和 Hadoop Common。
- 使用 Hadoop 分散式檔案系統 (HDFS) 將集群擴展到數百或數千個節點。
- 將 HDFS 設定為本地 Spark 部署的記憶體引擎。
- 設置 Spark 以存取替代儲存解決方案,例如 Amazon S3 和 NoSQL 資料庫系統,例如 Redis、Elasticsearch、Couchbase、Aerospike 等。
- 執行管理任務,例如配置、管理、監控和保護 Apache Hadoop 集群。
Hortonworks Data Platform (HDP) for Administrators
21 時間:這個由講師指導的現場培訓在 香港(在線或現場)介紹 Hortonworks Data Platform (HDP) 並引導參與者完成Spark + Hadoop 解決方案的部署。
在本次培訓結束時,參與者將能夠:
- 使用 Hortonworks 可靠地大規模運行 Hadoop。
- 將 Hadoop 的安全、治理和運營功能與Spark的敏捷分析工作流統一起來。
- 使用 Hortonworks 調查、驗證、認證和支援 Spark 專案中的每個元件。
- 處理不同類型的數據,包括結構化、非結構化、動態和靜態數據。
A Practical Introduction to Stream Processing
21 時間:在這個以講師為主導的香港現場培訓(現場或遠端)中,參與者將學習如何設置不同的Stream Processing框架並將其與現有的大數據存儲系統以及相關的軟體應用程式和微服務集成。
在培訓結束時,參與者將能夠:
- 安裝和配置不同的 Stream Processing 框架,例如 Spark Streaming 和 Kafka Streaming。
- 瞭解並選擇最適合工作的框架。
- 以逐條記錄的方式連續、併發地處理數據。
- 將 Stream Processing 解決方案與現有資料庫、數據倉庫、數據湖等集成。
- 將最合適的流處理庫與企業應用程式和微服務集成 。
SMACK Stack for Data Science
14 時間:這種以講師為主導的香港現場現場培訓針對的是希望使用SMACK堆棧為大數據解決方案構建數據處理平臺的數據科學家。
在培訓結束時,參與者將能夠:
- 實施用於處理大數據的數據管道體系結構。
- 使用 Apache Mesos 和 Docker 開發集群基礎架構。
- 使用 Spark 和 Scala 分析數據。
- 使用 Apache Cassandra 管理非結構化數據。
Apache Spark Fundamentals
21 時間:這種以講師為主導的香港現場培訓(現場或遠端)針對的是希望建立和部署Apache Spark系統以處理大量數據的工程師。
在培訓結束時,參與者將能夠:
- 安裝和配置 Apache Spark。
- 快速處理和分析非常大的數據集。
- 瞭解Apache Spark和Hadoop MapReduce之間的區別,以及何時使用哪個。
- 將 Apache Spark 與其他機器學習工具整合。
Apache Spark in the Cloud
21 時間:Apache Spark的學習曲線在開始時逐漸增加,需要付出很多努力來獲得第一次回歸。本課程旨在突破第一個艱難的部分。參加本課程後,參與者將了解Apache Spark的基礎知識,他們將明確區分RDD和DataFrame,他們將學習Python和Scala API,他們將理解執行者和任務等。同樣遵循最佳實踐,本課程重點關注雲部署,Databricks和AWS。學生還將了解AWS EMR與AWS Glue之間的差異,AWS Glue是AWS最新的Spark服務之一。
聽眾:
數據工程師, DevOps ,數據科學家
Spark for Developers
21 時間:目的:
本課程將介紹Apache Spark 。學生將學習Spark如何適應Big Data生態系統,以及如何使用Spark進行數據分析。該課程涵蓋Spark shell,用於交互式數據分析,Spark內部,Spark API,Spark SQL ,Spark流,機器學習和graphX。
聽眾:
開發人員/數據分析師
Scaling Data Pipelines with Spark NLP
14 時間:這種由 講師指導的 香港 現場培訓(在線或現場)面向希望使用 Spark NLP(基於 Apache Spark 構建)來開發、實施和擴展自然語言文本處理模型和管道的數據科學家和開發人員。
在本次培訓結束時,參與者將能夠:
- 設置必要的開發環境以開始使用 Spark NLP 構建 NLP 管道。
- 瞭解使用 Spark NLP 的功能、架構和優勢。
- 使用 Spark NLP 中提供的預訓練模型來實現文本處理。
- 瞭解如何為生產級項目構建、訓練和擴展 Spark NLP 模型。
- 對實際使用案例(臨床數據、客戶行為洞察等)應用分類、推理和情緒分析。
Python and Spark for Big Data (PySpark)
21 時間:在這個由講師指導的 香港 現場培訓中,參與者將學習如何在動手練習中同時使用 Python 和 Spark 來分析大數據。
在培訓結束時,參與者將能夠:
- 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
- 進行模仿真實世界案例的練習。
- 使用 PySpark 使用不同的工具和技術進行大數據分析。
Python, Spark, and Hadoop for Big Data
21 時間:這種以講師為主導的香港現場培訓(現場或遠端)針對希望使用和集成Spark,Hadoop和Python以處理,分析和轉換大型複雜數據集的開發人員。
在培訓結束時,參與者將能夠:
- 設置必要的環境以開始使用 Spark、Hadoop 和 Python 處理大數據。
- 瞭解 Spark 和 Hadoop 的功能、核心元件和架構。
- 瞭解如何集成 Spark、Hadoop 和 Python 進行大數據處理。
- 探索 Spark 生態系統中的工具(Spark MlLib、Spark Streaming、Kafka、Sqoop、Kafka 和 Flume)。
- 構建類似於 Netflix、YouTube、Amazon、Spotify 和 Google 的協作過濾推薦系統。
- 使用 Apache Mahout 擴展機器學習演算法。
Apache Spark MLlib
35 時間:MLlib是Spark的機器學習(ML)庫。其目標是使實用的機器學習可擴展且簡單。它由常見的學習算法和實用程序組成,包括分類,回歸,聚類,協同過濾,降維,以及低級優化原語和更高級別的管道API。
它分為兩個包:
spark.mllib包含在RDD之上構建的原始API。
spark.ml提供了構建在DataFrame之上的更高級API,用於構建ML管道。
聽眾
本課程面向希望利用Apache Spark內置機器庫的工程師和開發人員