Programming with Big Data in R培訓
Big Data是指用於存儲和處理大型數據集的解決方案。最初由Go ogle開發,這些Big Data解決方案已經發展並啟發了其他類似的項目,其中許多項目都是開源的。 R是金融行業中流行的編程語言。
課程簡介
Programming Big Data with R (bpdR) 簡介
- 設置環境以使用 pbdR
- pbdR 中可用的範圍和工具
- 通常與 Big Data 和 pbdR 一起使用的封裝
訊息傳遞介面 (MPI)
- 使用 pbdR MPI 5
- 並行處理
- 點對點通信
- 發送矩陣
- 求和矩陣
- 集體溝通
- 用Reduce對矩陣求和
- 分散/聚集
- 其他 MPI 通信
分散式矩陣
- 創建分散式對角矩陣
- 分散式矩陣的SVD
- 並行構建分散式矩陣
Statistics 應用
- 蒙特卡羅積分
- 讀取數據集
- 閱讀所有流程
- 從一個進程進行廣播
- 讀取分區數據
- 分散式回歸
- 分散式 Bootstrap
Open Training Courses require 5+ participants.
Programming with Big Data in R培訓 - Booking
Programming with Big Data in R培訓 - Enquiry
Programming with Big Data in R - 咨詢詢問
咨詢詢問
客戶評論 (2)
The subject matter and the pace were perfect.
Tim - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Course - Programming with Big Data in R
Michael the trainer is very knowledgeable and skillful about the subject of Big Data and R. He is very flexible and quickly customize the training meeting clients' need. He is also very capable to solve technical and subject matter problems on the go. Fantastic and professional training!.
Xiaoyuan Geng - Ottawa Research and Development Center, Science Technology Branch, Agriculture and Agri-Food Canada
Course - Programming with Big Data in R
Provisional Upcoming Courses (Require 5+ participants)
相關課程
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 時間:本課程面向希望在其應用程式中理解和實施人工智慧的開發人員和數據科學家。 特別關注數據分析、分散式人工智慧和自然語言處理。
Unified Batch and Stream Processing with Apache Beam
14 時間:Apache Beam 是一個開源的統一程式設計模型,用於定義和執行並行數據處理管道。它的強大之處在於它能夠同時運行批處理和流式管道,執行由 Beam 支援的分散式處理後端之一執行:Apache Apex、Apache Flink、Apache Spark 和 Google Cloud Dataflow。Apache Beam 對於 ETL(提取、轉換和載入)任務非常有用,例如在不同的存儲介質和數據源之間移動數據、將數據轉換為更理想的格式以及將數據載入到新系統。
在這個由講師指導的現場培訓(現場或遠端)中,參與者將學習如何在 Java 或 Python 應用程式中實施 Apache Beam SDK,該應用程式定義了一個數據處理管道,用於將大數據集分解成更小的塊,以進行獨立的並行處理。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Apache Beam。
- 使用單個程式設計模型從其 Java 或 Python 應用程式執行批處理和流處理。
- 跨多個環境執行管道。
課程形式
- 部分講座、部分討論、練習和大量動手實踐
注意
- 本課程將在未來提供 Scala。請聯繫我們安排。
Data Vault: Building a Scalable Data Warehouse
28 時間:在這個由 香港 講師指導的現場培訓中,參與者將學習如何構建 Data Vault。
在本次培訓結束時,參與者將能夠:
- 瞭解 Data Vault 2.0 背後的架構和設計概念,以及它與 Big Data、NoSQL 和 AI 的交互。
- 使用數據保險庫技術對數據倉庫中的歷史數據進行審計、跟蹤和檢查。
- 開發一致且可重複的 ETL(提取、轉換、載入)流程。
- 構建和部署高度可擴展且可重複的倉庫。
Flink for Scalable Stream and Batch Data Processing
28 時間:這個由 香港 的講師指導式現場培訓(在線或現場)介紹了分散式流和批處理數據處理背後的原理和方法,並引導參與者在 Apache Flink 中創建實時數據流應用程式。
在本次培訓結束時,參與者將能夠:
- 設置用於開發數據分析應用程式的環境。
- 瞭解 Apache Flink 的 圖形處理庫 (Gelly) 的工作原理。
- 打包、執行和監控基於 Flink 的容錯數據流應用程式。
- 管理各種工作負載。
- 執行高級分析。
- 設置多節點 Flink 集群。
- 衡量和優化性能。
- 將 Flink 與不同的 Big Data 系統集成。
- 將 Flink 功能與其他大數據處理框架的功能進行比較。
Introduction to Graph Computing
28 時間:在這個由 香港 的講師指導式現場培訓中,參與者將瞭解用於處理圖形數據的技術產品和實施方法。目的是識別現實世界的物件、它們的特徵和關係,然後對這些關係進行建模,並使用 Graph Computing(也稱為圖形分析)方法將它們作為數據處理。我們從廣泛的概述開始,然後逐步完成一系列案例研究、動手練習和即時部署,然後縮小具體工具的範圍。
在本次培訓結束時,參與者將能夠:
- 瞭解如何持久保存和遍歷圖形數據。
- 為給定任務選擇最佳框架(從圖形資料庫到批處理框架)。
- 實現 Hadoop、Spark GraphX 和 Pregel 以跨多台機器並行執行圖計算。
- 從圖形、流程和遍歷的角度查看真實的大數據問題。
Hortonworks Data Platform (HDP) for Administrators
21 時間:這個由講師指導的現場培訓在 香港(在線或現場)介紹 Hortonworks Data Platform (HDP) 並引導參與者完成Spark + Hadoop 解決方案的部署。
在本次培訓結束時,參與者將能夠:
- 使用 Hortonworks 可靠地大規模運行 Hadoop。
- 將 Hadoop 的安全、治理和運營功能與Spark的敏捷分析工作流統一起來。
- 使用 Hortonworks 調查、驗證、認證和支援 Spark 專案中的每個元件。
- 處理不同類型的數據,包括結構化、非結構化、動態和靜態數據。
Data Analysis with Hive/HiveQL
7 時間:本課程介紹如何從Hive提取數據的人員使用Hive SQL語言(AKA: Hive HQL, Hive SQL , Hive QL)
Impala for Business Intelligence
21 時間:Cloudera Impala 是適用於 Apache Hadoop 集群的開源大規模並行處理 (MPP) SQL 查詢引擎。
Impala 使用戶能夠 對存儲在 Hadoop 分散式文件系統 和 Apache Hbase 中的數據發出低延遲 SQL 查詢,而無需移動或轉換數據。
觀眾
本課程面向 分析師和數據科學家,他們通過 Business Intelligence 或 SQL 工具對存儲在 Hadoop 中的數據進行分析。
完成本課程后,學員將能夠
- 使用 Impala 從 Hadoop 集群中提取有意義的資訊。
- 編寫特定的程序以促進 Impala SQL 方言的 Business 智慧。
- 故障排除 Impala。
Confluent KSQL
7 時間:這個由 講師指導的 香港 現場培訓(在線或現場)面向希望在不編寫代碼的情況下實現 Apache Kafka 流處理的開發人員。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Confluent KSQL。
- 僅使用 SQL 命令(無 Java 或 Python 編碼)設置流處理管道。
- 完全在 SQL 中執行數據過濾、轉換、聚合、連接、視窗化和會話化。
- 為流式 ETL 和即時分析設計和部署互動式連續查詢。
Apache NiFi for Administrators
21 時間:在這個以講師為主導的香港現場或遠端培訓中,參與者將學習如何在實時實驗室環境中部署和管理Apache NiFi。
在培訓結束時,參與者將能夠:
- 安裝並配置 Apachi NiFi。
- 從不同的分散式數據源(包括資料庫和大數據湖)中獲取、轉換和管理數據。
- 自動化數據流。
- 啟用流分析。
- 應用各種方法進行數據引入。
- 轉換 Big Data 並轉化為業務洞察。
Apache NiFi for Developers
7 時間:在這個由講師指導的 香港 現場培訓中,參與者將學習基於流程的程式設計的基礎知識,因為他們使用 Apache NiFi 開發許多演示擴展、元件和處理器。
在培訓結束時,參與者將能夠:
- 瞭解 NiFi 的架構和數據流概念。
- 使用 NiFi 和第三方 API 開發擴展。
- 定製開發自己的Apache Nifi處理器。
- 從不同和不常見的檔格式和數據源中攝取和處理實時數據。
Python and Spark for Big Data (PySpark)
21 時間:在這個由講師指導的 香港 現場培訓中,參與者將學習如何在動手練習中同時使用 Python 和 Spark 來分析大數據。
在培訓結束時,參與者將能夠:
- 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
- 進行模仿真實世界案例的練習。
- 使用 PySpark 使用不同的工具和技術進行大數據分析。
Spark Streaming with Python and Kafka
7 時間:這種以講師為主導的香港現場培訓(現場或遠端)針對希望使用Spark Streaming功能處理和分析即時數據的數據工程師,數據科學家和程式師。
在本次培訓結束時,參與者將能夠使用 Spark Streaming 處理實時數據流,以便在資料庫、文件系統和即時儀錶板中使用。
Apache Spark MLlib
35 時間:MLlib是Spark的機器學習(ML)庫。其目標是使實用的機器學習可擴展且簡單。它由常見的學習算法和實用程序組成,包括分類,回歸,聚類,協同過濾,降維,以及低級優化原語和更高級別的管道API。
它分為兩個包:
spark.mllib包含在RDD之上構建的原始API。
spark.ml提供了構建在DataFrame之上的更高級API,用於構建ML管道。
聽眾
本課程面向希望利用Apache Spark內置機器庫的工程師和開發人員
Introduction to Data Visualization with Tidyverse and R
7 時間:Tidyverse是一系列多功能R包,用於清潔,處理,建模和可視化數據。包括的一些包是:ggplot2,dplyr,tidyr,readr,purrr和tibble。
在這個由講師指導的實時培訓中,參與者將學習如何使用Tidyverse包含的工具來操縱和可視化數據。
在培訓結束時,參與者將能夠:
- 執行數據分析並創建吸引人的可視化
- 從樣本數據的各種數據集中得出有用的結論
- 過濾,排序和匯總數據以回答探索性問題
- 將處理過的數據轉換為信息性線圖,條形圖,直方圖
- 導入和過濾來自不同數據源的數據,包括Excel ,CSV和SPSS文件
聽眾
- 初學者到R語言
- 初學者進行數據分析和數據可視化
課程形式
- 部分講座,部分討論,練習和繁重的實踐練習