From Data to Decision with Big Data and Predictive Analytics培訓
聽眾
如果您試圖理解您可以訪問或想要分析網絡上可用的非結構化數據(如Twitter,鏈接等等),那麼本課程適合您。
它主要針對決策者和需要選擇哪些數據值得收集以及值得分析的人。
它不是針對人們配置解決方案,但這些人將從大局中受益。
交貨方式
在課程期間,代表們將獲得大多數開源技術的工作示例。
講座後將進行簡短的講座,參加者將進行簡單的練習
使用的內容和軟件
每次運行課程時都會更新所有使用的軟件,因此我們會檢查最新版本。
它涵蓋了從獲取,格式化,處理和分析數據的過程,以解釋如何使用機器學習自動化決策制定過程。
課程簡介
快速概覽
- 數據源
- 注意數據
- 推薦系統
- 目標 Marketing
數據類型
- 結構化與非結構化
- 靜態與流式
- 態度、行為和人口統計數據
- 數據驅動型分析與用戶驅動型分析
- 數據有效性
- 數據量、速度和種類
模型
- 建築模型
- 統計模型
- 機器學習
數據分類
- 聚類
- kGroups, k-means, 最近鄰
- 蟻群,鳥類成群結隊
預測模型
- 決策樹
- 支援向量機
- 樸素貝葉斯分類
- 神經網路
- 瑪律可夫模型
- 回歸
- 集成方法
王
- 效益/成本比
- 軟體成本
- 開發成本
- 潛在優勢
構建模型
- 資料準備 (MapReduce)
- 數據清理
- 選擇方法
- 開發模型
- 測試模型
- 模型評估
- 模型部署和集成
開源和商業軟體概述
- 選擇 R-project 包
- Python 庫
- Hadoop 和 Mahout
- 與大數據和分析相關的 Apache 專案
- 精選商業解決方案
- 與現有軟體和數據源集成
最低要求
瞭解傳統的數據管理和分析方法,如SQL、數據倉庫、商業智慧、OLAP等。瞭解基本統計和概率(均值、方差、概率、條件概率等......
Open Training Courses require 5+ participants.
From Data to Decision with Big Data and Predictive Analytics培訓 - Booking
From Data to Decision with Big Data and Predictive Analytics培訓 - Enquiry
From Data to Decision with Big Data and Predictive Analytics - 咨詢詢問
咨詢詢問
客戶評論 (2)
內容,因為我覺得它非常有趣,並認為它會對我在大學的最後一年有所説明。
Krishan - NBrown Group
Course - From Data to Decision with Big Data and Predictive Analytics
機器翻譯
Richard's training style kept it interesting, the real world examples used helped to drive the concepts home.
Jamie Martin-Royle - NBrown Group
Course - From Data to Decision with Big Data and Predictive Analytics
Provisional Upcoming Courses (Require 5+ participants)
相關課程
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 時間:本課程面向希望在其應用程式中理解和實施人工智慧的開發人員和數據科學家。 特別關注數據分析、分散式人工智慧和自然語言處理。
Unified Batch and Stream Processing with Apache Beam
14 時間:Apache Beam 是一個開源的統一程式設計模型,用於定義和執行並行數據處理管道。它的強大之處在於它能夠同時運行批處理和流式管道,執行由 Beam 支援的分散式處理後端之一執行:Apache Apex、Apache Flink、Apache Spark 和 Google Cloud Dataflow。Apache Beam 對於 ETL(提取、轉換和載入)任務非常有用,例如在不同的存儲介質和數據源之間移動數據、將數據轉換為更理想的格式以及將數據載入到新系統。
在這個由講師指導的現場培訓(現場或遠端)中,參與者將學習如何在 Java 或 Python 應用程式中實施 Apache Beam SDK,該應用程式定義了一個數據處理管道,用於將大數據集分解成更小的塊,以進行獨立的並行處理。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Apache Beam。
- 使用單個程式設計模型從其 Java 或 Python 應用程式執行批處理和流處理。
- 跨多個環境執行管道。
課程形式
- 部分講座、部分討論、練習和大量動手實踐
注意
- 本課程將在未來提供 Scala。請聯繫我們安排。
Data Vault: Building a Scalable Data Warehouse
28 時間:在這個由 香港 講師指導的現場培訓中,參與者將學習如何構建 Data Vault。
在本次培訓結束時,參與者將能夠:
- 瞭解 Data Vault 2.0 背後的架構和設計概念,以及它與 Big Data、NoSQL 和 AI 的交互。
- 使用數據保險庫技術對數據倉庫中的歷史數據進行審計、跟蹤和檢查。
- 開發一致且可重複的 ETL(提取、轉換、載入)流程。
- 構建和部署高度可擴展且可重複的倉庫。
Flink for Scalable Stream and Batch Data Processing
28 時間:這個由 香港 的講師指導式現場培訓(在線或現場)介紹了分散式流和批處理數據處理背後的原理和方法,並引導參與者在 Apache Flink 中創建實時數據流應用程式。
在本次培訓結束時,參與者將能夠:
- 設置用於開發數據分析應用程式的環境。
- 瞭解 Apache Flink 的 圖形處理庫 (Gelly) 的工作原理。
- 打包、執行和監控基於 Flink 的容錯數據流應用程式。
- 管理各種工作負載。
- 執行高級分析。
- 設置多節點 Flink 集群。
- 衡量和優化性能。
- 將 Flink 與不同的 Big Data 系統集成。
- 將 Flink 功能與其他大數據處理框架的功能進行比較。
Generative & Predictive AI for Developers
21 時間:這門由講師主導的現場培訓(線上或線下)旨在讓中級開發人員學習如何使用預測分析和生成模型來構建人工智能驅動的應用程序。
培訓結束時,參與者將能夠:
- 了解預測性人工智能和生成模型的基本原理。
- 利用人工智能工具進行預測編碼、預測和自動化。
- 實施LLM(大型語言模型)和變壓器以進行文本和代碼生成。
- 應用時間序列預測和基於人工智能的推薦。
- 針對實際應用開發和微調AI模型。
- 評估AI部署中的倫理考慮和最佳實踐。
Introduction to Graph Computing
28 時間:在這個由 香港 的講師指導式現場培訓中,參與者將瞭解用於處理圖形數據的技術產品和實施方法。目的是識別現實世界的物件、它們的特徵和關係,然後對這些關係進行建模,並使用 Graph Computing(也稱為圖形分析)方法將它們作為數據處理。我們從廣泛的概述開始,然後逐步完成一系列案例研究、動手練習和即時部署,然後縮小具體工具的範圍。
在本次培訓結束時,參與者將能夠:
- 瞭解如何持久保存和遍歷圖形數據。
- 為給定任務選擇最佳框架(從圖形資料庫到批處理框架)。
- 實現 Hadoop、Spark GraphX 和 Pregel 以跨多台機器並行執行圖計算。
- 從圖形、流程和遍歷的角度查看真實的大數據問題。
Hortonworks Data Platform (HDP) for Administrators
21 時間:這個由講師指導的現場培訓在 香港(在線或現場)介紹 Hortonworks Data Platform (HDP) 並引導參與者完成Spark + Hadoop 解決方案的部署。
在本次培訓結束時,參與者將能夠:
- 使用 Hortonworks 可靠地大規模運行 Hadoop。
- 將 Hadoop 的安全、治理和運營功能與Spark的敏捷分析工作流統一起來。
- 使用 Hortonworks 調查、驗證、認證和支援 Spark 專案中的每個元件。
- 處理不同類型的數據,包括結構化、非結構化、動態和靜態數據。
Introduction to Predictive AI
21 時間:這種以講師為主導的 香港(在線或現場)實時培訓面向希望掌握預測 AI 基礎知識的初級 IT 專業人員。
在培訓結束時,參與者將能夠:
- 了解預測 AI 及其應用的核心概念。
- 收集、清理和預處理數據以進行預測分析。
- 探索和可視化數據以發現見解。
- 建立基本的統計模型進行預測。
- 評估預測模型的性能。
- 將預測性 AI 概念應用於實際場景。
Confluent KSQL
7 時間:這個由 講師指導的 香港 現場培訓(在線或現場)面向希望在不編寫代碼的情況下實現 Apache Kafka 流處理的開發人員。
在本次培訓結束時,參與者將能夠:
- 安裝和配置 Confluent KSQL。
- 僅使用 SQL 命令(無 Java 或 Python 編碼)設置流處理管道。
- 完全在 SQL 中執行數據過濾、轉換、聚合、連接、視窗化和會話化。
- 為流式 ETL 和即時分析設計和部署互動式連續查詢。
Apache NiFi for Administrators
21 時間:在這個以講師為主導的香港現場或遠端培訓中,參與者將學習如何在實時實驗室環境中部署和管理Apache NiFi。
在培訓結束時,參與者將能夠:
- 安裝並配置 Apachi NiFi。
- 從不同的分散式數據源(包括資料庫和大數據湖)中獲取、轉換和管理數據。
- 自動化數據流。
- 啟用流分析。
- 應用各種方法進行數據引入。
- 轉換 Big Data 並轉化為業務洞察。
Apache NiFi for Developers
7 時間:在這個由講師指導的 香港 現場培訓中,參與者將學習基於流程的程式設計的基礎知識,因為他們使用 Apache NiFi 開發許多演示擴展、元件和處理器。
在培訓結束時,參與者將能夠:
- 瞭解 NiFi 的架構和數據流概念。
- 使用 NiFi 和第三方 API 開發擴展。
- 定製開發自己的Apache Nifi處理器。
- 從不同和不常見的檔格式和數據源中攝取和處理實時數據。
Predictive AI in DevOps: Enhancing Software Delivery
14 時間:這種由講師指導的<>本地(在線或現場)實時培訓面向希望將預測性 AI 集成到其 DevOps 實踐中的中級 DevOps 專業人員。
在培訓結束時,參與者將能夠:
- 實施預測分析模型,以預測和解決 DevOps 管道中的挑戰。
- 利用 AI 驅動的工具增強監控和操作。
- 應用機器學習技術來改進軟體交付工作流程。
- 設計 AI 策略以主動解決問題和優化。
- 在 DevOps 中瞭解使用 AI 的道德考慮因素。
Python and Spark for Big Data (PySpark)
21 時間:在這個由講師指導的 香港 現場培訓中,參與者將學習如何在動手練習中同時使用 Python 和 Spark 來分析大數據。
在培訓結束時,參與者將能夠:
- 瞭解如何將Spark與 Python 結合使用來分析 Big Data。
- 進行模仿真實世界案例的練習。
- 使用 PySpark 使用不同的工具和技術進行大數據分析。
Spark Streaming with Python and Kafka
7 時間:這種以講師為主導的香港現場培訓(現場或遠端)針對希望使用Spark Streaming功能處理和分析即時數據的數據工程師,數據科學家和程式師。
在本次培訓結束時,參與者將能夠使用 Spark Streaming 處理實時數據流,以便在資料庫、文件系統和即時儀錶板中使用。
Apache Spark MLlib
35 時間:MLlib是Spark的機器學習(ML)庫。其目標是使實用的機器學習可擴展且簡單。它由常見的學習算法和實用程序組成,包括分類,回歸,聚類,協同過濾,降維,以及低級優化原語和更高級別的管道API。
它分為兩個包:
spark.mllib包含在RDD之上構建的原始API。
spark.ml提供了構建在DataFrame之上的更高級API,用於構建ML管道。
聽眾
本課程面向希望利用Apache Spark內置機器庫的工程師和開發人員