Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
課程簡介
Data Science for Big Data Analytics 簡介
-
Data Science 概述
大數據概述
數據結構
大數據的驅動因素和複雜性
大數據生態系統和新的分析方法
大數據中的關鍵技術
數據挖掘過程和問題
關聯模式挖掘
數據聚類
異常值檢測
數據分類
數據分析生命周期簡介
-
發現
數據準備
模型規劃
模型構建
結果的介紹/Communication
操作化
練習:案例研究
從這一點 開始,大部分培訓時間(80%)將花在R和相關大數據技術的示例和練習上。
R 入門
-
安裝 R 和 Rstudio
R 語言的功能
R 中的物件
R 中的數據
數據操作
大數據問題
習題
開始使用 Hadoop
-
安裝 Hadoop
瞭解 Hadoop 模式
HDFS的
MapReduce架構
Hadoop 相關專案概覽
用Hadoop MapReduce編寫程式
習題
將 R 和 Hadoop 與 RHadoop 集成
-
R的組成部分Hadoop
安裝 RHadoop 並連接 Hadoop
R的架構Hadoop
Hadoop 使用 R 進行流式處理
使用 R 解決資料分析問題Hadoop
習題
預處理和準備數據
-
數據準備步驟
特徵提取
數據清理
數據集成和轉換
數據縮減 – 採樣、特徵子集選擇、
降維
離散化和分檔
練習和案例研究
R 中的探索性數據分析方法
-
描述統計學
探索性數據分析
可視化 – 初步步驟
可視化單個變數
檢查多個變數
評估的統計方法
假設檢驗
練習和案例研究
Data Visualization秒
-
R 中的基本可視化效果
用於數據可視化的軟體包 ggplot2, lattice, plotly, lattice
在 R 中設定繪圖格式
高級圖形
習題
回歸(估計未來值)
-
線性回歸
使用案例
型號說明
診斷
線性回歸問題
收縮方法、脊回歸、套索
泛化和非線性
回歸樣條曲線
局部多項式回歸
廣義加法模型
R回歸Hadoop
練習和案例研究
分類
-
分類相關問題
貝葉斯複習
樸素貝葉斯
邏輯回歸
K 最近鄰
決策樹演算法
神經網路
支援向量機
分類器診斷
分類方法比較
ScalaBLE分類演算法
練習和案例研究
評估模型性能和選擇
-
偏差、方差和模型複雜性
準確性與可解釋性
評估分類器
模型/演算法性能的度量
保留驗證方法
交叉驗證
使用插入符號包調整機器學習演算法
使用 Profit ROC 和 Lift 曲線可視化模型性能
集成方法
-
裝袋
Random Forest秒
提高
梯度提升
練習和案例研究
支援用於分類和回歸的向量機
-
最大邊距分類器
支援向量分類器
支援向量機
用於分類問題的 SVM
用於回歸問題的 SVM
聚類分析的特徵選擇 基於代表性的演算法:k-means、k-medoids 分層演算法:聚合和分裂方法 概率基礎演算法:EM 基於密度的演算法:DBSCAN、DENCLUE 群集驗證 高級聚類分析概念 使用R進行聚類Hadoop 練習和案例研究
-
使用連結分析發現連接
鏈路分析概念 用於分析網路的指標 Pagerank 演算法 超鏈接引發的主題 Search 鏈路預測 練習和案例研究
-
關聯模式挖掘
頻繁模式挖掘模型 Scala頻繁模式挖掘中的容量問題 蠻力演算法 Apriori 演算法 FP增長方法 候選規則評估 關聯規則的應用 驗證和測試 診斷 與 R 和 Hadoop 的關聯規則 練習和案例研究
-
構建推薦引擎
瞭解推薦系統 推薦系統中使用的數據挖掘技術 帶有 recommenderlab 軟體包的推薦系統 評估推薦系統 RHadoop的建議 練習:構建推薦引擎
-
文本分析
文本分析步驟 收集原始文字 一袋字 術語頻率 - 反向文檔頻率 確定情緒 練習和案例研究
35 時間: