課程簡介

介紹

  • 了解數據準備在分析和機器學習中的重要性
  • 數據準備流程及其在數據生命周期中的作用
  • 探討原始數據中的常見挑戰及其對分析的影響

數據收集與獲取

  • 數據來源:數據庫、API、電子表格、文本文件等
  • 數據收集技術及確保數據質量的方法
  • 從多種來源收集數據

Data Cleaning 技術

  • 識別和處理缺失值、異常值和不一致性
  • 處理數據集中的重複數據和錯誤
  • 清理真實世界的數據集

數據轉換與標準化

  • 數據規範化和標準化技術
  • 分類數據處理:編碼、分箱和特徵工程
  • 將原始數據轉換為可用的格式

Data Integration 和聚合

  • 合併和組合來自不同來源的數據集
  • 解決數據衝突並對齊數據類型
  • 數據聚合和整合技術

Data Quality 保證

  • 確保數據質量和完整性的方法
  • 實施質量檢查和驗證程序
  • 數據質量保證的案例研究和實際應用

降維與特徵選擇

  • 了解降維的必要性
  • 主成分分析(PCA)、特徵選擇和降維策略
  • 實施降維技術

總結與下一步

最低要求

  • 對數據概念的基本理解

目標受眾

  • 數據分析師
  • Database 管理員
  • IT專業人員
 14 時間:

人數


每位參與者的報價

客戶評論 (2)

Provisional Upcoming Courses (Require 5+ participants)

課程分類