課程簡介

數據分析和大數據簡介

  • 大數據何以稱爲“大”?
    • 速度(Velocity)、體量(Volume)、種類(Variety)、准確度(Veracity)(VVVV)
  • 對傳統數據處理的限制
  • 分布式處理
  • 統計分析
  • 機器學習分析的類型
  • 數據可視化

用于數據分析的語言

  • R語言
    • 爲什麽R用于數據分析?
    • 數據處理、計算、圖形顯示
  • Python
    • 爲什麽Python用于數據分析?
    • 操作、處理、清理、運算數據

數據分析的方法

  • 統計分析
    • 時間序列分析
    • 用相關和回歸模型預測
    • 推論統計(估算)
    • 大數據集中的描述性統計(例如:計算平均數)
  • 機器學習
    • 監督與無監督學習
    • 分類和聚類
    • 估算具體方法的成本
    • 過濾
  • 自然語言處理
    • 處理文本
    • 理解文本的含義
    • 自動生成文本
    • 情感分析/主題分析
  • 計算機視覺
    • 獲取、處理、分析、理解圖像
    • 重建、解讀、理解3D場景
    • 使用圖像數據做出決定

大數據基礎架構

  • 數據存儲
    • 關系數據庫(SQL)
      • MySQL
      • Postgres
      • Oracle
    • 非關系數據庫(NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • 了解細微差別
      • 分層數據庫
      • 面向對象的數據庫
      • 面向文檔的數據庫
      • 面向圖形的數據庫
      • 其他
  • 分布式處理
    • Hadoop
      • HDFS作爲分布式文件系統
      • MapReduce用于分布式處理
    • Spark
      • 用于大規模數據處理的一體化內存集群計算框架
      • 結構化數據流(structured streaming)
      • Spark SQL
      • 機器學習庫:MLlib
      • 使用GraphX進行圖形處理
  • 可擴展性
    • 公共雲
      • AWS、Google、阿裏雲等
    • 私有雲
      • OpenStack、Cloud Foundry等
    • 自動可擴展性
  • 針對問題選擇正確的解決方案
  • 大數據的未來
  • 結束語

最低要求

  • 對數學有大體的了解
  • 對編程有大體的了解
  • 對數據庫有大體的了解
 35 時間:

人數



每位參與者的報價

客戶評論 (5)

相關課程

課程分類