課程簡介

每節課2小時

第1天:第1節:政府機構爲何需要大數據商業智能的業務概述

  • 來自NIH、DoE的案例研究
  • 政府機構的大數據採用率及如何圍繞大數據預測分析調整未來運營
  • 在DoD、NSA、IRS、USDA等領域的廣泛應用
  • 大數據與遺留數據的接口
  • 預測分析中使能技術的基本理解
  • 數據集成與儀表板可視化
  • 欺詐管理
  • 業務規則/欺詐檢測生成
  • 威脅檢測與畫像
  • 大數據實施的成本效益分析

第1天:第2節:大數據介紹-1

  • 大數據的主要特徵——量、多樣性、速度和真實性。用於處理大容量的MPP架構。
  • 數據倉庫——靜態模式,緩慢演進的數據集
  • MPP數據庫如Greenplum、Exadata、Teradata、Netezza、Vertica等
  • 基於Hadoop的解決方案——對數據集結構無要求
  • 典型模式:HDFS、MapReduce(處理)、從HDFS檢索
  • 批處理——適合分析/非交互式任務
  • 流數據:CEP流數據
  • 典型選擇——CEP產品(如Infostreams、Apama、MarkLogic等)
  • 不太成熟的產品——Storm/S4
  • NoSQL數據庫——(列式和鍵值):最適合作爲數據倉庫/數據庫的分析輔助工具

第1天:第3節:大數據介紹-2

NoSQL解決方案

  • KV存儲 - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL Database(OnDB)
  • KV存儲 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • KV存儲(分層) - GT.m、Cache
  • KV存儲(有序) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
  • KV緩存 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • 元組存儲 - Gigaspaces、Coord、Apache River
  • 對象數據庫 - ZopeDB、DB40、Shoal
  • 文檔存儲 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • 寬列存儲 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

數據多樣性:大數據中的數據清理問題介紹

  • RDBMS——靜態結構/模式,不支持敏捷、探索性環境。
  • NoSQL——半結構化,在存儲數據之前有足夠的結構來存儲數據,而無需精確的模式
  • 數據清理問題

第1天:第4節:大數據介紹-3:Hadoop

  • 何時選擇Hadoop?
  • 結構化數據——企業數據倉庫/數據庫可以存儲大量數據(但成本較高),並強加結構(不利於主動探索)
  • 半結構化數據——傳統解決方案(DW/DB)難以處理
  • 數據倉庫化=巨大的努力,即使在實施後也是靜態的
  • 對於數據多樣性和大容量,在廉價硬件上進行處理——HADOOP
  • 創建Hadoop集羣所需的廉價硬件

Map Reduce /HDFS介紹

  • MapReduce——在多臺服務器上分佈式計算
  • HDFS——使數據在計算過程中本地可用(具有冗餘)
  • 數據——可以是非結構化/無模式的(與RDBMS不同)
  • 開發人員負責理解數據
  • 編程MapReduce=使用Java(優缺點),手動將數據加載到HDFS

第2天:第1節:大數據生態系統——構建大數據ETL:大數據工具的宇宙——何時使用哪種工具?

  • Hadoop與其他NoSQL解決方案的比較
  • 對於交互式、隨機訪問數據
  • 在Hadoop上使用Hbase(列式數據庫)
  • 隨機訪問數據,但有最大1 PB的限制
  • 不適合臨時分析,適合日誌記錄、計數、時間序列
  • Sqoop - 從數據庫導入到Hive或HDFS(JDBC/ODBC訪問)
  • Flume——將數據流(如日誌數據)導入HDFS

第2天:第2節:大數據管理系統

  • 移動部件,計算節點啓動/失敗:ZooKeeper——用於配置/協調/命名服務
  • 複雜管道/工作流:Oozie——管理工作流、依賴關係、鏈式任務
  • 部署、配置、集羣管理、升級等(系統管理員):Ambari
  • 在雲中:Whirr

第2天:第3節:商業智能中的預測分析-1:基本技術與基於機器學習的BI:

  • 機器學習介紹
  • 學習分類技術
  • 貝葉斯預測——準備訓練文件
  • 支持向量機
  • KNN p-Tree代數與垂直挖掘
  • 神經網絡
  • 大數據大變量問題——隨機森林(RF)
  • 大數據自動化問題——多模型集成RF
  • 通過Soft10-M實現自動化
  • 文本分析工具——Treeminer
  • 敏捷學習
  • 基於代理的學習
  • 分佈式學習
  • 預測分析的開源工具介紹:R、Rapidminer、Mahut

第2天:第4節預測分析生態系統-2:政府中常見的預測分析問題

  • 洞察分析
  • 可視化分析
  • 結構化預測分析
  • 非結構化預測分析
  • 威脅/欺詐/供應商畫像
  • 推薦引擎
  • 模式檢測
  • 規則/場景發現——失敗、欺詐、優化
  • 根本原因發現
  • 情感分析
  • CRM分析
  • 網絡分析
  • 文本分析
  • 技術輔助審查
  • 欺詐分析
  • 即時分析

第3天:第1節:即時和可擴展的Hadoop分析

  • 爲什麼常見的分析算法在Hadoop/HDFS中失敗
  • Apache Hama——用於批量同步分佈式計算
  • Apache SPARK——用於即時分析的集羣計算
  • CMU Graphics Lab2——基於圖的異步分佈式計算方法
  • KNN p-Tree代數方法,來自Treeminer,用於降低硬件操作成本

第3天:第2節:電子發現和取證工具

  • 大數據與遺留數據的電子發現比較——成本與性能的比較
  • 預測編碼和技術輔助審查(TAR)
  • 演示TAR產品(vMiner),瞭解TAR如何加快發現速度
  • 通過HDFS加快索引速度——數據的速度
  • NLP或自然語言處理——各種技術和開源產品
  • 外語電子發現——外語處理技術

第3天:第3節:大數據BI在網絡安全中的應用——理解從快速數據收集到威脅識別的360度視圖

  • 理解安全分析的基礎——攻擊面、安全配置錯誤、主機防禦
  • 網絡基礎設施/大數據管道/即時分析響應ETL
  • 規定性 vs 預測性——基於固定規則 vs 從元數據中自動發現威脅規則

第3天:第4節:大數據在USDA中的應用:農業中的應用

  • 農業中的物聯網(IoT)介紹——基於傳感器的大數據和控制
  • 衛星成像及其在農業中的應用介紹
  • 整合傳感器和圖像數據,用於土壤肥力、種植建議和預測
  • 農業保險與大數據
  • 作物損失預測

第4天:第1節:政府中的大數據BI欺詐預防——欺詐分析:

  • 欺詐分析的基本分類——基於規則 vs 預測分析
  • 監督 vs 無監督機器學習用於欺詐模式檢測
  • 供應商欺詐/項目超額收費
  • 醫療保險和醫療補助欺詐——索賠處理的欺詐檢測技術
  • 旅行報銷欺詐
  • IRS退稅欺詐
  • 案例研究和即時演示將在數據可用時提供。

第4天:第2節:社交媒體分析——情報收集與分析

  • 用於提取社交媒體數據的大數據ETL API
  • 文本、圖像、元數據和視頻
  • 從社交媒體中提取情感分析
  • 社交媒體中的上下文和非上下文過濾
  • 社交媒體儀表板,用於整合不同的社交媒體
  • 社交媒體檔案的自動畫像
  • 通過Treeminer工具演示每種分析。

第4天:第3節:大數據在圖像處理和視頻流中的應用

  • 大數據中的圖像存儲技術——超過PB級數據的存儲解決方案
  • LTFS和LTO
  • GPFS-LTFS(大數據圖像的分層存儲解決方案)
  • 圖像分析的基礎
  • 對象識別
  • 圖像分割
  • 運動跟蹤
  • 3D圖像重建

第4天:第4節:大數據在NIH中的應用:

  • 生物信息學的新興領域
  • 元基因組學與大數據挖掘問題
  • 大數據預測分析在藥物基因組學、代謝組學和蛋白質組學中的應用
  • 下游基因組學過程中的大數據
  • 大數據預測分析在公共衛生中的應用

大數據儀表板,用於快速訪問和顯示多樣化數據:

  • 將現有應用平臺與大數據儀表板集成
  • 大數據管理
  • 大數據儀表板案例研究:Tableau和Pentaho
  • 使用大數據應用在政府中推送基於位置的服務
  • 跟蹤系統和管理

第5天:第1節:如何證明大數據BI在組織中的實施:

  • 定義大數據實施的ROI
  • 案例研究:節省分析師收集和準備數據的時間——提高生產力收益
  • 案例研究:節省許可數據庫成本帶來的收益
  • 基於位置的服務帶來的收益
  • 欺詐預防帶來的節省
  • 綜合電子表格方法,計算大數據實施的近似費用與收益/節省。

第5天:第2節:逐步替換遺留數據系統爲大數據系統的步驟:

  • 理解實際的大數據遷移路線圖
  • 在架構大數據實施之前需要了解的重要信息
  • 計算數據量、速度、多樣性和真實性的不同方法
  • 如何估算數據增長
  • 案例研究

第5天:第4節:大數據供應商及其產品回顧。問答環節:

  • Accenture
  • APTEAN(原CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB(原10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware(EMC的一部分)

最低要求

  • 對政府領域的基本業務操作和數據系統有基本瞭解
  • 對SQL/Oracle或關係數據庫有基本理解
  • 對統計學有基本理解(電子表格水平)
 35 時間:

人數


每位參與者的報價

客戶評論 (1)

即將到來的課程

課程分類