感謝您提交詢問!我們的一位團隊成員將在短時間內與您聯繫。
感謝您提交預訂!我們的一位團隊成員將在短時間內與您聯繫。
課程簡介
每節課2小時
第1天:第1節:政府機構爲何需要大數據商業智能的業務概述
- 來自NIH、DoE的案例研究
- 政府機構的大數據採用率及如何圍繞大數據預測分析調整未來運營
- 在DoD、NSA、IRS、USDA等領域的廣泛應用
- 大數據與遺留數據的接口
- 預測分析中使能技術的基本理解
- 數據集成與儀表板可視化
- 欺詐管理
- 業務規則/欺詐檢測生成
- 威脅檢測與畫像
- 大數據實施的成本效益分析
第1天:第2節:大數據介紹-1
- 大數據的主要特徵——量、多樣性、速度和真實性。用於處理大容量的MPP架構。
- 數據倉庫——靜態模式,緩慢演進的數據集
- MPP數據庫如Greenplum、Exadata、Teradata、Netezza、Vertica等
- 基於Hadoop的解決方案——對數據集結構無要求
- 典型模式:HDFS、MapReduce(處理)、從HDFS檢索
- 批處理——適合分析/非交互式任務
- 流數據:CEP流數據
- 典型選擇——CEP產品(如Infostreams、Apama、MarkLogic等)
- 不太成熟的產品——Storm/S4
- NoSQL數據庫——(列式和鍵值):最適合作爲數據倉庫/數據庫的分析輔助工具
第1天:第3節:大數據介紹-2
NoSQL解決方案
- KV存儲 - Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL Database(OnDB)
- KV存儲 - Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
- KV存儲(分層) - GT.m、Cache
- KV存儲(有序) - TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
- KV緩存 - Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
- 元組存儲 - Gigaspaces、Coord、Apache River
- 對象數據庫 - ZopeDB、DB40、Shoal
- 文檔存儲 - CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
- 寬列存儲 - BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI
數據多樣性:大數據中的數據清理問題介紹
- RDBMS——靜態結構/模式,不支持敏捷、探索性環境。
- NoSQL——半結構化,在存儲數據之前有足夠的結構來存儲數據,而無需精確的模式
- 數據清理問題
第1天:第4節:大數據介紹-3:Hadoop
- 何時選擇Hadoop?
- 結構化數據——企業數據倉庫/數據庫可以存儲大量數據(但成本較高),並強加結構(不利於主動探索)
- 半結構化數據——傳統解決方案(DW/DB)難以處理
- 數據倉庫化=巨大的努力,即使在實施後也是靜態的
- 對於數據多樣性和大容量,在廉價硬件上進行處理——HADOOP
- 創建Hadoop集羣所需的廉價硬件
Map Reduce /HDFS介紹
- MapReduce——在多臺服務器上分佈式計算
- HDFS——使數據在計算過程中本地可用(具有冗餘)
- 數據——可以是非結構化/無模式的(與RDBMS不同)
- 開發人員負責理解數據
- 編程MapReduce=使用Java(優缺點),手動將數據加載到HDFS
第2天:第1節:大數據生態系統——構建大數據ETL:大數據工具的宇宙——何時使用哪種工具?
- Hadoop與其他NoSQL解決方案的比較
- 對於交互式、隨機訪問數據
- 在Hadoop上使用Hbase(列式數據庫)
- 隨機訪問數據,但有最大1 PB的限制
- 不適合臨時分析,適合日誌記錄、計數、時間序列
- Sqoop - 從數據庫導入到Hive或HDFS(JDBC/ODBC訪問)
- Flume——將數據流(如日誌數據)導入HDFS
第2天:第2節:大數據管理系統
- 移動部件,計算節點啓動/失敗:ZooKeeper——用於配置/協調/命名服務
- 複雜管道/工作流:Oozie——管理工作流、依賴關係、鏈式任務
- 部署、配置、集羣管理、升級等(系統管理員):Ambari
- 在雲中:Whirr
第2天:第3節:商業智能中的預測分析-1:基本技術與基於機器學習的BI:
- 機器學習介紹
- 學習分類技術
- 貝葉斯預測——準備訓練文件
- 支持向量機
- KNN p-Tree代數與垂直挖掘
- 神經網絡
- 大數據大變量問題——隨機森林(RF)
- 大數據自動化問題——多模型集成RF
- 通過Soft10-M實現自動化
- 文本分析工具——Treeminer
- 敏捷學習
- 基於代理的學習
- 分佈式學習
- 預測分析的開源工具介紹:R、Rapidminer、Mahut
第2天:第4節預測分析生態系統-2:政府中常見的預測分析問題
- 洞察分析
- 可視化分析
- 結構化預測分析
- 非結構化預測分析
- 威脅/欺詐/供應商畫像
- 推薦引擎
- 模式檢測
- 規則/場景發現——失敗、欺詐、優化
- 根本原因發現
- 情感分析
- CRM分析
- 網絡分析
- 文本分析
- 技術輔助審查
- 欺詐分析
- 即時分析
第3天:第1節:即時和可擴展的Hadoop分析
- 爲什麼常見的分析算法在Hadoop/HDFS中失敗
- Apache Hama——用於批量同步分佈式計算
- Apache SPARK——用於即時分析的集羣計算
- CMU Graphics Lab2——基於圖的異步分佈式計算方法
- KNN p-Tree代數方法,來自Treeminer,用於降低硬件操作成本
第3天:第2節:電子發現和取證工具
- 大數據與遺留數據的電子發現比較——成本與性能的比較
- 預測編碼和技術輔助審查(TAR)
- 演示TAR產品(vMiner),瞭解TAR如何加快發現速度
- 通過HDFS加快索引速度——數據的速度
- NLP或自然語言處理——各種技術和開源產品
- 外語電子發現——外語處理技術
第3天:第3節:大數據BI在網絡安全中的應用——理解從快速數據收集到威脅識別的360度視圖
- 理解安全分析的基礎——攻擊面、安全配置錯誤、主機防禦
- 網絡基礎設施/大數據管道/即時分析響應ETL
- 規定性 vs 預測性——基於固定規則 vs 從元數據中自動發現威脅規則
第3天:第4節:大數據在USDA中的應用:農業中的應用
- 農業中的物聯網(IoT)介紹——基於傳感器的大數據和控制
- 衛星成像及其在農業中的應用介紹
- 整合傳感器和圖像數據,用於土壤肥力、種植建議和預測
- 農業保險與大數據
- 作物損失預測
第4天:第1節:政府中的大數據BI欺詐預防——欺詐分析:
- 欺詐分析的基本分類——基於規則 vs 預測分析
- 監督 vs 無監督機器學習用於欺詐模式檢測
- 供應商欺詐/項目超額收費
- 醫療保險和醫療補助欺詐——索賠處理的欺詐檢測技術
- 旅行報銷欺詐
- IRS退稅欺詐
- 案例研究和即時演示將在數據可用時提供。
第4天:第2節:社交媒體分析——情報收集與分析
- 用於提取社交媒體數據的大數據ETL API
- 文本、圖像、元數據和視頻
- 從社交媒體中提取情感分析
- 社交媒體中的上下文和非上下文過濾
- 社交媒體儀表板,用於整合不同的社交媒體
- 社交媒體檔案的自動畫像
- 通過Treeminer工具演示每種分析。
第4天:第3節:大數據在圖像處理和視頻流中的應用
- 大數據中的圖像存儲技術——超過PB級數據的存儲解決方案
- LTFS和LTO
- GPFS-LTFS(大數據圖像的分層存儲解決方案)
- 圖像分析的基礎
- 對象識別
- 圖像分割
- 運動跟蹤
- 3D圖像重建
第4天:第4節:大數據在NIH中的應用:
- 生物信息學的新興領域
- 元基因組學與大數據挖掘問題
- 大數據預測分析在藥物基因組學、代謝組學和蛋白質組學中的應用
- 下游基因組學過程中的大數據
- 大數據預測分析在公共衛生中的應用
大數據儀表板,用於快速訪問和顯示多樣化數據:
- 將現有應用平臺與大數據儀表板集成
- 大數據管理
- 大數據儀表板案例研究:Tableau和Pentaho
- 使用大數據應用在政府中推送基於位置的服務
- 跟蹤系統和管理
第5天:第1節:如何證明大數據BI在組織中的實施:
- 定義大數據實施的ROI
- 案例研究:節省分析師收集和準備數據的時間——提高生產力收益
- 案例研究:節省許可數據庫成本帶來的收益
- 基於位置的服務帶來的收益
- 欺詐預防帶來的節省
- 綜合電子表格方法,計算大數據實施的近似費用與收益/節省。
第5天:第2節:逐步替換遺留數據系統爲大數據系統的步驟:
- 理解實際的大數據遷移路線圖
- 在架構大數據實施之前需要了解的重要信息
- 計算數據量、速度、多樣性和真實性的不同方法
- 如何估算數據增長
- 案例研究
第5天:第4節:大數據供應商及其產品回顧。問答環節:
- Accenture
- APTEAN(原CDC Software)
- Cisco Systems
- Cloudera
- Dell
- EMC
- GoodData Corporation
- Guavus
- Hitachi Data Systems
- Hortonworks
- HP
- IBM
- Informatica
- Intel
- Jaspersoft
- Microsoft
- MongoDB(原10Gen)
- MU Sigma
- Netapp
- Opera Solutions
- Oracle
- Pentaho
- Platfora
- Qliktech
- Quantum
- Rackspace
- Revolution Analytics
- Salesforce
- SAP
- SAS Institute
- Sisense
- Software AG/Terracotta
- Soft10 Automation
- Splunk
- Sqrrl
- Supermicro
- Tableau Software
- Teradata
- Think Big Analytics
- Tidemark Systems
- Treeminer
- VMware(EMC的一部分)
最低要求
- 對政府領域的基本業務操作和數據系統有基本瞭解
- 對SQL/Oracle或關係數據庫有基本理解
- 對統計學有基本理解(電子表格水平)
35 時間:
客戶評論 (1)
培訓師能夠根據組織的需求調整課程內容,而不僅僅是爲了完成課程而提供培訓。
Masilonyane - Revenue Services Lesotho
課程 - Big Data Business Intelligence for Govt. Agencies
機器翻譯