課程簡介

第一天

大數據商業智能用於刑事情報分析概述

  • 執法案例研究——預測性警務
  • 執法機構中的大數據採用率及其如何圍繞大數據預測分析調整未來運營
  • 新興技術解決方案,如槍聲傳感器、監控視頻和社交媒體
  • 使用大數據技術緩解信息過載
  • 將大數據與傳統數據接口
  • 預測分析中的使能技術基本瞭解
  • 數據集成與儀表板可視化
  • 欺詐管理
  • 業務規則與欺詐檢測
  • 威脅檢測與畫像
  • 大數據實施的成本效益分析

大數據簡介

  • 大數據的主要特徵——數據量、多樣性、速度和真實性。
  • MPP(大規模並行處理)架構
  • 數據倉庫——靜態模式,緩慢演進的數據集
  • MPP數據庫:Greenplum、Exadata、Teradata、Netezza、Vertica等
  • 基於Hadoop的解決方案——對數據集結構無要求
  • 典型模式:HDFS、MapReduce(處理)、從HDFS檢索
  • Apache Spark用於流處理
  • 批處理——適用於分析/非交互式
  • 數據量:CEP流數據
  • 典型選擇——CEP產品(如Infostreams、Apama、MarkLogic等)
  • 生產準備不足——Storm/S4
  • NoSQL數據庫(列式和鍵值):最適合作爲數據倉庫/數據庫的分析補充

NoSQL解決方案

  • 鍵值存儲——Keyspace、Flare、SchemaFree、RAMCloud、Oracle NoSQL Database(OnDB)
  • 鍵值存儲——Dynamo、Voldemort、Dynomite、SubRecord、Mo8onDb、DovetailDB
  • 鍵值存儲(分層)——GT.m、Cache
  • 鍵值存儲(有序)——TokyoTyrant、Lightcloud、NMDB、Luxio、MemcacheDB、Actord
  • 鍵值緩存——Memcached、Repcached、Coherence、Infinispan、EXtremeScale、JBossCache、Velocity、Terracoqua
  • 元組存儲——Gigaspaces、Coord、Apache River
  • 對象數據庫——ZopeDB、DB40、Shoal
  • 文檔存儲——CouchDB、Cloudant、Couchbase、MongoDB、Jackrabbit、XML-Databases、ThruDB、CloudKit、Prsevere、Riak-Basho、Scalaris
  • 寬列存儲——BigTable、HBase、Apache Cassandra、Hypertable、KAI、OpenNeptune、Qbase、KDI

數據多樣性:大數據中的數據清理問題簡介

  • RDBMS——靜態結構/模式,不促進敏捷、探索性環境。
  • NoSQL——半結構化,有足夠結構存儲數據,無需在存儲數據前確定確切模式
  • 數據清理問題

Hadoop

  • 何時選擇Hadoop?
  • 結構化——企業數據倉庫/數據庫可以存儲大量數據(成本較高),但強加結構(不利於主動探索)
  • 半結構化數據——難以使用傳統解決方案(DW/DB)處理
  • 數據倉庫=巨大努力,實施後仍然靜態
  • 針對數據的多樣性和數量,使用廉價硬件處理——Hadoop
  • 需要廉價硬件創建Hadoop集羣

MapReduce/HDFS簡介

  • MapReduce——在多個服務器上分佈式計算
  • HDFS——使數據在計算過程中本地可用(具有冗餘)
  • 數據——可以是非結構化/無模式(與RDBMS不同)
  • 開發者負責理解數據
  • 編寫MapReduce=使用Java(優缺點),手動將數據加載到HDFS

第二天

大數據生態系統——構建大數據ETL(提取、轉換、加載)——何時使用哪些大數據工具?

  • Hadoop與其他NoSQL解決方案
  • 用於交互式、隨機訪問數據
  • Hbase(列式數據庫)在Hadoop之上
  • 隨機訪問數據,但有最大1 PB的限制
  • 不適合臨時分析,適合日誌、計數、時間序列
  • Sqoop——從數據庫導入到Hive或HDFS(JDBC/ODBC訪問)
  • Flume——將數據流(如日誌數據)導入HDFS

大數據管理系統

  • 移動部件,計算節點啓動/失敗:ZooKeeper——用於配置/協調/命名服務
  • 複雜管道/工作流:Oozie——管理工作流、依賴關係、鏈式流程
  • 部署、配置、集羣管理、升級等(系統管理員):Ambari
  • 在雲端:Whirr

預測分析——基本技術與基於機器學習的商業智能

  • 機器學習簡介
  • 學習分類技術
  • 貝葉斯預測——準備訓練文件
  • 支持向量機
  • KNN p-Tree代數與垂直挖掘
  • 神經網絡
  • 大數據大變量問題——隨機森林(RF)
  • 大數據自動化問題——多模型集成RF
  • 通過Soft10-M實現自動化
  • 文本分析工具——Treeminer
  • 敏捷學習
  • 基於代理的學習
  • 分佈式學習
  • 預測分析的開源工具簡介:R、Python、Rapidminer、Mahut

預測分析生態系統及其在刑事情報分析中的應用

  • 技術與調查過程
  • 洞察分析
  • 可視化分析
  • 結構化預測分析
  • 非結構化預測分析
  • 威脅/欺詐/供應商畫像
  • 推薦引擎
  • 模式檢測
  • 規則/場景發現——失敗、欺詐、優化
  • 根本原因發現
  • 情感分析
  • CRM分析
  • 網絡分析
  • 文本分析——從筆錄、證人陳述、網絡聊天等獲取洞察
  • 技術輔助審查
  • 欺詐分析
  • 即時分析

第三天

Hadoop上的即時和可擴展分析

  • 爲什麼常見分析算法在Hadoop/HDFS中失敗
  • Apache Hama——用於批量同步分佈式計算
  • Apache SPARK——用於集羣計算和即時分析
  • CMU Graphics Lab2——基於圖的異步分佈式計算方法
  • KNN p——Treeminer的代數方法,用於降低硬件運營成本

電子發現和取證工具

  • 大數據與傳統數據的電子發現——成本與性能比較
  • 預測編碼與技術輔助審查(TAR)
  • vMiner的即時演示,瞭解TAR如何加速發現
  • 通過HDFS實現更快索引——數據速度
  • NLP(自然語言處理)——開源產品與技術
  • 外語電子發現——外語處理技術

大數據商業智能用於網絡安全——獲取360度視圖,快速數據收集與威脅識別

  • 瞭解安全分析的基礎——攻擊面、安全配置錯誤、主機防禦
  • 網絡基礎設施/大數據管道/即時分析響應ETL
  • 規定性 vs 預測性——基於固定規則 vs 從元數據自動發現威脅規則

爲刑事情報分析收集分散數據

  • 使用物聯網(IoT)作爲傳感器收集數據
  • 使用衛星圖像進行國內監控
  • 使用監控和圖像數據進行犯罪識別
  • 其他數據收集技術——無人機、隨身攝像頭、GPS標籤系統和熱成像技術
  • 將自動化數據檢索與線人、審訊和研究獲得的數據結合
  • 預測犯罪活動

第四天

大數據在欺詐分析中的欺詐預防商業智能

  • 欺詐分析的基本分類——基於規則 vs 預測分析
  • 監督 vs 無監督機器學習用於欺詐模式檢測
  • 企業間欺詐、醫療索賠欺詐、保險欺詐、逃稅和洗錢

社交媒體分析——情報收集與分析

  • 犯罪分子如何使用社交媒體進行組織、招募和策劃
  • 大數據ETL API用於提取社交媒體數據
  • 文本、圖像、元數據和視頻
  • 社交媒體情緒分析
  • 社交媒體內容的上下文與非上下文過濾
  • 社交媒體儀表板,整合多種社交媒體
  • 社交媒體檔案的自動畫像
  • 通過Treeminer工具進行每種分析的即時演示

大數據分析在圖像處理和視頻流中的應用

  • 大數據中的圖像存儲技術——用於超過PB級數據的存儲解決方案
  • LTFS(線性磁帶文件系統)和LTO(線性磁帶開放)
  • GPFS-LTFS(通用並行文件系統-線性磁帶文件系統)——大數據圖像的分層存儲解決方案
  • 圖像分析基礎
  • 對象識別
  • 圖像分割
  • 運動跟蹤
  • 3D圖像重建

生物識別、DNA與下一代識別計劃

  • 超越指紋識別和麪部識別
  • 語音識別、擊鍵(分析用戶的打字模式)和CODIS(組合DNA索引系統)
  • 超越DNA匹配:使用法醫DNA表型分析從DNA樣本構建面部

大數據儀表板,用於快速訪問和顯示多樣化數據:

  • 將現有應用平臺與大數據儀表板集成
  • 大數據管理
  • 大數據儀表板案例研究:Tableau和Pentaho
  • 使用大數據應用推送政府的位置服務
  • 跟蹤系統與管理

第五天

如何爲組織內的大數據商業智能實施提供理由:

  • 定義大數據實施的ROI(投資回報率)
  • 節省分析師數據收集和準備時間的案例研究——提高生產力
  • 降低數據庫許可成本的收入增長
  • 基於位置服務的收入增長
  • 欺詐預防帶來的成本節約
  • 使用集成電子表格方法計算大數據實施的近似費用與收入增長/節約。

逐步替換傳統數據系統爲大數據系統的步驟

  • 大數據遷移路線圖
  • 在構建大數據系統之前需要哪些關鍵信息?
  • 計算數據量、速度、多樣性和真實性的不同方法
  • 如何估算數據增長
  • 案例研究

大數據供應商及其產品回顧

  • Accenture
  • APTEAN(前身爲CDC Software)
  • Cisco Systems
  • Cloudera
  • Dell
  • EMC
  • GoodData Corporation
  • Guavus
  • Hitachi Data Systems
  • Hortonworks
  • HP
  • IBM
  • Informatica
  • Intel
  • Jaspersoft
  • Microsoft
  • MongoDB(前身爲10Gen)
  • MU Sigma
  • Netapp
  • Opera Solutions
  • Oracle
  • Pentaho
  • Platfora
  • Qliktech
  • Quantum
  • Rackspace
  • Revolution Analytics
  • Salesforce
  • SAP
  • SAS Institute
  • Sisense
  • Software AG/Terracotta
  • Soft10 Automation
  • Splunk
  • Sqrrl
  • Supermicro
  • Tableau Software
  • Teradata
  • Think Big Analytics
  • Tidemark Systems
  • Treeminer
  • VMware(EMC的一部分)

問答環節

最低要求

  • 瞭解執法流程和數據系統
  • 對SQL/Oracle或關係數據庫有基本瞭解
  • 對統計學有基本瞭解(達到電子表格水平)

受衆

  • 具有技術背景的執法專家
 35 時間:

人數


每位參與者的報價

客戶評論 (3)

即將到來的課程

課程分類