1,系統(tǒng)架構師、系統(tǒng)分析師、高級程序員、資深開發(fā)人員。
2,牽涉到數據挖掘和統(tǒng)計分析的數據中心運行、規(guī)劃、設計負責人。
3,*機關,金融保險、移動和互聯(lián)網等大數據來源單位的負責人。
4,高校、科研院所牽涉到數據挖掘與統(tǒng)計分析處理的項目負責人。
【培訓目標】
1、全面了解大數據前沿技術的相關知識。
2、學習大數據前沿技術平臺、方法以及應用特征。
3、學習使用大數據挖掘和分析中的使用。?
4、了解Hadoop、Spark等技術的融合使用。
【課程大綱】
*講 大數據技術基礎
? 1)大數據應用需求及潛在價值分析
? 2)大數據與數據庫解決方案的對比
? 3)國內外主流的大數據解決方案
? 4)開源的大數據生態(tài)系統(tǒng)平臺剖析
? 5)大數據下的技術選型與架構設計
第二講 批處理大數據平臺Hadoop
? 1)Hadoop及其運行架構
? 2)HDFS分布式文件系統(tǒng)
? 3)MapReduce計算模型
? 4)HBase大表管理技術
? 5)Hadoop平臺使用和實操
第三講 實時大數據平臺Spark
1)Spark實時處理技術
2)彈性分布式數據集RDD?
? 3)Spark分布式計算框架
? 4)Spark的BDAS生態(tài)系統(tǒng)
? 5)Spark平臺使用和實操
第四講 流式大數據平臺Storm
? 1)流式大數據處理架構
? 2)Storm在企業(yè)應用介紹
? 3)Storm拓撲及流分組
? 4)Spout和Bolt詳解
? 5)分布式DPRC和Trident
6)Storm平臺使用和實操
第五講 Python網絡爬蟲
? 1)網絡爬蟲基礎
? 2)urllib和urllib2庫的用法
? 3)Python 正則表達式
? 4)Beautiful Soup使用
? 5)用Scrapy采集示例實操
第六講 大數據日志采集工具Flume
? 1)日志采集及Scribe介紹
2)Flume-NG數據流模型
? 3)Flume平臺架構
? 4)Flume集群部署配置
? 5)Flume應用案例實操
第七講 分布式消息訂閱工具Kafka
? 1)Kafka應用介紹
? 2)Kafka平臺架構
? 3)Kafka集群部署與配置
? 4)Kafka應用案例實操
第八講 NoSQL云數據處理工具
?? 1)NoSQL技術及云數據庫介紹
?? 2)HBase列數據存儲及處理機制
?? 3)HBase高并發(fā)讀/寫實現及案例
?? 4)MongoDB文檔數據存儲及處理
?? 5)MongoDB操作實現及案例
第九講 大數據中的SQL工具
?? 1)大數據中的類SQL工具
?? 2) Hive設計目標和數據模型
?? 3) Hive關鍵性技術和案例
?? 4) SparkSQL設計目標和數據模型
?? 5) SparkSQL關鍵性技術和案例
第十講 大數據分析挖掘工具
? 1)大數據挖掘及知識模型的發(fā)現
? 2)大數據挖掘工具Mahout和MLlib
? 3)推薦方法及MLlib電影推薦案例
? 4)分類方法及Mahout新聞分類案例
? 5)聚類方法及K-Means聚類案例
第十一講 資源虛擬化工具Docker
? 1)虛擬化和容器技術
? 2)LXC和Docker的發(fā)展
? 3)Docker架構及特性
? 4)鏡像、容器和倉庫
? 5)Docker的執(zhí)行及其案例實操
第十二講 大數據技術展望
? 1)大數據分析技術展望
? 2)大數據平臺的發(fā)展展望
? 3)大數據挖掘的應用展望