主講老師: | 傅一航 | |
課時安排: | 1天/6小時 | |
學習費用: | 面議 | |
課程預約: | 隋老師 (微信同號) | |
課程簡介: | 本課程主要介紹Hadoop的思想、原理,以及重要技術等相關知識。 | |
內訓課程分類: | 綜合管理 | 人力資源 | 市場營銷 | 財務稅務 | 基層管理 | 中層管理 | 領導力 | 管理溝通 | 薪酬績效 | 企業(yè)文化 | 團隊管理 | 行政辦公 | 公司治理 | 股權激勵 | 生產(chǎn)管理 | 采購物流 | 項目管理 | 安全管理 | 質量管理 | 員工管理 | 班組管理 | 職業(yè)技能 | 互聯(lián)網(wǎng)+ | 新媒體 | TTT培訓 | 禮儀服務 | 商務談判 | 演講培訓 | 宏觀經(jīng)濟 | 趨勢發(fā)展 | 金融資本 | 商業(yè)模式 | 戰(zhàn)略運營 | 法律風險 | 沙盤模擬 | 國企改革 | 鄉(xiāng)村振興 | 黨建培訓 | 保險培訓 | 銀行培訓 | 電信領域 | 房地產(chǎn) | 國學智慧 | 心理學 | 情緒管理 | 時間管理 | 目標管理 | 客戶管理 | 店長培訓 | 新能源 | 數(shù)字化轉型 | 工業(yè)4.0 | 電力行業(yè) | | |
更新時間: | 2023-09-01 11:18 |
【課程目標】
Hadoop作為開源的云計算平臺,為大數(shù)據(jù)處理提供了一整套解決方案,應用非常廣泛。Hadoop作為一個平臺框架,包括了如何存儲海量數(shù)據(jù),如何處理海量數(shù)據(jù),以及相應的數(shù)據(jù)庫、數(shù)據(jù)倉庫、數(shù)據(jù)流處理、數(shù)據(jù)分析和挖掘算法庫,等等。本課程主要介紹Hadoop的思想、原理,以及重要技術等相關知識。
通過本課程的學習,達到如下目的:
1、 全面了解大數(shù)據(jù)處理技術的相關知識。
2、 學習Hadoop的核心技術以及應用。
3、 深入掌握Hadoop的相關工具在大數(shù)據(jù)中的使用。
4、 掌握Hadoop的常用模塊的工作原理及開發(fā)應用技術。
5、 掌握傳統(tǒng)數(shù)據(jù)中心向大數(shù)據(jù)中心轉換的關鍵技術。
6、 掌握海量數(shù)據(jù)處理的性能優(yōu)化及維護技巧。
【授課時間】
2天時間
【授課對象】
網(wǎng)絡部、大數(shù)據(jù)系統(tǒng)開發(fā)部、大數(shù)據(jù)中心、網(wǎng)絡運維部等相關技術人員。
【授課方式】
原理精講+案例演練+開發(fā)實踐+系統(tǒng)優(yōu)化
【課程大綱】
1、 大數(shù)據(jù)時代面臨的問題
2、 當前解決大數(shù)據(jù)的技術方案
3、 Hadoop架構和云計算
4、 Hadoop簡史及安裝部署
5、 Hadoop設計理念和生態(tài)系統(tǒng)
1、 HDFS的設計目標
2、 HDFS的基本架構
? NameNode名稱節(jié)點
? SecondaryNameNode第二名稱節(jié)點
? DataNode數(shù)據(jù)節(jié)點
3、 HDFS的存儲模型
? 數(shù)據(jù)塊存儲
? 元數(shù)據(jù)存儲(空間鏡像與編輯日志)
? 多副本存儲
4、 多副本放置策略
5、 多數(shù)據(jù)節(jié)點管理機制與交互過程
6、 文件系統(tǒng)操作與管理
? 讀文件過程
? 寫文件過程(數(shù)據(jù)流管道)
7、 數(shù)據(jù)完整性機制
? 數(shù)據(jù)校驗和
? 數(shù)據(jù)完整性掃描線程
? 元數(shù)據(jù)備份與合并
8、 數(shù)據(jù)可靠性設計
? 安全模式(數(shù)據(jù)塊與節(jié)點映射關系管理)
? 心跳檢測機制(節(jié)點失效管理)
? 租約機制(多線程并發(fā)控制)
9、 其它
? HDFS的安全機制
? 負載均衡
? 文件壓縮
10、 操作接口與編程接口
? HDFS Shell
? HDFS Commands
? WebHDFS REST API
? HDFS Java API
演練:HDFS文件操作命令
演練:HDFS編程示例
1、 MapReduce的三層設計理念
? 分布治之的設計思想(Map與Reduce)
? 數(shù)據(jù)處理引擎(編程模型)
? 運行時環(huán)境(任務調度與執(zhí)行)
2、 MapReduce的基本架構
? JobTracker作業(yè)跟蹤器
? TaskTracker任務跟蹤器
? MapReduce與HDFS的部署關系
3、 MapReduce編程模型概述
? 編程接口介紹
? Hadoop工作流實現(xiàn)原理
4、 MapReduce作業(yè)調度機制
? MapReduce作業(yè)生命周期
? 作業(yè)調度策略
? 靜態(tài)資源管理方案
5、 數(shù)據(jù)并行處理機制(五步驟)
? Input階段實現(xiàn)
? Map階段實現(xiàn)
? Shuffle階段實現(xiàn)
? Reduce階段實現(xiàn)
? Output階段
6、 MapReduce容錯機制
? 任務失敗與重新嘗試
? 節(jié)點失效與重調度
? 單點故障
7、 MapReduce性能優(yōu)化
? 優(yōu)化方向與思路
? 磁盤IO性能優(yōu)化
? 分片優(yōu)化
? 線程數(shù)量優(yōu)化
? 內存優(yōu)化
? 壓縮優(yōu)化
8、 MapReduce操作接口
? Job Shell
? Web UI
案例演練:MapReduce編程示例
9、 YARN:下一代通用資源管理系統(tǒng)
? MRv1的局限性
? YARN基本框架
? NN HA:解決單點故障
? HDFS Federation:解決擴展性問題
1、 Hbase的使用場景
2、 Hbase的基本架構
? Zookeeper分布式協(xié)調服務器
? Master主控服務器
? Region Server區(qū)域服務器
3、 Hbase的數(shù)據(jù)模型
? Hbase的表結構
? 行鍵、列鍵、時間戳
4、 Hbase的存儲模型
? 基本單位Region
? 存儲格式HFile
5、 數(shù)據(jù)分裂機制Split
6、 數(shù)據(jù)合并機制Compaction
? minor compaction
? major compaction
7、 HLog寫前日志
8、 數(shù)據(jù)庫讀寫操作
? 數(shù)據(jù)庫寫入
? 數(shù)據(jù)庫讀取
? 三次尋址
9、 Hbase操作接口
? Native Java API
? Hbase Shell
? 批量加載工具
? HiveQL操作
10、 Hbase性能優(yōu)化
? 寫速度優(yōu)化
? 讀速度優(yōu)化
11、 Hbase集群監(jiān)控與管理
案例演練:HBase命令操作實例
1、 Hive是什么
2、 Hive與關系數(shù)據(jù)庫的區(qū)別
3、 Hive系統(tǒng)架構
? 用戶接口層
? 元數(shù)據(jù)存儲層
? 驅動層
4、 Hive常用服務
5、 Hive元數(shù)據(jù)的三種部署模式
6、 Hive的命名空間
7、 Hive數(shù)據(jù)類型與存儲格式
? 數(shù)據(jù)類型
? TextFile/SequenceFile/RCFile
8、 Hive的數(shù)據(jù)模型
? 管理表
? 外部表
? 分區(qū)表
? 桶表
9、 HQL語言命令實例
? DDL數(shù)據(jù)定義語言
? DML數(shù)據(jù)操作語言
? QUERY數(shù)據(jù)查詢語言
10、 Hive自定義函數(shù)
? 基本函數(shù)(UDF)
? 聚合函數(shù)(UDAF)
? 表生成函數(shù)(UDTF)
11、 Hive性能優(yōu)化
? 動態(tài)分區(qū)
? 壓縮
? 索引
? JVM重用
案例演練:Hive命令操作實例
1、 Sqoop是什么
2、 Sqoop的架構和功能
? Sqoop1架構
? Sqoop2架構
3、 數(shù)據(jù)雙向交換
? 數(shù)據(jù)導入過程
? 數(shù)據(jù)導出過程
4、 數(shù)據(jù)導入工具與命令介紹
案例演練:Sqoop數(shù)據(jù)導入/導出實際操作
1、 Pig介紹
2、 命令行交互工具Grunt
3、 Pig數(shù)據(jù)類型
4、 Pig Latin腳本語言介紹
? 基礎知識
? 輸入和輸出
? 關系操作
? 調用靜態(tài)Java函數(shù)
5、 Pig Latin高級應用
6、 開發(fā)與測試Pig Latin腳本
? 開發(fā)工具
? 任務狀態(tài)監(jiān)控
? 調試技巧
7、 腳本性能優(yōu)化
8、 用戶自定義函數(shù)UDF
案例演練:Pig Latin腳本編寫、測試與運行操作
結束:課程總結與問題答疑。
京公網(wǎng)安備 11011502001314號