http://wiki.jikexueyuan.com/project/hadoop/images/yarn-old-mapreduce.png" alt="" />
此架構會有以下問題:
總的來說就是單點問題和資源利用率問題
http://wiki.jikexueyuan.com/project/hadoop/images/yarn-architecture.png" alt="" />
http://wiki.jikexueyuan.com/project/hadoop/images/yarn-architecture-physical.png" alt="" />
YARN就是將JobTracker的職責進行拆分,將資源管理和任務調度監(jiān)控拆分成獨立#x7ACB;的進程:一個全局的資源管理和一個每個作業(yè)的管理(ApplicationMaster) ResourceManager和NodeManager提供了計算資源的分配和管理,而ApplicationMaster則完成應用程序的運行
http://wiki.jikexueyuan.com/project/hadoop/images/hadoop-different.png" alt="" />
YARN架構下形成了一個通用的資源管理平臺和一個通用的應用計算^#x5E73;臺,避免了舊架構的單點問題和資源利用率問題,同時也讓在其上運行的應用不再局限于MapReduce形式
http://wiki.jikexueyuan.com/project/hadoop/images/yarn-process.png" alt="" />
http://wiki.jikexueyuan.com/project/hadoop/images/yarn-process-status-update.png" alt="" />
1. Job submission
從ResourceManager中獲取一個Application ID 檢查作業(yè)輸出配置,計算輸入分片 拷貝作業(yè)資源(job jar、配置文件、分片信息)到HDFS,以便后面任務的執(zhí)行
2. Job initialization
ResourceManager將作業(yè)遞交給Scheduler(有很多調度算法,一般是根據優(yōu)先級)Scheduler為作業(yè)分配一個Container,ResourceManager就加載一個application master process并交給NodeManager管理ApplicationMaster主要是創(chuàng)建一系列的監(jiān)控進程來跟蹤作業(yè)的進度,同時獲取輸入分片,為每一個分片創(chuàng)建一個Map task和相應的reduce task Application Master還決定如何運行作業(yè),如果作業(yè)很?。膳渲茫瑒t直接在同一個JVM下運行
3. Task assignment
ApplicationMaster向Resource Manager申請資源(一個個的Container,指定任務分配的資源要求)一般是根據data locality來分配資源
4. Task execution
ApplicationMaster根據ResourceManager的分配情況,在對應的NodeManager中啟動Container 從HDFSN#x4E2D;讀取任務所需資源(job jar,配置文件等),然后執(zhí)行該任務
5. Progress and status update
定時將任務的進度和狀態(tài)報告給ApplicationMaster Client定時向ApplicationMaster獲取整個任務的進度和狀態(tài)
6. Job completion
Client定時檢查整個作業(yè)是否完成 作業(yè)完成后,會清空臨時文件、目錄等