鍍金池/ 教程/ 大數(shù)據(jù)/ HDFS - 寫文件
YARN - Failover
MapReduce - Shuffle
Hadoop配置
MapReduce - 讀取數(shù)據(jù)
Hadoop - MapReduce
YARN - Container
Hadoop 測試
MapReduce - Mapper
Hadoop - 參考
YARN - ResourceManager
HDFS - 可靠性
HDFS - 讀文件
Hadoop - 簡介
YARN - ApplicationMaster
Hadoop - IO
Hadoop 監(jiān)控
MapReduce - 編程
Hadoop - YARN
Hadoop - HDFS
HDFS - 命令工具
HDFS - 寫文件
YARN - NodeManager
Hadoop安裝

HDFS - 寫文件

http://wiki.jikexueyuan.com/project/hadoop/images/hdfs-write.png" alt="" />

1.客戶端將文件寫入本地磁盤的N#x4E34;時文件中

2.當臨時文件大小達到一個block大小時,HDFS client通知NameNode,申請寫入文件

3.NameNode在HDFS的文件系統(tǒng)中創(chuàng)建一個文件,并把該block id和要寫入的DataNode的列表返回給客戶端

4.客戶端收到這些信息后,將臨時文件寫入DataNodes

  • 4.1 客戶端將文件內(nèi)容寫入第一個DataNode(一般以4kb為單位進行傳輸)
  • 4.2 第一個DataNode接收后,將數(shù)據(jù)寫入本地磁盤,同時也傳輸給第二個DataNode
  • 4.3 依此類推到最后一個DataNode,數(shù)據(jù)在DataNode之間是通過pipeline的方式進行復制的
  • 4.4 后面的DataNode接收完數(shù)據(jù)后,都會發(fā)送一個確認給前一個DataNode,最終第一個DataNode返回確認給客戶端
  • 4.5 當客戶端接收到整個block的確認后,會向NameNode發(fā)送一個最終的確認信息
  • 4.6 如果寫入某個DataNode失敗,數(shù)據(jù)會繼續(xù)寫入其他的DataNode。然后NameNode會找另外一個好的DataNode繼續(xù)復制,以保證冗余性
  • 4.7 每個block都會有一個校驗碼,并存放到獨立的文件中,以便讀的時候來驗證其完整性

5.文件寫完后(客戶端關(guān)閉),NameNode提交文件(這時文件才可見,?#x5982;果提交前,NameNode垮掉,那文件也就丟失了。fsync:只保證數(shù)據(jù)的信息寫到NameNode上,但并不保證數(shù)據(jù)已經(jīng)被寫到DataNode中)

Rack aware(機架感知)

通過配置文件指定機架名和DNS的對應(yīng)關(guān)系

假設(shè)復制參數(shù)是3,在寫入文件時,會在本地的機架保存一份數(shù)據(jù),然后在另外一個機架內(nèi)保存兩份數(shù)據(jù)(同機架內(nèi)的傳輸速度快,從而提高性能)

整個HDFS的集群,最好是負載平衡的,這樣才能盡量利用集群的優(yōu)勢

上一篇:YARN - Failover