Hadoop命令參考

1. Hadoop命令參考

Hadoop教程

1. Hadoop教程

Hadoop介紹快速入門

1. Hadoop介紹快速入門

Pig & Hive介紹

1. Pig & Hive介紹

Hadoop MapReduce

1. Hadoop MapReduce

Hadoop安裝

1. Hadoop安裝

Hadoop環(huán)境安裝設置

1. Hadoop環(huán)境安裝設置

Hadoop HDFS入門

1. Hadoop HDFS入門

理解 MapReducer

1. 理解 MapReducer

Hadoop多節(jié)點集群

1. Hadoop多節(jié)點集群

OOZIE 五分鐘入門學習

1. OOZIE 五分鐘入門學習

Flume和Sqoop

1. Flume和Sqoop

Hadoop是什么？

1. Hadoop是什么？

MapReduce計數器和連接

1. MapReduce計數器和連接

MapReduce Hadoop程序連接數據

1. MapReduce Hadoop程序連接數據

Hadoop Streaming

1. Hadoop Streaming

Hadoop HDFS

1. Hadoop HDFS

Hadoop程序入門實踐

1. Hadoop程序入門實踐

MapReduce簡介和入門

1. MapReduce簡介和入門

Hadoop大數據解決方案

1. Hadoop大數據解決方案

Hadoop HDFS操作

1. Hadoop HDFS操作

Hadoop HDFS

Hadoop文件系統(tǒng)使用分布式文件系統(tǒng)設計開發(fā)。它是運行在普通硬件。不像其他的分布式系統(tǒng)，HDFS是高度容錯以及使用低成本的硬件設計。

HDFS擁有超大型的數據量，并提供更輕松地訪問。為了存儲這些龐大的數據，這些文件都存儲在多臺機器。這些文件都存儲以冗余的方式來拯救系統(tǒng)免受可能的數據損失，在發(fā)生故障時。 HDFS也使得可用于并行處理的應用程序。

HDFS的特點

它適用于在分布式存儲和處理。
Hadoop提供的命令接口與HDFS進行交互。
名稱節(jié)點和數據節(jié)點的幫助用戶內置的服務器能夠輕松地檢查集群的狀態(tài)。
流式訪問文件系統(tǒng)數據。
HDFS提供了文件的權限和驗證。

HDFS架構

下面給出是Hadoop的文件系統(tǒng)的體系結構。

HDFS遵循主從架構，它具有以下元素。

名稱節(jié)點 - Namenode

名稱節(jié)點是包含GNU/Linux操作系統(tǒng)和軟件名稱節(jié)點的普通硬件。它是一個可以在商品硬件上運行的軟件。具有名稱節(jié)點系統(tǒng)作為主服務器，它執(zhí)行以下任務：

管理文件系統(tǒng)命名空間。
規(guī)范客戶端對文件的訪問。
它也執(zhí)行文件系統(tǒng)操作，如重命名，關閉和打開的文件和目錄。

數據節(jié)點 - Datanode

Datanode具有GNU/Linux操作系統(tǒng)和軟件Datanode的普通硬件。對于集群中的每個節(jié)點(普通硬件/系統(tǒng))，有一個數據節(jié)點。這些節(jié)點管理數據存儲在它們的系統(tǒng)。

數據節(jié)點上的文件系統(tǒng)執(zhí)行的讀寫操作，根據客戶的請求。
還根據名稱節(jié)點的指令執(zhí)行操作，如塊的創(chuàng)建，刪除和復制。

塊

一般用戶數據存儲在HDFS文件。在一個文件系統(tǒng)中的文件將被劃分為一個或多個段和/或存儲在個人數據的節(jié)點。這些文件段被稱為塊。換句話說，數據的HDFS可以讀取或寫入的最小量被稱為一個塊。缺省的塊大小為64MB，但它可以增加按需要在HDFS配置來改變。

HDFS的目標

故障檢測和恢復：由于HDFS包括大量的普通硬件，部件故障頻繁。因此HDFS應該具有快速和自動故障檢測和恢復機制。
巨大的數據集：HDFS有數百個集群節(jié)點來管理其龐大的數據集的應用程序。
數據硬件：請求的任務，當計算發(fā)生不久的數據可以高效地完成。涉及巨大的數據集特別是它減少了網絡通信量，并增加了吞吐量。

上一篇：Hadoop多節(jié)點集群下一篇：MapReduce Hadoop程序連接數據