Hadoop命令參考

1. Hadoop命令參考

Hadoop教程

1. Hadoop教程

Hadoop介紹快速入門

1. Hadoop介紹快速入門

Pig & Hive介紹

1. Pig & Hive介紹

Hadoop MapReduce

1. Hadoop MapReduce

Hadoop安裝

1. Hadoop安裝

Hadoop環(huán)境安裝設置

1. Hadoop環(huán)境安裝設置

Hadoop HDFS入門

1. Hadoop HDFS入門

理解 MapReducer

1. 理解 MapReducer

Hadoop多節(jié)點集群

1. Hadoop多節(jié)點集群

OOZIE 五分鐘入門學習

1. OOZIE 五分鐘入門學習

Flume和Sqoop

1. Flume和Sqoop

Hadoop是什么？

1. Hadoop是什么？

MapReduce計數(shù)器和連接

1. MapReduce計數(shù)器和連接

MapReduce Hadoop程序連接數(shù)據(jù)

1. MapReduce Hadoop程序連接數(shù)據(jù)

Hadoop Streaming

1. Hadoop Streaming

Hadoop HDFS

1. Hadoop HDFS

Hadoop程序入門實踐

1. Hadoop程序入門實踐

MapReduce簡介和入門

1. MapReduce簡介和入門

Hadoop大數(shù)據(jù)解決方案

1. Hadoop大數(shù)據(jù)解決方案

Hadoop HDFS操作

1. Hadoop HDFS操作

MapReduce Hadoop程序連接數(shù)據(jù)

這里有兩個數(shù)據(jù)集合在兩個不同的文件中，如下所示：

DEPT_ID 鍵在這兩個文件中常見的。

目標是使用 MapReduce 加入來組合這些文件。

輸入: 我們的輸入數(shù)據(jù)集是兩個txt文件：DeptName.txt 和 DepStrength.txt

下載輸入文件

前提條件：

本教程是在 Linux 上開發(fā) - Ubuntu操作系統(tǒng)
已經(jīng)安裝的Hadoop(本教程使用2.7.1版本)
Java的開發(fā)運行環(huán)境已經(jīng)在系統(tǒng)上安裝(本教程使用的版本是：1.8.0)

在我們開始實際操作之前，使用的用戶 'hduser_'(使用 Hadoop 的用戶)。

yiibai@ubuntu:~$ su hduser_

步驟

Step 1) 復制 zip 文件到您選擇的位置

hduser_@ubuntu:/home/yiibai$ cp /home/yiibai/Downloads/MapReduceJoin.tar.gz /home/hduser_/
hduser_@ubuntu:/home/yiibai$ ls /home/hduser_/

操作過程及結(jié)果如下：

Step 2) 解壓縮ZIP文件，使用以下命令：

hduser_@ubuntu:~$ sudo tar -xvf MapReduceJoin.tar.gz

Step 3) 進入目錄 MapReduceJoin/

hduser_@ubuntu:~$ cd MapReduceJoin/

Step 4) 啟動 Hadoop

hduser_@ubuntu:~/MapReduceJoin$ $HADOOP_HOME/sbin/start-dfs.sh
hduser_@ubuntu:~/MapReduceJoin$ $HADOOP_HOME/sbin/start-yarn.sh

Step 5) DeptStrength.txt 和 DeptName.txt 用于此項目的輸入文件

這些文件需要使用以下命令 - 復制到 HDFS 的根目錄下，使用以下命令：

hduser_@ubuntu:~/MapReduceJoin$ $HADOOP_HOME/bin/hdfs dfs -copyFromLocal DeptStrength.txt DeptName.txt /

Step 6) 使用以下命令 - 運行程序

hduser_@ubuntu:~/MapReduceJoin$ $HADOOP_HOME/bin/hadoop jar MapReduceJoin.jar /DeptStrength.txt /DeptName.txt /output_mapreducejoin

Step 7)

在執(zhí)行命令后, 輸出文件 (named 'part-00000') 將會存儲在 HDFS目錄 /output_mapreducejoin

結(jié)果可以使用命令行界面可以看到：

hduser_@ubuntu:~/MapReduceJoin$ $HADOOP_HOME/bin/hdfs dfs -cat /output_mapreducejoin/part-00000

結(jié)果也可以通過 Web 界面查看(這里我的虛擬機的IP是 192.168.1.109)，如下圖所示：

現(xiàn)在，選擇 “Browse the filesystem”，并瀏覽到 /output_mapreducejoin

打開 part-r-00000

結(jié)果如下所示，點擊 Download 鏈接下載：

打開下載后的文件，結(jié)果如下所示：

注：請注意，下一次運行此程序之前，需要刪除輸出目錄 /output_mapreducejoin

$HADOOP_HOME/bin/hdfs dfs -rm -r /output_mapreducejoin

另一種方法是使用不同的名稱作為輸出目錄。

上一篇：Hadoop HDFS下一篇：Hadoop是什么？