平凡的幸福: Hadoop Cluster 增加節點（Node）

繼上次安裝安裝兩台Hadoop來組成Cluster，現在要試著再增加一台。

原來的Cluster架構：

1、Virual Machine A(Mater)：192.168.56.201(oel62n1)
2、Virual Machine B(Slave)：192.168.56.202(oel62n2)

預計增加一台：

Virual Machine C(Slave)：192.168.56.203(oel62n3)

因為我是以VirualBox來測試，所以就直接clone oel62n2，並且重設網路相關設定。

一、編輯/etc/hosts，增加下列一行：

192.168.56.203 oel62n3 oel62n3

二、設定SSH免密碼登入oel62n3

[root@oel62n1 ~]# ssh-copy-id -i ~/.ssh/id_dsa.pub root@oel62n3
（不要再執行ssh-keygen -d，因為key改變後會導致無法直接登入oel62n2）

三、設定Master（oel62n1）的/etc/hadoop/slaves，增加下列一行：

oel62n3

四、將Master的設定檔複製到oel62n3

[root@oel62n1 ~]# scp /etc/hadoop/* root@oel62n3:/etc/hadoop/

五、設定Script執行權限

[root@oel62n3 ~]# chmod 744 /usr/sbin/hadoop-daemon.sh

六、在增加的節點（oel62n3）上啟用Datanode、Tasktracker，不必將整個Cluster重新啟動

[root@oel62n3 ~]# hadoop-daemon.sh --config ./conf start datanode
[root@oel62n3 ~]# hadoop-daemon.sh --config ./conf start tasktracker

平均各節點的資料
[root@oel62n3 ~]# hadoop balancer

七、修正錯誤

原則上只要到上個步驟就成功了，但是我的情況卻出現了錯誤，我一啟動oel62n3的datanode
，oel62n2的datanode就shutdown，相反啟動oel62n2，shutdown的就是oel62n3。
所以只好先查看oel62n3的log：

[root@oel62n3 ~]# less /var/log/hadoop/root/hadoop-root-datanode-oel62n3.ccc.com.tw.log

內容一段比較奇怪的地方：
2012-08-03 14:48:02,076 WARN org.apache.hadoop.hdfs.server.datanode.
DataNode: DataNode is shutting down: org.apache.hadoop.ipc.RemoteException:
org.apache.hadoop.hdfs.protocol.UnregisteredDatanodeException:
Data node 192.168.56.203:50010 is attempting to report
storage ID DS-483675970-192.168.56.202-50010-1343799430568.
Node 192.168.56.202:50010 is expected to serve this storage.

上述訊息storage ID的值感覺好像不太對，再查看oel62n2的log：

[root@oel62n2 ~]# less /var/log/hadoop/root/hadoop-root-datanode-oel62n2.ccc.com.tw.log

storage id的值和oel62n3是一樣的：
2012-08-03 14:50:02,076 WARN org.apache.hadoop.hdfs.server.datanode.
DataNode: DataNode is shutting down: org.apache.hadoop.ipc.RemoteException:
org.apache.hadoop.hdfs.protocol.UnregisteredDatanodeException:
Data node 192.168.56.203:50010 is attempting to report
storage ID DS-483675970-192.168.56.202-50010-1343799430568.
Node 192.168.56.202:50010 is expected to serve this storage.

猜想原因是出在這裡，因為我是用VirualBox直接Clone新的機器，
所以導致兩台的storage Id重複，再查oel62n1的log，果然ID值就不一樣。
所以就試著修改看看：

[root@oel62n3 ~]# vi /tmp/hadoop-root/dfs/data/current/VERSION

將storageID的值
storageID=DS-483675970-192.168.56.202-50010-1343799430568
改為：
storageID=DS-483675970-192.168.56.203-50010-1343799430568

重新啟用datanote，結果如下圖，這次就成功了。

http://192.168.56.201:50070/

http://192.168.56.201:50030/