跳到主要內容

在Oracle Enterprise Linux 6.2上安裝Hadoop 1.0.3(Multi-Node Cluster)


Hadoop有下列不同的服務:NameNode、JobTracker、DataNode、TaskTracker、SecondaryNameNode
其中NameNode、JobTracker只能有一台主要的機器來負責


一、測試環境
  1、作業系統:Oracle Linux 6.2 x64
  2、Virual Machine A:192.168.56.201(oel62n1)  --> Master Host
  3、Virual Machine B:192.168.56.202(oel62n2)  --> Slave Host
  4、作業系統只安裝文字介面

二、安裝Hadoop套件(兩台都安裝)
  我是下載rpm:hadoop-1.0.3-1.x86_64.rpm
  也可以下載tar檔,直接解壓就可以了

  [root@oel62n1]# rpm -ivh hadoop-1.0.3-1.x86_64.rpm
  [root@oel62n2]# rpm -ivh hadoop-1.0.3-1.x86_64.rpm

  注意:如果像我前安裝並測試過sigle-node,最好就是把它刪除再重建,
   不然會像我一樣,一直出問題,設定檔怎麼設定都是有錯。
(因為對設定檔還不夠了解啦!)
我刪除的步驟:
        [root@oel62n1]# rpm -e hadoop-1.0.3-1.x86_64.rpm
   [root@oel62n1]# rm -rf /etc/hadoop
[root@oel62n1]# rm -rf /var/log/hadoop

三、設定對應的主機名稱、SSH直接登入
  1、編輯兩台的/etc/hosts
    將兩台的hostname、ip各自填入兩台的hosts內,
oel62n1、oel62n2的/etc/hosts內容如下:

127.0.0.1   localhost localhost.localdomain
    192.168.56.201 oel62n1   oel62n1
    192.168.56.202 oel62n2   oel62n2

  2、設定SSH直接登入,此步驟不要省略,以免後面啟動服務時要一直輸入密碼。

    [root@oel62n1]# ssh-keygen -d
    --所有選項都直接按下Enter鍵就好

    [root@oel62n1]# ssh-copy-id -i ~/.ssh/id_dsa.pub root@oel62n2

自己本身也要免密碼登入:
[root@oel62n1]# ssh-copy-id -i ~/.ssh/id_dsa.pub root@oel62n1

    測試看看是否直接進入oel62n2
    [root@oel62n1 .ssh]# ssh oel62n2

測試看看是否直接進入oel62n1
    [root@oel62n1 .ssh]# ssh oel62n1

四、兩台都要安裝JAVA(JDK)

  [root@oel62n1]# rpm -ivh jdk-7u5-linux-x64.rpm
  [root@oel62n2]# rpm -ivh jdk-7u5-linux-x64.rpm

五、設定Hadoop的masters、slaves參數檔(只有當master的host才需要)
  我是以oel62n1為master:
 
  [root@oel62n1]# vi /etc/hadoop/hadoop-env.sh

  修改JAVA_HOME的位置如下:
  export JAVA_HOME=/usr/java/jdk1.7.0_05

  [root@oel62n1]# vi /etc/hadoop/masters

  此參數檔是指定SecondaryNameNode的host,填入:
  oel62n1

  [root@oel62n1]# vi /etc/hadoop/slaves

  此參數檔是指定其他當為node的host,填入:
  oel62n1
  oel62n2

六、設定Hadoop的參數檔(所有的host都要,內容都是指向master)

  [root@oel62n1]# vi /etc/hadoop/core-site.xml

  增加的內容如下:
 
    fs.default.name
    hdfs://oel62n1:54310
    The name of the default file system.  A URI whose
      scheme and authority determine the FileSystem implementation.  The
      uri's scheme determines the config property (fs.SCHEME.impl) naming
      the FileSystem implementation class.  The uri's authority is used to
      determine the host, port, etc. for a filesystem.
 


  [root@oel62n1]# vi /etc/hadoop/mapred-site.xml

  增加的內容如下:
 
    mapred.job.tracker
    master:54311
    The host and port that the MapReduce job tracker runs
      at.  If "local", then jobs are run in-process as a single map
      and reduce task.
   
 

  [root@oel62n1]# vi /etc/hadoop/hdfs-site.xml

  增加的內容如下(每一份在HDFS上面的資料會有幾份的複製):
 
    dfs.replication
    2
    Default block replication.
      The actual number of replications can be specified when the file is created.
      The default is used if replication is not specified in create time.
   
 

  以上是較簡單、快速的設定,其實hadoop還有許多的設定可以變化,有時間再測試看看。

七、格式化Namecode的HDFS filesystem

  [root@oel62n1]# hadoop namenode -format

八、啟用/關閉Hadoop Cluster
  只要在master host上執行:

  開啟script
  [root@oel62n1]# start-all.sh

  關閉script
  [root@oel62n1]# stop-all.sh

  也可以依daemons開啟
  [root@oel62n1]# start-mapred.sh
  [root@oel62n1]# start-dfs.sh

  也可以依daemons關閉
  [root@oel62n1]# stop-mapred.sh
  [root@oel62n1]# stop-dfs.sh

  可以下jps的指令來觀察各daemons的狀態:

  Master Host:
    [root@oel62n1]# cd $JAVA_HOME/bin
    [root@oel62n1]# ./jps
    20853 DataNode
    20463 NameNode
    21200 Jps
    20966 SecondaryNameNode
    21156 TaskTracker
    21036 JobTracker

  Slave Host:
    [root@oel62n2]# cd $JAVA_HOME/bin
    [root@oel62n2]# ./jps
    4356 TaskTracker
    4431 Jps
    4191 DataNode

  也可以開啟網頁來檢視:
  JobTracker:http://192.168.56.201:50030/
  NameCode:http://192.168.56.201:50070/
  Tasktracker:http://192.168.56.201:50060/

十、錯誤修改

  第一次在開啟start-all.sh時並沒有成功,所以我查了一下log:
  [root@oel62n1]#  cat /var/log/hadoop/root/hadoop-root-datanode-oel62n1.log
  [root@oel62n2]#  cat /var/log/hadoop/root/hadoop-root-datanode-oel62n2.log

  錯誤訊息大致如下,意指我的檔案權限不對:
  2012-08-01 13:20:56,287 WARN org.apache.hadoop.hdfs.server.datanode.DataNode:
  Invalid directory in dfs.data.dir: Incorrect permission for /tmp/hadoop-root/dfs/data,
  expected: rwxr-xr-x, while actual: rwx------

  修改檔案權限,兩台都要:
  [root@oel62n1]#  chmod 755 /tmp/hadoop-root/dfs/data
  [root@oel62n2]#  chmod 755 /tmp/hadoop-root/dfs/data

  重新啟動後,又出現另一個錯誤,大致說我的namenode的id與記錄不符:
  ... ERROR org.apache.hadoop.dfs.DataNode: java.io.IOException:
  Incompatible namespaceIDs in /app/hadoop/tmp/dfs/data: namenode namespaceID = 308967713;
  datanode namespaceID = 113030094

  修改namenode的id:
  [root@oel62n1]# vi /tmp/hadoop-root/dfs/data/current/VERSION
  --將namespaceID改為與log一樣
  [root@oel62n2]# vi /tmp/hadoop-root/dfs/data/current/VERSION
  --將namespaceID改為與log一樣

  重新啟動後成功了。

留言

這個網誌中的熱門文章

Shell Script簡易教學

一、概論
在許多的情況之下,我們都需要固定一組可以重覆或判斷資訊的指令,
而把這些指令存被在文字檔中,再交由Shell執行,就是Script。
一般會將Shell Script的副檔名命名為.sh,雖然副檔名在Linux中並非必要,
但是有副檔名可以讓我們更容易管理這些檔案。

假設有一個名為test.sh 的 Shell Script,首先用文字編輯器來撰寫內容如下:
#!/bin/bash
echo Hello World

第一行是必需的,它是用來定義你要使用的 shell。Linux中有許多的Shell可以使用,
如:ksh、bash,但是彼此之間語法有所差異,所以我們首先需要定義使用哪一個Shell。
而第二行的 echo 代表列出一個字串,預設會把後面的字串「Hello World」顯示在螢幕上。
將test.sh存檔後,可以用下列其中一種方式執行它:
1、直接輸入 sh test.sh
2、改變test.sh的權限,加上可以執行的權限,
   chmod a+x test.sh
   接著直接執行它:
   ./test.sh

在Shell Script中,「#」表示註解,在#後面將視為註解並且被程式忽略。
例如:
#pwd
ls -l
Shell只會執行ls -l,而不會執行ls -l

而「;」 則代表指令的分隔,例如:
pwd;ls -l

pwd
ls -l
都是一樣執行pwd及ls -l。

二、變數的使用
在Shell Script中,所有的變數都視為字串,因此不需要在定義變數類型。
在Shell中定義和使用變數時並不一樣。
例如,定義一個變數id並且設定值為2013001,接著還要將印出變數的值:
id=2013001 -> 定義變數時前面不加「$」符號
echo $id   -> 使用變數時前面要加「$」符號
注意,在等號的二邊不可以有空白,否則將出現錯誤。

再介紹一個範例:
dir=/home/oracle
ls $dir

這裡我們定義了變數dir的值為/home/oracle,接著用ls指令來印出變數dir,
此時指令會變為ls /home/oracle,所以就把目錄中所有檔案都列出來。


我們再來看一個例子,說明如何使用變數來定義變數:
$ tmppath=/tmp$ tmpfile=$tmppath/abc.txt$ ec…

用Excel 2010製作免費甘特圖

用Excel 2010製作免費甘特圖,以下是完成圖,其實是用圖表的功能加上修改圖表的選項來仿製甘特圖,
並非真正的甘特圖,如果要用免費的甘特圖軟體,可以下載GanttProject,有支援中文。
官方網址:http://www.ganttproject.biz/

首先將任務、開始日期、天數、完成日期填入工作表中,完成計劃後將資料全選,並在工具列上找到橫條圖。
一定要將資料全選起來,不然Excel有可能會判斷錯誤,畫出不符我們需求的圖表
(日期我算錯了,不過不影響製作,可以事後再修改)

圖表出現之後,修改資料的範圍(藍色框的部份),將資料由D6拉到C6。
「完成日期」只是為了讓Excel一開始不要判斷錯誤而產生錯誤的圖表。

在「藍色線條」上按滑鼠右鍵,選擇「資料數列格式」

依下圖點選「無填滿」,把藍色的線條變成透明,讓圖表看起來像是甘特圖。

接著我們要修改欄、列的參數,在下面日期的部份點選滑鼠右鍵,選「座標軸格式」

下方列是日期,所以選「日期」,並選擇一個類型

再來到「座標軸選項」中設定最小、最大值,讓圖表看起來更像甘特圖,其中最小值、最大值的數字,
是由1900/1/1到指定日期的總天數,例如:2014/4/9-1900/1/1=41737天(可用Excel直接相減得出數值)
「主要刻度間距」改為1,也就是間距為1天

接著回到圖表上,在左方任務列上按滑鼠右鍵,選擇「座標軸格式」

這次只選「類別次序反轉」,會把任務上下翻轉。

最後再將圖表的寬度、長度做一個調整就完成了。

補充說明: 如果遇到下列的情形,圖表的內容相反的話,可以按下「切換列/欄」來改變

Excel可以自訂公式(函數)來補足內建公式(函數)無法處理的情形

Excel有許多實用的公式,善用這些公式可以達成大部份的功能,但是萬一公式無法滿足需求時,可以自訂公式來解決。

          自訂公式其實就是自訂函數,先開啟Visual Basic(VBA)


                     新增一個「模組」


在開啟的模組視窗內撰寫VBA的函數程式,例如:

Function TEST01(A, B)
    TEST01 = A * 10 + B * 20
End Function

                    函數TEST01需要兩個參數A、B,並且將計算的結果回傳。



完成上述的設計之後,就可以在插入函數中選擇使用者定義,再選擇TEST01。
(或直接在儲存格輸入函數名稱TEST01)
反正使用的方法就跟一般的Excle的公式一樣就對了。