以Node.js試作簡單的網頁爬蟲

查詢Node.js的版本
E:\0_Project>node --version
v0.10.29

另外安裝兩個套件:
request -- http輔助工具
cheerio -- jQuery實作(Server端)
E:\0_Project>npm install request cheerio
npm WARN engine hawk@3.1.2: wanted: {"node":">=0.10.32"} (current: {"node":"v0.1
0.29","npm":"1.4.14"})
npm WARN engine cryptiles@2.0.5: wanted: {"node":">=0.10.40"} (current: {"node":
"v0.10.29","npm":"1.4.14"})
(…略)

安裝完成後會在當前的資料夾下產生「node_modules」的新資料夾,內含安裝的套件。

如要移除套件,則可以用參數remove
E:\0_Project>npm remove request cheerio
unbuild request@2.67.0
unbuild cheerio@0.19.0

在當前的目錄下新建一個js的檔案,名為test01.js

因為套件已經安裝完畢,所以在test01.js中可以直接呼叫。
var request = require("request");
var cheerio = require("cheerio");

Cheerio可以在Server並沒有瀏覽器幫助的情況下,幫我們建構好DOM,讓我們可以用jQuery的方式來實作。
使用方式也是相當簡單,把整個 HTML 扔給他,他就會回傳實作好的「$」。
request({
    //想抓取網頁的網址
    url: "http://blogger.twtnn.com",
    method: "GET"
  }, function(e,r,b) {
      // e: 錯誤代碼
      // b: 傳回的資料內容
     
      //將網頁資料傳給cheerio,它會幫我們做好DOM Tree
      $ = cheerio.load(b);
      //傳給titles的內容會是物件
      var titles = $("h1 a");
      //顯示物件的內容與結構
      console.log(titles);
      for ( i=0;i < titles.length;i++) {
          //方法一,以jQuery的方式來取出資料
          console.log($(titles[i]).text());
          //方法二,直接使用titles的物件來取出資料
          console.log(titles[i].children[0].data);
      }
  });

以node test01.js執行的結果如下:


Window 10利用PowerShell來關閉IPv6