跳到主要內容

以Node.js試作簡單的網頁爬蟲

查詢Node.js的版本
E:\0_Project>node --version
v0.10.29

另外安裝兩個套件:
request -- http輔助工具
cheerio -- jQuery實作(Server端)
E:\0_Project>npm install request cheerio
npm WARN engine hawk@3.1.2: wanted: {"node":">=0.10.32"} (current: {"node":"v0.1
0.29","npm":"1.4.14"})
npm WARN engine cryptiles@2.0.5: wanted: {"node":">=0.10.40"} (current: {"node":
"v0.10.29","npm":"1.4.14"})
(…略)

安裝完成後會在當前的資料夾下產生「node_modules」的新資料夾,內含安裝的套件。

如要移除套件,則可以用參數remove
E:\0_Project>npm remove request cheerio
unbuild request@2.67.0
unbuild cheerio@0.19.0

在當前的目錄下新建一個js的檔案,名為test01.js

因為套件已經安裝完畢,所以在test01.js中可以直接呼叫。
var request = require("request");
var cheerio = require("cheerio");

Cheerio可以在Server並沒有瀏覽器幫助的情況下,幫我們建構好DOM,讓我們可以用jQuery的方式來實作。
使用方式也是相當簡單,把整個 HTML 扔給他,他就會回傳實作好的「$」。
request({
    //想抓取網頁的網址
    url: "http://blogger.twtnn.com",
    method: "GET"
  }, function(e,r,b) {
      // e: 錯誤代碼
      // b: 傳回的資料內容
     
      //將網頁資料傳給cheerio,它會幫我們做好DOM Tree
      $ = cheerio.load(b);
      //傳給titles的內容會是物件
      var titles = $("h1 a");
      //顯示物件的內容與結構
      console.log(titles);
      for ( i=0;i < titles.length;i++) {
          //方法一,以jQuery的方式來取出資料
          console.log($(titles[i]).text());
          //方法二,直接使用titles的物件來取出資料
          console.log(titles[i].children[0].data);
      }
  });

以node test01.js執行的結果如下:


這個網誌中的熱門文章

Line如何換行

在電腦版的Line輸入文字時,遇到需要換行的情形時,我都是用記事本先寫好再複製上去,這樣就可以有換行的效果,可是這樣的做法好像失去Line的便利性。 於是查了一下,原來有一個設定可以指定Enter換行,而不是發訊息出去。 完成設定之後,要發送訊息就改用Alt+Enter,而Enter就可以換行了。

在Windows下,利用tasklist與taskkill來刪除Process

Windows7 / Windows8 kill process Linux下要刪除某個程序通常會使用 ps 配合 kill 來刪除程序。 例如:ps -ef |grep [PROCESS NAME]       kill -9 [PID] 在Windows下,通常是開啟工作管理員來強制結束應用程式,但是如果要寫成Script,就必須改為命令式。 TASKLIST [/S system [/U username [/P [password]]]]          [/M [module] | /SVC | /V] [/FI filter] [/FO format] [/NH]           TASKKILL [/S system [/U username [/P [password]]]]          { [/FI filter] [/PID processid | /IM imagename] } [/T] [/F]           (Tasklist:查詢Process ; Taskkill:刪除Process)           例如要刪除已開啟的記事本(notepad): 1、查詢記事本的Process訊息     C:\> tasklist |find /i "notepad.exe"     notepad.exe      6092 Console     1     5,832 K 2、由上得知記事本的PID為6092     C:\> taskkill /f /PID 6092     成功:處理程序 PID 6092 已經終止了。     taskkill使用的參數     /f:指定此參數可強制終止處理程序     /PID:指定要終止之處理程序的 PID      3、也可以直接以程式名稱刪除     C:\ taskkill /f /im notepad.exe     成功:處理程序 "notepad.exe" <PID 6092> 已經終止了      下面是我自己測試的Script,可以刪除多個相同的程式,例如同時開啟了三個記事本: @echo off for /f &quo

Win 10 工作排程無法執行bat批次檔

利用Win 10的工作排程器來設定每日自動執行的批次檔,單獨執行批次檔沒問題,但是放在排程上就是無法執行。 後來試了幾種網路上提供的方式,其注意的事項如下: 1、在「安全性選項」選擇「只有使用者登入時才執行」並取消「以最高權限執行」。 2、在「設定」中選擇「Windows 10」 3、批次檔內的執行檔需以完整的路徑執行,或設定PATH路徑。 3、批次檔中如果帶有中文的路徑,則文字編碼類型必需是ANSI碼,       我的批次檔一開始就是UTF-8碼,但是單獨執行沒有問題,排程上就是有問題,       最後在批次檔中加入暫停指令pause才發現的。 4、如果想選擇「不論使用者登入與否均執行」,則在「設定」必須選擇「Windows Server 2003、Windows XP或Windows 2000」,    但是上述的選項只有在新增工作程程時才會出現,原有的工作排程是不會有此選項