跳到主要內容

Python BeautifulSoup模組爬蟲BPM帳號申請單程式


爬蟲程式可以讓我們取出網頁中指定的元素並加以利用

BeautifulSoup是Python的一個解析HTML的模組,方便我們找出HTML元素並加以利用。

因為BPM是以ASP.NET設計,所以在分析Request上需要有一些注意

ASP.NET在傳送Request時,會有幾個特殊的動態參數,這些參數值會依不同的頁面而不同,所以該參數的內容必須是上一頁的值,否則會產生Error

我是以Chrome的開發人員工具來觀察Request與Response,ASP.NET在Request(POST模式)時,會有下列特殊的動態參數:
__EVENTTARGET、__EVENTARGUMENT、__VIEWSTATE、__VIEWSTATEGENERATOR、__VIEWSTATEENCRYPTED、__EVENTVALIDATION

其中__VIEWSTATE、__EVENTVALIDATION的值必需是上一頁Response傳回的值,例如由index.htm -> a.htm -> b.htm
由index.htm按下連結至a.htm後,a.htm除了有HTML之後,還加上__VIEWSTATE、__EVENTVALIDATION的值,
而如果要連結到b.htm時,由a.htm發出的POST Request就必須包含b.htm的__VIEWSTATE、__EVENTVALIDATION的值

import requests
from bs4 import BeautifulSoup
#HttpNtlmAuth模組可以讓Python登入Windows網域
from requests_ntlm import HttpNtlmAuth
import re
from datetime import datetime,timedelta
import sys


#帳號申請單分析
def Account_Apply(soup) :
    txtUserNo = str.strip(soup.find('input',{"id":"txtUserNo"}).get("value")) #申請的帳號
    txtUserName = str.strip(soup.find('input',{"id":"txtUserName"}).get("value")) #新帳號的姓名
    txtPO = str(soup.find('input',{"id":"txtPO"}).get("value")) #單號
    PID = str(soup.find('span',{"id":"Label28"}).contents[0]) #案號
    txtStartDate = str(soup.find('input',{"id":"txt_StarDate"}).get("value")) #申請日期
    return (txtPO + " : " + PID + " : " + txtUserNo + " : " + txtUserName + " : " + txtStartDate)


#Post Data
def Apply_Postdata(post_dict) :
    return {
        '__EVENTTARGET': post_dict['eventtarget'] ,
        '__EVENTARGUMENT': post_dict['eventargument'],
        '__VIEWSTATE': post_dict['viewstate'],
        '__VIEWSTATEGENERATOR': post_dict['viewstategenerator'],
        '__VIEWSTATEENCRYPTED': '',
        '__EVENTVALIDATION': post_dict['eventvalidation'],
        'ctl00$TopMenu1$cboLanguage': '1',
        'ctl00$ContentPlaceHolder1$cboProcessType': '0', #處理種類不限
        'ctl00$ContentPlaceHolder1$cboFlowStatus': 'N', #狀態不限
        'ctl00$ContentPlaceHolder1$cboFlowid': '8',  #帳號申請單
        'ctl00$ContentPlaceHolder1$txtSdate': post_dict['Sdate'],
        'ctl00$ContentPlaceHolder1$txtEdate': post_dict['Edate'],
        'ctl00$ContentPlaceHolder1$txtisMercedesbenz': '0', #隱藏欄位,固定為0
        'ctl00$ContentPlaceHolder1$txtStatus': post_dict['status']  ,  #隱藏欄位
        'ctl00$ContentPlaceHolder1$txtmemo': '',
        'ctl00$ContentPlaceHolder1$txtActiveid': '',
        'ctl00$ContentPlaceHolder1$txtDisplayname': '',
        'ctl00$ContentPlaceHolder1$txt_ApplyName': ''
        }
    

#Configure
url_history = 'http://test-bpm/Client/Search/History.aspx'
url_index = 'http://test-bpm/Client/MyPage/index.aspx'
nt_user = ''
nt_passwd = ''
conSdate = ''
conEdate = ''

#取得Windows帳號及密碼
while nt_user is None or nt_user=='':
    nt_user = input("帳號(Domain\\UserID): ")
while nt_passwd is None or nt_passwd=='':
    nt_passwd = input("密碼(password): ")
while conSdate is None or conSdate=='':
    conSdate = input("日期起(yyyy/mm/dd): ")
while conEdate is None or conEdate=='':
    conEdate = input("日期迄(yyyy/mm/dd): ")
    
try:
    datetime.strptime(conSdate,'%Y/%m/%d')
    datetime.strptime(conEdate,'%Y/%m/%d')
except:
    print("\n日期格式錯誤")
    sys.exit(0)

#設定一個Http Session,讓下面的步驟都使用同一個Session
session = requests.Session()
session.auth = HttpNtlmAuth(nt_user,nt_passwd)

#因為ASP.net的POST會有動態的頁面變數,所以需要由首頁開始再依序抵達目標頁面,以上一頁的頁面變數來當作本頁的post參數

#index,由首頁出發
r = session.get(url_index)

if r.status_code == 401 :
    print('\n認證錯誤')
    sys.exit(0)
elif r.status_code != 200 :
    print('\n網頁傳回錯誤碼')
    sys.exit(0)

#history
r = session.get(url_history)
soup = BeautifulSoup(r.text, 'html.parser')
#取出url_history的動態參數值
VIEWSTATE = soup.find("input",{"id":"__VIEWSTATE"}).get('value')
VIEWSTATEGENERATOR = soup.find("input",{"id":"__VIEWSTATEGENERATOR"}).get('value')
EVENTVALIDATION = soup.find("input",{"id":"__EVENTVALIDATION"}).get('value')

#History Post Data
#注意要傳入__VIEWSTATE與__EVENTVALIDATION的值來當作連結下一頁的POST參數值
post_data = {
             'eventtarget':'ctl00$ContentPlaceHolder1$lbtnQuery',
             'eventargument':'',
             'viewstate': VIEWSTATE,
             'viewstategenerator': VIEWSTATEGENERATOR,
             'eventvalidation' : EVENTVALIDATION,
             'Sdate' : conSdate,
             'Edate' : conEdate,
             'status':'P'
            }


payload = Apply_Postdata(post_data)  
#如果__VIEWSTATE與__EVENTVALIDATION的值不符合,則會被導向Error的頁面,所以判斷Http Code會有問題
#因為雖然導向Error的頁面,但是還是成功連結到網頁,所以會回傳200的code碼
r = session.post(url_history,data=payload)

#以BeautifulSoup解析
soup = BeautifulSoup(r.text, 'html.parser')
history_url_link=[]
#findAll可以找出所有符合的值,findAll會返回list型態
for x in soup.findAll('tr'):
    try:
        if re.match('location.href',x['onclick']):
            # 替換字串
            history_url_link.append(x['onclick'].replace('location.href=\'..','http://test-bpm/Client').replace('\'',''))
    except:pass
    
#History Pages
#主要是取出除了第一頁外,還有幾個分頁
#findAll的參數可帶入re模組來搜尋
history_pages = len(soup.findAll(href=re.compile("Page\$")))

print("帳號申請單分頁數:" + str(history_pages + 1))

print("單號 : 案號 : 申請帳號 : 姓名 : 申請日期")

#計算筆數
show_count = 0

#第一頁
for s in range(len(history_url_link)):
    r = session.get(history_url_link[s])
    #這裡額外用soup1,而不用soup,是因為下一個分頁需要soup的__VIEWSTATE與__EVENTVALIDATION
    soup1 = BeautifulSoup(r.text,'html.parser')
    #find會傳回符合的值,而findAll則是傳回list,因為只有一個id,故用find直接傳回值即可
    href = 'http://test-bpm' + soup1.find("a",{"id":"ctl00_ContentPlaceHolder1_gvApprovalList_ctl02_hyForm"}).get('href')
    r = session.get(href)
    if r.status_code == 500 :
        href = 'http://test-bpm' + soup1.find("a",{"id":"ctl00_ContentPlaceHolder1_gvApprovalList_ctl03_hyForm"}).get('href')
        r = session.get(href)
        if r.status_code == 500 :
            print("Error: " + href)
    soup1 = BeautifulSoup(r.text,'html.parser')
    apply_detail_data = Account_Apply(soup1)
    print(apply_detail_data)
    show_count = show_count + 1

    
#其他頁
if history_pages > 0 :
    for pp in range(history_pages):
        VIEWSTATE = soup.find("input",{"id":"__VIEWSTATE"}).get('value')
        VIEWSTATEGENERATOR = soup.find("input",{"id":"__VIEWSTATEGENERATOR"}).get('value')
        EVENTVALIDATION = soup.find("input",{"id":"__EVENTVALIDATION"}).get('value')

        post_data = {
                     'eventtarget':'ctl00$ContentPlaceHolder1$gvQueryActivity',
                     'eventargument':'Page$' + str(pp+2), #從0開始
                     #'eventargument':'Page$2',
                     'viewstate': VIEWSTATE,
                     'viewstategenerator': VIEWSTATEGENERATOR,
                     'eventvalidation' : EVENTVALIDATION,
                     'Sdate' : conSdate,
                     'Edate' : conEdate,
                     'status' : 'N'
                    }
        payload = Apply_Postdata(post_data)  
        r = session.post(url_history,data=payload)
        soup = BeautifulSoup(r.text, 'html.parser')
        
        history_url_link=[]
        for x in soup.findAll('tr'):
            try:
                if re.match('location.href',x['onclick']):
                    # 替換字串
                    history_url_link.append(x['onclick'].replace('location.href=\'..','http://test-bpm/Client').replace('\'',''))
            except:pass
        for s in range(len(history_url_link)):
            r = session.get(history_url_link[s])
            soup1 = BeautifulSoup(r.text,'html.parser')
            href = 'http://test-bpm' + soup1.find("a",{"id":"ctl00_ContentPlaceHolder1_gvApprovalList_ctl02_hyForm"}).get('href')
            r = session.get(href)
            if r.status_code == 500 :
                href = 'http://test-bpm' + soup1.find("a",{"id":"ctl00_ContentPlaceHolder1_gvApprovalList_ctl03_hyForm"}).get('href')
                r = session.get(href)
                if r.status_code == 500 :
                    print("Error: " + href)
            soup1 = BeautifulSoup(r.text,'html.parser')
            apply_detail_data = Account_Apply(soup1)
            print(apply_detail_data)
            show_count = show_count + 1

print("抓取資料筆數: " + str(show_count))
   
  

# 寫入檔案
#f = open('testfile.csv','w')
#f.write(w_line)
#f.close


留言

這個網誌中的熱門文章

Shell Script簡易教學

一、概論
在許多的情況之下,我們都需要固定一組可以重覆或判斷資訊的指令,
而把這些指令存被在文字檔中,再交由Shell執行,就是Script。
一般會將Shell Script的副檔名命名為.sh,雖然副檔名在Linux中並非必要,
但是有副檔名可以讓我們更容易管理這些檔案。

假設有一個名為test.sh 的 Shell Script,首先用文字編輯器來撰寫內容如下:
#!/bin/bash
echo Hello World

第一行是必需的,它是用來定義你要使用的 shell。Linux中有許多的Shell可以使用,
如:ksh、bash,但是彼此之間語法有所差異,所以我們首先需要定義使用哪一個Shell。
而第二行的 echo 代表列出一個字串,預設會把後面的字串「Hello World」顯示在螢幕上。
將test.sh存檔後,可以用下列其中一種方式執行它:
1、直接輸入 sh test.sh
2、改變test.sh的權限,加上可以執行的權限,
   chmod a+x test.sh
   接著直接執行它:
   ./test.sh

在Shell Script中,「#」表示註解,在#後面將視為註解並且被程式忽略。
例如:
#pwd
ls -l
Shell只會執行ls -l,而不會執行ls -l

而「;」 則代表指令的分隔,例如:
pwd;ls -l

pwd
ls -l
都是一樣執行pwd及ls -l。

二、變數的使用
在Shell Script中,所有的變數都視為字串,因此不需要在定義變數類型。
在Shell中定義和使用變數時並不一樣。
例如,定義一個變數id並且設定值為2013001,接著還要將印出變數的值:
id=2013001 -> 定義變數時前面不加「$」符號
echo $id   -> 使用變數時前面要加「$」符號
注意,在等號的二邊不可以有空白,否則將出現錯誤。

再介紹一個範例:
dir=/home/oracle
ls $dir

這裡我們定義了變數dir的值為/home/oracle,接著用ls指令來印出變數dir,
此時指令會變為ls /home/oracle,所以就把目錄中所有檔案都列出來。


我們再來看一個例子,說明如何使用變數來定義變數:
$ tmppath=/tmp$ tmpfile=$tmppath/abc.txt$ ec…

在Windows下,利用tasklist與taskkill來刪除Process

Windows7 / Windows8 kill process

Linux下要刪除某個程序通常會使用 ps 配合 kill 來刪除程序。
例如:ps -ef |grep [PROCESS NAME]
      kill -9 [PID]

在Windows下,通常是開啟工作管理員來強制結束應用程式,但是如果要寫成Script,就必須改為命令式。

TASKLIST [/S system [/U username [/P [password]]]]
         [/M [module] | /SVC | /V] [/FI filter] [/FO format] [/NH]

TASKKILL [/S system [/U username [/P [password]]]]
         { [/FI filter] [/PID processid | /IM imagename] } [/T] [/F]

(Tasklist:查詢Process ; Taskkill:刪除Process)


例如要刪除已開啟的記事本(notepad):

1、查詢記事本的Process訊息
    C:\> tasklist |find /i "notepad.exe"
    notepad.exe      6092 Console     1     5,832 K

2、由上得知記事本的PID為6092
    C:\> taskkill /f /PID 6092
    成功:處理程序 PID 6092 已經終止了。

    taskkill使用的參數
    /f:指定此參數可強制終止處理程序
    /PID:指定要終止之處理程序的 PID

3、也可以直接以程式名稱刪除
    C:\ taskkill /f /im notepad.exe
    成功:處理程序 "notepad.exe" <PID 6092> 已經終止了


下面是我自己測試的Script,可以刪除多個相同的程式,例如同時開啟了三個記事本:
@echo off

for /f "tokens=2 delims= " %%c in ('tasklist /FI "imagename eq notepad.exe" /FO table /NH&…

用Excel 2010製作免費甘特圖

用Excel 2010製作免費甘特圖,以下是完成圖,其實是用圖表的功能加上修改圖表的選項來仿製甘特圖,
並非真正的甘特圖,如果要用免費的甘特圖軟體,可以下載GanttProject,有支援中文。
官方網址:http://www.ganttproject.biz/

首先將任務、開始日期、天數、完成日期填入工作表中,完成計劃後將資料全選,並在工具列上找到橫條圖。
一定要將資料全選起來,不然Excel有可能會判斷錯誤,畫出不符我們需求的圖表
(日期我算錯了,不過不影響製作,可以事後再修改)

圖表出現之後,修改資料的範圍(藍色框的部份),將資料由D6拉到C6。
「完成日期」只是為了讓Excel一開始不要判斷錯誤而產生錯誤的圖表。

在「藍色線條」上按滑鼠右鍵,選擇「資料數列格式」

依下圖點選「無填滿」,把藍色的線條變成透明,讓圖表看起來像是甘特圖。

接著我們要修改欄、列的參數,在下面日期的部份點選滑鼠右鍵,選「座標軸格式」

下方列是日期,所以選「日期」,並選擇一個類型

再來到「座標軸選項」中設定最小、最大值,讓圖表看起來更像甘特圖,其中最小值、最大值的數字,
是由1900/1/1到指定日期的總天數,例如:2014/4/9-1900/1/1=41737天(可用Excel直接相減得出數值)
「主要刻度間距」改為1,也就是間距為1天

接著回到圖表上,在左方任務列上按滑鼠右鍵,選擇「座標軸格式」

這次只選「類別次序反轉」,會把任務上下翻轉。

最後再將圖表的寬度、長度做一個調整就完成了。

補充說明: 如果遇到下列的情形,圖表的內容相反的話,可以按下「切換列/欄」來改變