前言
這個項目實已經在一個月前已經完成了,一直都想寫一篇博客來總結這個過程中遇到的一些問題。但最近一個月來都比較忙,所以一直拖到了現在。
首先說說起因吧,我沒事的時候,總喜歡依次點開學校主頁、教務處、圖書館以及學院的網站,看看有沒有什么新通知,雖然大多與我無關。恰逢最近正在學Python,經常聽到別人說用Python寫爬蟲很簡單,但自己尚未接觸過爬蟲。于是抱著試一試的心態看了幾篇關于Python爬蟲的博客,發現實現起來的確很簡單。于是,便一邊看著官方的文檔說明,一邊看著別人的博客,終于完成了自己的第一次爬蟲。
簡介
使用urllib.request庫獲取到目標url(各個網站的'更多通知'頁)的源代碼,然后利用Python的re庫進行正則匹配,提取到通知相關信息后,與文件中存取的上一次爬取到的信息進行對比。
若檢測到有新的通知,則利用twilio庫向指定手機號碼發送SMS,利用smtplib庫向指定郵箱發送提醒信息。
此外,還具有發送日志以及異常日志的功能。
目前僅支持本校的通知提醒,后續會逐步提高項目的通用性。
源碼:
Github地址:School_Notice
準備工作
安裝twilio庫:pip install twilio
注冊twilio賬號:Twilio
驗證手機號:用來接收短信提醒的號碼必須在twilio上進行驗證
遇到的問題
郵件發送
若用名為msg的變量來保存郵件文本,則msg['From']以及msg['To']必須為實際的發件人地址,否則可能會出現異常:SMTPDataError(code, resp).如必須寫作:msg['From'] = 'xxxxx@qq.com'.我是使用的QQ郵箱來發郵件,至于其他郵箱需不需要這樣寫還不清楚。
原本想用一個for循環來實現多人發送,后來發現smtplib庫的sendmail方法支持多人發送,但參數應為一個list,故可用str.split(',')將字符串轉為list。
我使用的是Windows下的Python,若計算機名為中文,則有可能會導致出現異常,可通過右擊此電腦->屬性,修改計算機名。
程序代碼中使用的郵箱密碼不是QQ密碼,應在郵箱設置->賬戶->SMTP服務處,獲取授權碼。
其他問題
有時候會接收不到Twilio發送的短信,給10086打電話也沒問出個所以然,可能是因為短信中有敏感詞(如:學校名),修改短信內容后就可以了
對上述幾個網站的源碼使用re.findall后返回的列表中的每個元組中的元素的順序均為時間、標題、鏈接,但對學生處網站的源碼正則匹配后的元素順序并不是按照上述順序的。所以應單獨進行調整,但直接修改一個元組中的元素,會出現異常:error:tuple' object does not support item assignment。
解決方法是:
if(subject_EN == 'snnu_xsc'): new_data = [] for item in data: temp = (item[1], item[2], item[0]) new_data.append(temp) data = new_data
Python3中的print函數是自動換行的,若不需要自動換行,則可寫作:print(str,end='')
不同網站的編碼格式可能不同,應按照各自的編碼方式進行解碼。若均采用utf-8的方式,則可能會出現各種編碼問題,如:
UnicodeDecodeError: ‘utf-8' codec can't decode byte 0xc9 in position 167
解決方法是:
if find1 == -1 & find2 == -1: Coding = 'utf-8'else: # 教務處網頁源碼編碼格式為為gbk # 學生處網頁源碼編碼格式為gb2312 Coding = 'gbk'data = response.read().decode(Coding)
Python程序打包為exe(Pyinstaller)
新聞熱點
疑難解答