測試、預發布后用python檢測網頁是否有日常鏈接
2020-02-23 05:26:23
供稿:網友
在大的互聯網公司干技術的基本都會碰到測試、預發布、線上這種多套環境的,來實現測試和線上正式環境的隔離,這種情況下,就難免會碰到秀逗了把測試的鏈接發布到線上的情況,一般這種都是通過一些測試的檢查工具來檢查鏈接來規避風險的。前兩天跟了一個問題也是這個情況,開發疏忽把日常url發布到線上了。但是測試那邊沒有自動化的監控工具,導致沒有及時發現,由于最近正好在看python,后來處理完回家就想用python做個簡單的監控。
大略思路是:用python寫一個腳本來分析網頁里的所有url,看是否包含日常的鏈接,然后把腳本放到crontab里跑定時任務,10分鐘跑一次檢查。如果發現非法鏈接,就發告警郵件給相關人員。腳本代碼100行左右,比較好理解,貼上代碼。
本來想用beautifulsoup,不過考慮到安裝三方庫麻煩,所以還是用自帶的sgmllib來,不需要關心庫。發郵件函數沒有實現,根據各自的smtp服務器實現以下即可。
代碼如下:
#!/usr/bin/env python
#coding:UTF-8
import urllib2
from sgmllib import SGMLParser
import smtplib
import time
#from email.mime.text import MIMEText
#from bs4 import BeautifulSoup
#import re
class UrlParser(SGMLParser):
urls = []
def do_a(self,attrs):
'''''parse tag a'''
for name,value in attrs:
if name=='href':
self.urls.append(value)
else:
continue
def do_link(self,attrs):
'''''parse tag link'''
for name,value in attrs:
if name=='href':
self.urls.append(value);
else:
continue
def checkUrl(checkurl, isDetail):
'''''檢查checkurl對應的網頁源碼是否有非法url'''
parser = UrlParser()
page = urllib2.urlopen(checkurl)
content = page.read()
#content = unicode(content, "gb2312").encode("utf8")
parser.feed(content)
urls = parser.urls
dailyUrls = []
detailUrl = ""
for url in urls:
if 'daily' in url:
dailyUrls.append(url);
if not detailUrl and not isDetail and 'www.bc5u.com' in url:
detailUrl = url
page.close()
parser.close()
if isDetail:
return dailyUrls
else:
return dailyUrls,detailUrl
def sendMail():
'''''發送提醒郵件'''
pass
def log(content):
'''''記錄執行日志'''
logFile = 'checkdailyurl.log'
f = open(logFile,'a')
f.write(str(time.strftime("%Y-%m-%d %X",time.localtime()))+content+'/n')
f.flush()
f.close()
def main():
'''''入口方法'''
#檢查ju
url = "www.bc5u.com"
dailyUrls,detailUrl=checkUrl(url, False)
if dailyUrls:
#檢查到daily鏈接,發送告警郵件
sendMail()
log('check: find daily url')
else:
#沒檢查到daily鏈接,不處理
log('check: not find daily url')
#檢查judetail
dailyUrls=checkUrl(detailUrl, True)
if dailyUrls:
#檢查到daily鏈接,發送告警郵件