python為我們提供了SGMLParser類,SGMLParser 將 HTML 分析成 8 類數據[1],然后對每一類調用單獨的方法:使用時只需繼承SGMLParser 類,并編寫頁面信息的處理函數。
可用的處理函數如下:
開始標記 (Start tag)是一個開始一個塊的 HTML 標記,象 <html>,<head>,<body> 或 <pre> 等,或是一個獨一的標記,象 <br> 或 <img> 等。當它找到一個開始標記 tagname,SGMLParser 將查找名為 start_tagname 或 do_tagname 的方法。例如,當它找到一個 <pre> 標記,它將查找一個 start_pre 或 do_pre 的方法。如果找到了,SGMLParser 會使用這個標記的屬性列表來調用這個方法;否則,它用這個標記的名字和屬性列表來調用 unknown_starttag 方法。結束標記 (End tag)
是結束一個塊的 HTML 標記,象 </html>,</head>,</body> 或 </pre> 等。當找到一個結束標記時,SGMLParser 將查找名為 end_tagname 的方法。如果找到,SGMLParser 調用這個方法,否則它使用標記的名字來調用 unknown_endtag 。字符引用 (Character reference)
用字符的十進制或等同的十六進制來表示的轉義字符,象 。當找到,SGMLParser 使用十進制或等同的十六進制字符文本來調用
新聞熱點
疑難解答