Python爬蟲基礎之XPath語法與lxml庫的用法詳解

2020-02-15 22:58:06

字體：大中小

來源：轉載

供稿：網友

前言

本來打算寫的標題是XPath語法，但是想了一下Python中的解析庫lxml，使用的是Xpath語法，同樣也是效率比較高的解析方法，所以就寫成了XPath語法和lxml庫的用法

XPath 即為 XML 路徑語言，它是一種用來確定 XML（標準通用標記語言的子集）文檔中某部分位置的語言。

XPath 基于 XML 的樹狀結構，提供在數據結構樹中找尋節點的能力。 XPath 同樣也支持HTML。

XPath 是一門小型的查詢語言。

python 中 lxml庫使用的是 Xpath 語法，是效率比較高的解析方法。

下面話不多說了，來一起看看詳細的介紹吧

安裝

為什么要用這個庫呢，因為要寫爬蟲啊，利用lxml庫來解析 HTML 代碼，同時lxml也繼承了libxml2的特性自動修正HTML代碼，利用pip安裝即可

pip install lxml

XPath語法

XPath是一門在XML文檔中查找信息的語言，可以用于在XML文檔中通過元素和屬性進行導航

舉個栗子 😎

我們可以使用XPath提取網站地圖中的所有鏈接，也就是說可以使用XPath去找我們HTML中的一些具體的東西

節點關系

在XPath中，有七種類型的節點：元素、屬性、文本、命名空間、處理指令、注釋以及文檔節點（或稱為根節點）

再舉個栗子 😎

<urlset><url><loc>https://qq52o.me</loc><lastmod>2018-04-28T19:00:42+00:00</lastmod><changefreq>daily</changefreq><priority>1.0</priority></url></urlset>

第一個：父（Parent）

每個元素以及屬性都有一個父

url元素是 loc、lastmod、changefreq以及 priority元素的父

第二個：子（Children）

元素節點可有零個、一個或多個子

loc、lastmod、changefreq以及 priority元素都是url元素的子

第三個：同胞（Sibling）

擁有相同的父的節點

loc、lastmod、changefreq以及 priority元素都是url元素的同胞

第四個：先輩（Ancestor）

某節點的父、父的父，等等

loc元素的先輩是 url元素和 urlset元素

第五個：后代（Descendant）

某個節點的子，子的子，等等

urlset的后代是url、loc、lastmod、changefreq以及 priority元素

如果你分不清楚，就按照子元素從上到下的去找元素節點

選取節點

XPath使用路徑表達式在 XML 文檔中選取節點，節點是通過沿著路徑或者 step 來選取的，也就是上面所說的按照子元素從上到下去找元素節點

這些是最有用的路徑表達式 💡

表達式

描述

nodename

選取此節點的所有子節點

上一篇：python一鍵去抖音視頻水印工具

下一篇：Python文件讀寫保存操作的示例代碼

學習交流

如何重啟打印機打印服務

如何重啟打印機打印服務...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

明兮語文停止運營發展資金鏈斷裂

2020-02-16 09:52:44

2006年李俊編寫了“熊貓燒香”電腦病毒，現在過得怎么樣？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未來會如何發展？

2020-02-11 22:02:38

NASA說今天地球引力最小能讓掃帚立起來？原因很簡單

2020-02-11 21:45:12

TCL集團宣布今日起正式更名為“TCL科技”

2020-02-07 10:36:18

黑莓曲終落，情懷價幾何？

2020-02-06 12:16:44

疑難解答

圖片精選

網友關注

亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb