Ruby的XML格式數據解析庫Nokogiri的使用進階

2019-10-26 19:29:13

字體：大中小

來源：轉載

供稿：網友

一、基礎語法
1.直接以字符串形式獲取nokogiri對象:

html_doc = Nokogiri::HTML("<html><body><h1>Mr. Belvedere Fan Club</h1></body></html>")xml_doc = Nokogiri::XML("<root><aliens><alien><name>Alf</name></alien></aliens></root>")

這里的html_doc和xml_doc就是nokogiri文件

2.也可以通過文件句柄獲取nokogiri對象:

f = File.open("blossom.xml")doc = Nokogiri::XML(f)f.close

3.還可以直接從網站獲取:

require 'open-uri'doc = Nokogiri::HTML(open("http://www.xxx.com/"))

二、XML文件解析實例
從XML/HTML文件里抓取字段的常用方法:

現在有一個名為shows.xml的文件,內容如下:

<root> <sitcoms>  <sitcom>   <name>Married with Children</name>   <characters>    <character>Al Bundy</character>    <character>Bud Bundy</character>    <character>Marcy Darcy</character>   </characters>  </sitcom>  <sitcom>   <name>Perfect Strangers</name>   <characters>    <character>Larry Appleton</character>    <character>Balki Bartokomous</character>   </characters>  </sitcom> </sitcoms> <dramas>  <drama>   <name>The A-Team</name>   <characters>    <character>John "Hannibal" Smith</character>    <character>Templeton "Face" Peck</character>    <character>"B.A." Baracus</character>    <character>"Howling Mad" Murdock</character>   </characters>  </drama> </dramas></root>

如果想把所有character標簽的內容查找出來,可以這樣處理:

@doc = Nokogiri::XML(File.open("shows.xml"))@doc.xpath("http://character")

xpath和css方法,返回的是一個結點列表,類似于一個數組,它的內容就是從文件中查找出來的符合匹配規則的結點.

把dramas結點里的character結點列表查出來:

@doc.xpath("http://dramas//character")

更有可讀性的css方法:

characters = @doc.css("sitcoms name")# => ["<name>Married with Children</name>", "<name>Perfect Strangers</name>"]

當已知查詢結果唯一時,如果想直接返回這個結果,而不是列表,可以直接使用at_xpath或at_css:

@doc.css("dramas name").first # => "<name>The A-Team</name>"@doc.at_css("dramas name")  # => "<name>The A-Team</name>"

三、Namespaces
對于有多個標簽的情況,命名空間就起到非常大的作用了.
例如有這樣一個parts.xml文件:

上一篇：詳解Ruby中正則表達式對字符串的匹配和替換操作

下一篇：Linux下Redis數據庫的安裝方法與自動啟動腳本分享

學習交流

電腦開不了機的原因和解決辦法

電腦開不了機的原因和解決辦法...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注