亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Java > 正文

Java中使用開源庫JSoup解析HTML文件實例

2019-11-26 15:24:43
字體:
來源:轉載
供稿:網友

HTML是WEB的核心,互聯網中你看到的所有頁面都是HTML,不管它們是由JavaScript,JSP,PHP,ASP或者是別的什么WEB技術動態生成的。你的瀏覽器會去解析HTML并替你去渲染它們。不過如果你需要自己在Java程序中解析HTML文檔并查找某些元素,標簽,屬性或者檢查某個特定的元素是否存在的話,那又該如何呢?如果你已經使用Java編程多年了,我相信你肯定試過去解析XML,也使用過類似DOM或者SAX這樣的解析器,不過很有可能你從未進行過任何的HTML解析的工作。更諷刺的是,在Java應用中,很少會有需要你去解析HTML文檔的時候,這里并不包括Servlet或者其它的Java WEB技術。更糟糕的是,JDK核心里也沒有包括HTTP或者HTML的庫,至少我并不知道有這個。這就是為什么一碰上解析HTML文件時,許多Java程序員就得先Google一下 ,看看如何在Java中取出一個HTML的標簽。當我有這個需要的時候,我相信肯定會有一些開源庫能實現這個,不過我沒有想到竟然有JSoup這么酷的并且功能齊全的庫。它不僅能支持讀取并解析HTML文檔,而且還能讓你從HTML文件抽取出任何的元素,以及它們的屬性,它們的CSS屬性,你還能進它們進行修改。有了JSoup你簡直可以對HTML文檔做任何事情。我們將會看到如何在Java中從google主頁或者任何URL中下載并解析HTML文件的示例。

JSoup庫是什么

Jsoup是一個開源的Java庫,它可以用于處理實際應用中的HTML。它提供了非常便利的API來進行數據的提取及修改,充分利用了DOM,CSS以及jquery風格方法的長處。Jsoup實現了WAHTWG HTML5的規范,它從HTML解析出來的DOM和Chrome以及Firefox這樣的現代瀏覽器解析出來的完全一致。下面是Jsoup庫的一些有用的特性:

1.Jsoup可以從URL,文件,或者字符串中獲取并解析HTML。
2.Jsoup可以查找并提取數據,可以使用DOM遍歷或者CSS選擇器。
3.你可以使用Jsoup來修改HTML元素,屬性以及文本。
4.Jsoup通過一個安全的白名單確保了用戶提交的內容是干凈的,以防止XSS攻擊。
5.Jsoup還能輸出整潔的HTML。

Jsoup的設計初衷是用于處理現實生活中出現的各種不同的HTML,包括正確有效的HTML以及不完整的無效的標簽集合。Jsoup的一個核心競爭力就是它的健壯性。

在Java中使用Jsoup進行HTML解析

在這篇Java HTML解析的教程中,我們會看到在Java中使用Jsoup解析及遍歷HTML的三個不同的示例。第一個例子中,我們會解析一個HTML字符串,它的內容就是Java中的字符串字面量組成的標簽。第二個例子中,我們會從WEB中下載HTML文檔,而第三個例子中,我們會加載一個HTML示例文件login.html來進行解析。這個文件是一個HTML文檔的示例,它包含title標簽,body里面有一個div標簽,里面包含一個表單。它擁有input標簽來用于獲取用戶名及密碼,同時還有提交及重置的按鈕用來進行下一步操作。它是一個正確有效的HTML,也就是說,所有的標簽和屬性都是正確地閉合的。下面是我們這個HTML的示例文件:

復制代碼 代碼如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd">  
<html>  
<head>  
<meta http-equiv="Content-Type" content="text/html; charset=ISO-8859-1">  
<title>Login Page</title>  
</head>  
<body>  
<div id="login" class="simple" >  
<form action="login.do">  
Username : <input id="username" type="text" /><br>  
Password : <input id="password" type="password" /><br>  
<input id="submit" type="submit" />  
<input id="reset" type="reset" />  
</form>  
</div>  
</body>  
</html> 

使用Jsoup來解析HTML非常簡單,你只需調用它的靜態方法Jsoup.parse()并傳入你的HTML字符串給它就可以了。Jsoup提供了多個重載的parse()方法,它可以從字符串,文件,URI,URL,甚至InputStream中讀取HTML文件。如果不是UTF-8編碼的話,你還可以指定字符編碼,這樣可以正確地讀取HTML文件。下面是Jsoup庫中HTML解析方法的一個完整的列表。parse(String html)方法將輸入的HTML解析成一個新的Document。在Jsoup里,Document繼承了Element,而它又繼承自Node。同樣的TextNode也繼承自Node。只要你傳入的是一個不為null的字符串,你就肯定能獲取到一個成功的有意義的解析,得到一個包含head和body元素的Document。一旦你拿到這個Document,你就可以調用Document以及它的父類Element和Node上面的適當的方法來獲取到你想要的數據了。

解析HTML文檔的Java程序

下面是一個解析HTML字符串,網絡上下載的HTML文件,以及本地文件系統中的HTML文件的完整的Java程序。你可以使用Eclipse IDE或者別的IDE甚至命令來運行這個程序。在Eclipse里面則很簡單,拷貝這份代碼,新建一個Java工程,在src包上右鍵并粘貼進去就可以了。Eclipse會去創建正確的包及同名的Java源文件的,因此工作量最小。如果你已經有一個Java示例工程了,那么僅需一步就可以了。下面的這個Java程序展示了解析及遍歷HTML文件的三個不同例子。第一個例子中,我們直接解析了一個內容為HTML的字符串,第二個例子中我們解析了一個從URL中下載的HTML文件,第三個中我們從本地文件系統中加載了一個HTML文檔并進行解析。第一和第三個例子中都用到了parse方法來獲取一個Document對象,你可以查詢它來提取出任何的標簽值或者屬性值。第二個例子中,我們用到了Jsoup.connect方法,它會去創建URL的連接,下載HTML并進行解析。這個方法也會返回Document,它可以用于后續的查詢及獲取標簽或者屬性的值。

復制代碼 代碼如下:

import java.io.IOException; 
  
import org.jsoup.Jsoup; 
import org.jsoup.nodes.Document; 
import org.jsoup.nodes.Element; 
 
 
/** 
[*] Java Program to parse/read HTML documents from File using Jsoup library. 
[*] Jsoup is an open source library which allows Java developer to parse HTML 
[*] files and extract elements, manipulate data, change style using DOM, CSS and 
[*] JQuery like method. 
[*] 
[*] @author Javin Paul 
[*]/ 
public class HTMLParser{ 
  
    public static void main(String args[]) { 
  
        // Parse HTML String using JSoup library 
        String HTMLSTring = "<!DOCTYPE html>" 
                + "<html>" 
                + "<head>" 
                + "<title>JSoup Example</title>" 
                + "</head>" 
                + "<body>" 
                + "|[b]HelloWorld[/b]" 
                + "" 
                + "</body>" 
                + "</html>"; 
  
        Document html = Jsoup.parse(HTMLSTring); 
        String title = html.title(); 
        String h1 = html.body().getElementsByTag("h1").text(); 
  
        System.out.println("Input HTML String to JSoup :" + HTMLSTring); 
        System.out.println("After parsing, Title : " + title); 
        System.out.println("Afte parsing, Heading : " + h1); 
  
        // JSoup Example 2 - Reading HTML page from URL 
        Document doc; 
        try { 
            doc = Jsoup.connect("http://google.com/").get(); 
            title = doc.title(); 
        } catch (IOException e) { 
            e.printStackTrace(); 
        } 
  
        System.out.println("Jsoup Can read HTML page from URL, title : " + title); 
  
        // JSoup Example 3 - Parsing an HTML file in Java 
        //Document htmlFile = Jsoup.parse("login.html", "ISO-8859-1"); // wrong 
        Document htmlFile = null; 
        try { 
            htmlFile = Jsoup.parse(new File("login.html"), "ISO-8859-1"); 
        } catch (IOException e) { 
            // TODO Auto-generated catch block 
            e.printStackTrace(); 
        } // right 
        title = htmlFile.title(); 
        Element div = htmlFile.getElementById("login"); 
        String cssClass = div.className(); // getting class form HTML element 
  
        System.out.println("Jsoup can also parse HTML file directly"); 
        System.out.println("title : " + title); 
        System.out.println("class of div tag : " + cssClass); 
    } 
  

輸出:

復制代碼 代碼如下:

Input HTML String to JSoup :<!DOCTYPE html><html><head><title>JSoup Example</title></head><body><table><tr><td><h1>HelloWorld</h1></tr></table></body></html> 
After parsing, Title : JSoup Example 
Afte parsing, Heading : HelloWorld 
Jsoup Can read HTML page from URL, title : Google 
Jsoup can also parse HTML file directly title : Login Page 
class of div tag : simple 

Jsoup的好處就是它的健壯性很強。Jsoup HTML解析器會對你提供的HTML進行盡量干凈的解析,而不去考慮這個HTML是否是格式良好的。它可以處理如下這些錯誤:未閉合的標簽(比如,Java <p>Scala to <p>JavaScala),隱式標簽(比如,一個裸的|Java is Great被封裝到了|里面),它總能創建出一個文檔結構(包含head及body的HTML,并且head里只會包含正確的元素)。這就是在Java中如何進行HTML的解析。Jsoup是一個優秀的健壯的開源庫,它使得讀取HTML文檔,body片段,HTML字符串,以及直接從WEB中解析HTML內容都變得相當簡單。在這篇文章中,我們學習了如何在Java中獲取一個特定的HTML標簽,正如第一個例子中我們將title及H1標簽的值提取成了文本,而第三個例子中我們學習到了如何通過提取CSS屬性來從HTML標簽中獲取屬性值。除了強大的jQuery風格的html.body().getElementsByTag("h1").text()方法,你還可以提取任意的HTML標簽,它還提供了像Document.title()和Element.className()這樣便捷的方法,你可以快速獲取到標題及CSS類。希望JSoup能讓你玩得愉快,很快我們將會看到關于這個API的更多的一些例子。

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
久久亚洲精品视频| 久久久亚洲影院你懂的| 亚洲精品456在线播放狼人| 亚洲美女视频网站| 国产精品看片资源| 91在线观看欧美日韩| 色偷偷亚洲男人天堂| 日日噜噜噜夜夜爽亚洲精品| 日韩av在线网页| 日韩69视频在线观看| 国产精品视频一区二区三区四| 欧美日韩亚洲视频一区| 国产精品日日摸夜夜添夜夜av| 91最新国产视频| 久久久久久久香蕉网| 亚洲一区二区在线播放| 亚洲香蕉成视频在线观看| 成人激情视频在线观看| 日韩精品在线免费| 一本色道久久综合狠狠躁篇的优点| 中文字幕一精品亚洲无线一区| 亚洲人a成www在线影院| 欧美成人在线免费| 亚洲男人天堂网| 亚洲综合在线做性| 日韩美女av在线免费观看| 亚洲tv在线观看| 亚洲精品美女免费| 亚洲国产天堂久久综合| 亚洲香蕉av在线一区二区三区| 高清欧美一区二区三区| 国产精品久久久久国产a级| 欧美激情在线播放| 中文字幕久久亚洲| 国产日韩一区在线| 国产精品久久久久久超碰| 中文字幕久久久| 日韩经典一区二区三区| 日韩av在线免费| 精品国产乱码久久久久酒店| 欧美久久久精品| 久久久久久香蕉网| 欧美高清第一页| 亚洲欧美在线x视频| 久99久在线视频| 欧美日韩激情美女| 国产日韩精品视频| 国产日韩在线一区| 国产69精品久久久久99| 久久成人av网站| 亚洲国产欧美一区二区三区久久| 成人激情春色网| 亚洲第一视频在线观看| 国产一区玩具在线观看| 国产亚洲视频在线| 97视频人免费观看| 一区二区三区国产在线观看| 国产不卡精品视男人的天堂| 国产美女主播一区| 国产一区深夜福利| 欧美激情一区二区三区成人| 日韩在线精品一区| 国产成人久久精品| 国产99久久精品一区二区永久免费| 日韩成人高清在线| 国产亚洲精品日韩| 欧美激情性做爰免费视频| 国产精品成人播放| 91精品国产91| 美女视频久久黄| 成人欧美在线观看| 成人精品一区二区三区电影免费| 亚洲精品国产精品乱码不99按摩| 91精品国产九九九久久久亚洲| 欧美大尺度激情区在线播放| 欧美日韩在线另类| 日韩欧美在线视频日韩欧美在线视频| 国内免费精品永久在线视频| 亚洲肉体裸体xxxx137| 亚洲影院色在线观看免费| 亚洲成**性毛茸茸| 欧美日韩综合视频网址| 日本在线观看天堂男亚洲| 久久99久久99精品免观看粉嫩| 欧洲精品在线视频| 国产精品日日摸夜夜添夜夜av| 在线国产精品视频| 欧美插天视频在线播放| 久久视频这里只有精品| 亚洲精品国产拍免费91在线| 久久精品国产亚洲7777| 欧美国产高跟鞋裸体秀xxxhd| 亚洲精品在线91| 欧美中文字幕在线视频| 欧美黄色www| 日韩精品视频在线观看网址| 精品在线欧美视频| 欧美电影院免费观看| 中文字幕亚洲无线码a| 国产日韩欧美影视| 中文字幕久久精品| 欧美日韩激情小视频| 日韩av快播网址| 欧美日韩在线另类| 国产丝袜一区二区| 亚洲黄页网在线观看| 亚洲国产精品久久精品怡红院| 亚洲一区二区三区在线免费观看| 国内外成人免费激情在线视频| 国产成人a亚洲精品| 欧美国产视频日韩| 中文字幕日韩免费视频| 日韩a**站在线观看| 国产69精品99久久久久久宅男| 在线观看日韩www视频免费| 最近2019中文免费高清视频观看www99| 最近中文字幕2019免费| 亚洲欧美制服综合另类| 日韩精品中文字幕在线观看| 国产日韩欧美日韩| 欧美裸体xxxx极品少妇软件| 亚洲午夜未删减在线观看| 亚洲天堂男人天堂女人天堂| 精品无人区乱码1区2区3区在线| 国产精品久久久久av| 亚洲午夜未删减在线观看| 国产中文字幕亚洲| 亚洲成av人乱码色午夜| 亚洲电影av在线| 欧美成人精品一区二区| 国产噜噜噜噜久久久久久久久| 日韩欧美在线一区| 按摩亚洲人久久| 2021国产精品视频| 亚洲成人a**站| 国产亚洲精品美女久久久久| 亚洲r级在线观看| 亚洲视频国产视频| 91免费看国产| 欧美日本亚洲视频| 国产免费久久av| 国产精品免费久久久久影院| 国产精品激情自拍| 蜜臀久久99精品久久久无需会员| 欧美插天视频在线播放| 亚洲最大的av网站| 欧美成年人网站| 国产精品免费久久久久久| 国产一区视频在线| 久久亚洲影音av资源网| 亚洲精品国产拍免费91在线| 日韩视频免费在线观看| 国产精品视频久久| 国产精品盗摄久久久| 欧美日韩免费网站| 欧美激情一区二区三区成人| 久久成年人视频| 欧美电影免费看| 欧美激情精品久久久久| 欧美中文字幕精品| 欧美乱大交做爰xxxⅹ性3| 国产99久久精品一区二区| 欧美大片欧美激情性色a∨久久| 成人黄色av播放免费|