亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

java獲得采集網頁內容的方法小結

2019-11-14 21:02:34
字體:
來源:轉載
供稿:網友
java獲得采集網頁內容的方法小結

      為了寫一個java的采集程序,從網上學習到3種方法可以獲取單個網頁內容的方法,主要是運用到是java IO流方面的知識,對其不熟悉,因此寫個小結。

import java.io.BufferedReader;import java.io.ByteArrayOutputStream;import java.io.IOException;import java.io.InputStreamReader;import java.net.HttpURLConnection;import java.net.URL;import java.util.regex.Matcher;import java.util.regex.Pattern;public class Get_Html {    public static void main(String[] args) throws Exception    {    long start= System.currentTimeMillis();        String str_url="http://www.hiphop8.com/city/guangdong/guangzhou.php";        Pattern p = Pattern.compile(">(13//d{5}|15//d{5}|18//d{5}|147//d{4})<");        //String html = get_Html_2(str_url);        //String html = get_Html_1(str_url);        String html = get_Html_3(str_url);        Matcher m = p.matcher(html);                int num = 0;       while(m.find()){System.out.PRintln("打印出的號碼段落:"+m.group(1)+"  編號"+(++num));}       System.out.println(num);              long end = System.currentTimeMillis();System.out.println("花費的時間"+(end-start)+"毫秒");    }     public static String get_Html_2(String str_url) throws IOException{    URL url = new URL(str_url);    String content="";StringBuffer page = new StringBuffer();try {BufferedReader in = new BufferedReader(new InputStreamReader(url                    .openStream(), "utf-8"));while((content = in.readLine()) != null){page.append(content);}} catch (IOException e) {// TODO Auto-generated catch blocke.printStackTrace();}        return page.toString();    }        public static String get_Html_1(String str_url) throws IOException{        URL url = new URL(str_url);        HttpURLConnection conn = (HttpURLConnection)url.openConnection();        InputStreamReader input = new InputStreamReader(conn.getInputStream(), "utf-8");          BufferedReader bufReader = new BufferedReader(input);          String line = "";          StringBuilder contentBuf = new StringBuilder();          while ((line = bufReader.readLine()) != null) {              contentBuf.append(line);          }        return contentBuf.toString();    }        /**     * 通過網站域名URL獲取該網站的源碼     * @param url     * @return String     * @throws Exception     */    public static String get_Html_3(String str_url) throws Exception    {    URL url = new URL(str_url);        HttpURLConnection conn = (HttpURLConnection)url.openConnection();        conn.setRequestMethod("GET");        conn.setConnectTimeout(5 * 1000);                        //設置連接超時        java.io.InputStream inStream = conn.getInputStream();  //通過輸入流獲取html二進制數據                      byte[] data = readInputStream(inStream);  //把二進制數據轉化為byte字節數據        String htmlSource = new String(data);        return htmlSource;    }        /**     * 把二進制流轉化為byte字節數組     * @param inStream     * @return byte[]     * @throws Exception     */    public static byte[] readInputStream(java.io.InputStream inStream) throws Exception {        ByteArrayOutputStream outStream = new ByteArrayOutputStream();        byte[]  buffer = new byte[1204];        int len = 0;        while ((len = inStream.read(buffer)) != -1){            outStream.write(buffer,0,len);        }        inStream.close();        return outStream.toByteArray();             } }

【分別測試6次的結果】不知道是不是獲取的網頁數量內容較小,采集效率差不多,不過方法2應該是最好最簡便的。

//get_Html_1  967  2658  1132  1199  988  1236 //get_Html_2  2323 2244 1202  1166  1081  1011 //get_Html_3  978  1219   1527   1133  1192  1774

 

1、關于url  .openStream()和conn.getInputStream()。

       二者返回的的都是InputStrema對象,且都是通過openConnection()方法獲取URLConnection對象,然后調用getInputStream()方法,所以方法2和方法1是一樣的,但前者更方便。

image

 

2、關于BufferedReader類。

【該類的功能】:能將  字符流  放入緩沖區(內存中的一塊小區域),以便實現高效的讀取。

【看構造方法】:

BufferedReader(Reader in)                   創建一個使用默認大小輸入緩沖區來緩沖字符輸入流。

BufferedReader(Reader in, int sz)          創建一個使用指定大小輸入緩沖區的緩沖字符輸入流。

【常用方法】:readLine()可以快速的實現文本字符的行讀取。

 

3、關于InputStreamReader 類

InputStreamReader 是從字節流到字符流的橋梁:它讀入字節,并根據指定的編碼方式,將之轉換為字符流,它是Reader的子類。

而為了達到更高效率,我們經常用 BufferedReader 封裝 InputStreamReader , 所以我們經??吹降挠梅ㄊ?/font>

BufferedReader Buf = new BufferedReader(new InputStreamReader(System.in);

 

這里的InputStreamReader類的功能是將字節流轉換為字符流,所以以上語句實現了 :將 字節輸入流 轉換為 字符輸入流 且放置緩沖區。

引用一張圖:image

 

4、關于 ByteArrayOutputStream類

       它是OutputStream類的擴展類,其構造函數是byteArrayInputStream(byte []buf),作用是把字節數組buf 變成輸入流的形式,并通過toString()或者toByteArray()方法或得想要的數據形式。方法3中的readInputStream方法可改為返回String類型,將后面的outStream.toByteArray()改為outStream.toString()方法,這樣又精簡了代碼。

 

5、 關于InputStream類

       InputStream與OutputStream: 是  8位字節 輸入/輸出流類的基類,主要用在處理二進制數據,它是按字節來處理的。文件在硬盤或在傳輸時都是以字節的方式進行的,包括圖片等都是按字節的方式存儲的,其余的字節流的處理類都是對該類的擴展,如等上面講ByteArrayInputStream類。

       由于InputStream.read()方法是每次從流里只讀取讀取一個字節,效率會非常低。而InputStream.read(byte[] b)或者InputStream.read(byte[] b,int off,int len)方法,一次可以讀取多個字節,效率較高,所以方法3中創建了一個byte字節數組,以便一次性讀取更多的字節。當read()方法讀取內容為空的時候,返回-1.

      另外字符輸入輸出流的基類 Reader/Writer,且要知道1個字符= 2字節,字符都是在內存中生成的,一個中文占兩個字節,其子類包含有上面講的的InputStreamRead類與BufferReader類。

 

      寫了幾點總結,都是和java的IO流有關的,是不是應該改個標題,想想還是算了,畢竟采集程序中很重要的一部分就是IO流方面的,java在IO流方面提供了豐富的類庫,邊學邊積累吧。


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
97超级碰在线看视频免费在线看| 一个人www欧美| 亚洲电影成人av99爱色| 国产精品视频网| 亚洲成av人片在线观看香蕉| 在线视频日本亚洲性| 欧美日韩日本国产| 日韩精品高清在线| 久久久伊人日本| 亚洲一区二区三区香蕉| 国产欧美日韩精品在线观看| 日韩性生活视频| 欧美片一区二区三区| 欧美性猛交xxxx富婆弯腰| www.日韩视频| 久久久精品免费视频| 欧美激情性做爰免费视频| 精品国产欧美一区二区五十路| 欧美高跟鞋交xxxxxhd| 欧美精品久久久久久久| 国产精品久久久久久超碰| 欧美亚洲成人精品| 日韩av中文字幕在线播放| 国产美女精品视频| 欧美成人激情视频免费观看| 日韩在线观看免费高清| 一本一本久久a久久精品牛牛影视| 中文字幕久久精品| 久久伊人91精品综合网站| 91免费福利视频| 亚洲欧洲激情在线| 国产一区二区三区在线观看视频| 91夜夜未满十八勿入爽爽影院| 久久精品夜夜夜夜夜久久| 91中文精品字幕在线视频| 国产成人综合av| 久久天天躁夜夜躁狠狠躁2022| 日韩一区二区三区xxxx| 欧美成人第一页| 国产精品18久久久久久麻辣| 国产精品女人久久久久久| 成人免费在线网址| 国产91九色视频| 久久激情视频久久| 国产精品极品美女粉嫩高清在线| 一个人看的www欧美| 久久99热这里只有精品国产| 国产福利视频一区二区| 影音先锋日韩有码| 九九九久久久久久| 国产精品丝袜一区二区三区| 日韩在线中文字| 久久视频在线免费观看| 色999日韩欧美国产| 日韩欧美福利视频| 成人免费在线网址| 国产精品揄拍500视频| 亚洲欧美国产精品久久久久久久| 国产精品99免视看9| 91精品久久久久久久久| 欧美怡红院视频一区二区三区| 日韩av在线免费播放| 亚洲日本欧美日韩高观看| 国产z一区二区三区| 4k岛国日韩精品**专区| 欧美亚洲在线视频| 久久久亚洲国产天美传媒修理工| 亚洲影视九九影院在线观看| 国产91成人在在线播放| 国产一区二区三区精品久久久| 麻豆国产va免费精品高清在线| 97超碰色婷婷| 青青草成人在线| 按摩亚洲人久久| 亚洲人成欧美中文字幕| 一区二区三区动漫| 国产精品色悠悠| 国产亚洲精品久久久久动| 一区二区三区亚洲| 北条麻妃99精品青青久久| 欧美日韩国产成人在线| 91青草视频久久| 成人欧美在线观看| 日韩专区在线观看| 91亚洲精品久久久久久久久久久久| 国内精品中文字幕| 国产伊人精品在线| 欧美特级www| 精品视频—区二区三区免费| 97成人超碰免| 亚洲va久久久噜噜噜久久天堂| 国内伊人久久久久久网站视频| 亚洲黄页视频免费观看| 欧美裸体xxxxx| 亚洲精品美女久久| 久久视频免费在线播放| 91av在线网站| 91久久国产婷婷一区二区| 日韩国产欧美区| 91色琪琪电影亚洲精品久久| 成人在线国产精品| 国产亚洲一区二区精品| 欧美精品18videosex性欧美| 国产亚洲欧洲高清一区| 精品国产区一区二区三区在线观看| 亚洲欧美第一页| 欧美成年人在线观看| 国产999在线| 成人免费淫片aa视频免费| 亚洲跨种族黑人xxx| 亚洲国产精品va| 久久精品视频在线| 国产欧洲精品视频| 久久久久在线观看| 国产国产精品人在线视| 亚洲精品动漫100p| 欧美激情视频网站| 韩剧1988免费观看全集| 欧美日韩久久久久| 91久久久亚洲精品| 日韩经典中文字幕在线观看| 亚洲va电影大全| 国产suv精品一区二区三区88区| 91亚洲精品久久久久久久久久久久| 欧美影院成年免费版| 亚洲成人aaa| 久久久久北条麻妃免费看| 久久精品电影网站| 91免费综合在线| 日韩欧美在线视频日韩欧美在线视频| 一区二区三区四区视频| 欧洲美女免费图片一区| 中文字幕视频一区二区在线有码| 91在线观看免费| 国产成人精品日本亚洲专区61| 欧美性视频精品| 亚洲娇小xxxx欧美娇小| 亚洲欧美精品suv| 久久的精品视频| 亚洲第一页自拍| 色yeye香蕉凹凸一区二区av| 色偷偷噜噜噜亚洲男人的天堂| 久久偷看各类女兵18女厕嘘嘘| 欧美丰满少妇xxxxx| 成人黄在线观看| 亚洲综合在线做性| 久久综合久中文字幕青草| 欧美激情网站在线观看| 国产一区二区精品丝袜| 国产精品99免视看9| 日韩精品免费在线播放| 亚洲高清不卡av| 久久久亚洲精品视频| 国产欧美久久一区二区| 韩国福利视频一区| 久久影视电视剧免费网站| 国产亚洲欧美日韩一区二区| 国产精品久久激情| 国产一区玩具在线观看| 亚洲美女在线观看| 97精品国产aⅴ7777| 亚洲欧美一区二区三区情侣bbw| 亚洲美女av电影| 日韩亚洲一区二区|