亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Java > 正文

零基礎寫Java知乎爬蟲之先拿百度首頁練練手

2019-11-26 15:21:55
字體:
來源:轉載
供稿:網友

上一集中我們說到需要用Java來制作一個知乎爬蟲,那么這一次,我們就來研究一下如何使用代碼獲取到網頁的內容。

首先,沒有HTML和CSS和JS和AJAX經驗的建議先去W3C(點我點我)小小的了解一下。

說到HTML,這里就涉及到一個GET訪問和POST訪問的問題。

如果對這個方面缺乏了解可以閱讀W3C的這篇:《GET對比POST》。

啊哈,在此不再贅述。

然后咧,接下來我們需要用Java來爬取一個網頁的內容。

這時候,我們的百度就要派上用場了。

沒錯,他不再是那個默默無聞的網速測試器了,他即將成為我們的爬蟲小白鼠!~

我們先來看看百度的首頁:

相信大家都知道,現在這樣的一個頁面,是HTML和CSS共同工作的結果。

我們在瀏覽器中右擊頁面,選擇“查看頁面源代碼”:

沒錯,就是這一坨翔一樣的東西。這就是百度頁面的源代碼。

接下來我們的任務,就是使用我們的爬蟲也獲取到一樣的東西。

先來看一段簡單的源碼:

import java.io.*;
import java.net.*;
public class Main {
 public static void main(String[] args) {
  // 定義即將訪問的鏈接
  String url = "  // 定義一個字符串用來存儲網頁內容
  String result = "";
  // 定義一個緩沖字符輸入流
  BufferedReader in = null;
  try {
   // 將string轉成url對象
   URL realUrl = new URL(url);
   // 初始化一個鏈接到那個url的連接
   URLConnection connection = realUrl.openConnection();
   // 開始實際的連接
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時存儲抓取到的每一行的數據
   String line;
   while ((line = in.readLine()) != null) {
    //遍歷抓取到的每一行并將其存儲到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("發送GET請求出現異常!" + e);
   e.printStackTrace();
  }
  // 使用finally來關閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  System.out.println(result);
 }
}

以上就是Java模擬Get訪問百度的Main方法,

可以運行一下看看結果:


啊哈,和我們前面用瀏覽器看到的一模一樣。至此,一個最最簡單的爬蟲就算是做好了。

但是這么一大坨東西未必都是我想要的啊,怎么從中抓取出我想要的東西呢?

以百度的大爪子Logo為例。

臨時需求:

獲取百度Logo的大爪子的圖片鏈接。

先說一下瀏覽器的查看方法。

鼠標對圖片右擊,選擇審查元素(火狐,谷歌,IE11,均有此功能,只是名字不太一樣):

啊哈,可以看到在一大堆div的圍攻下的可憐的img標簽。

這個src就是圖像的鏈接了。

那么在java中我們怎么搞呢?

事先說明,為了方便演示代碼,所有代碼均未作類封裝,還請諒解。

我們先把前面的代碼封裝成一個sendGet函數:

import java.io.*;
import java.net.*;
public class Main {
 static String sendGet(String url) {
  // 定義一個字符串用來存儲網頁內容
  String result = "";
  // 定義一個緩沖字符輸入流
  BufferedReader in = null;
  try {
   // 將string轉成url對象
   URL realUrl = new URL(url);
   // 初始化一個鏈接到那個url的連接
   URLConnection connection = realUrl.openConnection();
   // 開始實際的連接
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時存儲抓取到的每一行的數據
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行并將其存儲到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("發送GET請求出現異常!" + e);
   e.printStackTrace();
  }
  // 使用finally來關閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 public static void main(String[] args) {
  // 定義即將訪問的鏈接
  String url = "
  // 訪問鏈接并獲取頁面內容
  String result = sendGet(url);
  System.out.println(result);
 }
}

這樣看起來稍微整潔了一點,請原諒我這個強迫癥。

接下來的任務,就是從獲取到的一大堆東西里面找到那個圖片的鏈接。

我們首先可以想到的方法,是對頁面源碼的字符串result使用indexof函數進行String的子串搜索。

沒錯這個方法是可以慢慢解決這個問題,比如直接indexOf("src")找到開始的序號,然后再稀里嘩啦的搞到結束的序號。

不過我們不能一直使用這種方法,畢竟草鞋只適合出門走走,后期還是需要切假腿來拿人頭的。

請原諒我的亂入,繼續。

那么我們用什么方式來尋找這張圖片的src呢?

沒錯,正如下面觀眾所說,正則匹配。

如果有同學不太清楚正則,可以參照這篇文章:[Python]網絡爬蟲(七):Python中的正則表達式教程。

簡單來說,正則就像是匹配。

比如三個胖子站在這里,分別穿著紅衣服,藍衣服,綠衣服。

正則就是:抓住那個穿綠衣服的!

然后把綠胖子單獨抓了出來。

就是這么簡單。

但是正則的語法卻還是博大精深的,剛接觸的時候難免有點摸不著頭腦,

向大家推薦一個正則的在線測試工具:正則表達式在線測試。

有了正則這個神兵利器,那么怎么在java里面使用正則呢?

先來看個簡單的小李子吧。

啊錯了,小栗子。

  // 定義一個樣式模板,此中使用正則表達式,括號中是要抓的內容
  // 相當于埋好了陷阱匹配的地方就會掉下去
  Pattern pattern = Pattern.compile("href=/"(.+?)/"");
  // 定義一個matcher用來做匹配
  Matcher matcher = pattern.matcher("<a href=/"index.html/">我的主頁</a>");
  // 如果找到了
  if (matcher.find()) {
   // 打印出結果
   System.out.println(matcher.group(1));
  }

運行結果:

index.html

沒錯,這就是我們的第一個正則代碼。

這樣應用的抓取圖片的鏈接想必也是信手拈來了。

我們將正則匹配封裝成一個函數,然后將代碼作如下修改:

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
 static String SendGet(String url) {
  // 定義一個字符串用來存儲網頁內容
  String result = "";
  // 定義一個緩沖字符輸入流
  BufferedReader in = null;
  try {
   // 將string轉成url對象
   URL realUrl = new URL(url);
   // 初始化一個鏈接到那個url的連接
   URLConnection connection = realUrl.openConnection();
   // 開始實際的連接
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時存儲抓取到的每一行的數據
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行并將其存儲到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("發送GET請求出現異常!" + e);
   e.printStackTrace();
  }
  // 使用finally來關閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 static String RegexString(String targetStr, String patternStr) {
  // 定義一個樣式模板,此中使用正則表達式,括號中是要抓的內容
  // 相當于埋好了陷阱匹配的地方就會掉下去
  Pattern pattern = Pattern.compile(patternStr);
  // 定義一個matcher用來做匹配
  Matcher matcher = pattern.matcher(targetStr);
  // 如果找到了
  if (matcher.find()) {
   // 打印出結果
   return matcher.group(1);
  }
  return "";
 }
 public static void main(String[] args) {
  // 定義即將訪問的鏈接
  String url = "
  // 訪問鏈接并獲取頁面內容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內容
  String imgSrc = RegexString(result, "即將的正則語法");
  // 打印結果
  System.out.println(imgSrc);
 }
}

好的,現在萬事俱備,只差一個正則語法了!

那么用什么正則語句比較合適呢?

我們發現只要抓住了src="xxxxxx"這個字符串,就能抓出整個src鏈接,

所以簡單的正則語句:src=/"(.+?)/"

完整代碼如下:

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
 static String SendGet(String url) {
  // 定義一個字符串用來存儲網頁內容
  String result = "";
  // 定義一個緩沖字符輸入流
  BufferedReader in = null;
  try {
   // 將string轉成url對象
   URL realUrl = new URL(url);
   // 初始化一個鏈接到那個url的連接
   URLConnection connection = realUrl.openConnection();
   // 開始實際的連接
   connection.connect();
   // 初始化 BufferedReader輸入流來讀取URL的響應
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來臨時存儲抓取到的每一行的數據
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行并將其存儲到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("發送GET請求出現異常!" + e);
   e.printStackTrace();
  }
  // 使用finally來關閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 static String RegexString(String targetStr, String patternStr) {
  // 定義一個樣式模板,此中使用正則表達式,括號中是要抓的內容
  // 相當于埋好了陷阱匹配的地方就會掉下去
  Pattern pattern = Pattern.compile(patternStr);
  // 定義一個matcher用來做匹配
  Matcher matcher = pattern.matcher(targetStr);
  // 如果找到了
  if (matcher.find()) {
   // 打印出結果
   return matcher.group(1);
  }
  return "Nothing";
 }
 public static void main(String[] args) {
  // 定義即將訪問的鏈接
  String url = "
  // 訪問鏈接并獲取頁面內容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內容
  String imgSrc = RegexString(result, "src=/"(.+?)/"");
  // 打印結果
  System.out.println(imgSrc);
 }
}

這樣我們就能用java抓出百度LOGO的鏈接了。

好吧雖然花了很多時間講百度,但是基礎要打扎實啦,下次我們正式開始抓知乎咯!~

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
美乳少妇欧美精品| 人人做人人澡人人爽欧美| 97视频在线观看免费| 欧美日韩ab片| 国产精品欧美日韩一区二区| 日本aⅴ大伊香蕉精品视频| 国产亚洲精品久久久久动| 日韩福利伦理影院免费| 91伊人影院在线播放| 国产精品爱啪在线线免费观看| 欧美色道久久88综合亚洲精品| 久久亚洲国产精品成人av秋霞| 一区二区三区日韩在线| 国模精品系列视频| 亚洲欧美www| 欧美精品性视频| 亚洲第一色在线| 欧美尤物巨大精品爽| 亚洲人线精品午夜| 黄色一区二区在线观看| 欧美日韩中文字幕日韩欧美| 欧美性黄网官网| 日韩中文字幕久久| 国产精品爱久久久久久久| 久久久久久久久久久久久久久久久久av| 92福利视频午夜1000合集在线观看| 国产亚洲a∨片在线观看| 91九色精品视频| 国产精品久久电影观看| 亚洲福利在线播放| 国产91精品久| 精品久久久国产精品999| 国产精品视频yy9099| 欧美成人中文字幕| 国产欧亚日韩视频| 亚洲曰本av电影| 欧美日韩国产精品一区二区三区四区| 91在线免费看网站| 亚洲最大av网| 欧美精品videos| 九九久久国产精品| 欧美激情videoshd| 国产91在线播放| 国产美女被下药99| 欧美激情第一页xxx| 国产精品天天狠天天看| 性亚洲最疯狂xxxx高清| 久久久久久免费精品| 成人精品一区二区三区电影免费| 日韩av不卡电影| 亚洲国产一区自拍| 国内精品久久久久| 国产精品专区一| 91精品国产色综合| 亚洲欧美日韩第一区| 久久综合88中文色鬼| 成人午夜两性视频| 亚洲福利在线播放| 亚洲图片在区色| 亚洲国产精品久久久久| 欧美国产极速在线| 亚洲日本欧美中文幕| 国产亚洲成av人片在线观看桃| 91九色蝌蚪国产| 亚洲欧美制服综合另类| 热99精品只有里视频精品| 日韩精品免费综合视频在线播放| 国产国产精品人在线视| 国产一区二区动漫| 国产精品第七十二页| 国产亚洲一级高清| 欧美午夜www高清视频| 视频在线观看一区二区| 91免费国产视频| 日韩亚洲欧美中文高清在线| 欧美日韩午夜视频在线观看| 亚洲欧美国产精品久久久久久久| 91精品啪在线观看麻豆免费| 成人激情视频小说免费下载| 欧美日韩裸体免费视频| 黑人极品videos精品欧美裸| 91社影院在线观看| 555www成人网| 日韩精品在线观| 久久成人精品电影| 精品福利在线视频| 最近中文字幕mv在线一区二区三区四区| 欧美中文字幕视频在线观看| 亚洲精品网址在线观看| 91久久久久久国产精品| 久久久免费高清电视剧观看| 久久久久在线观看| 日韩成人在线观看| 久久精品久久久久| 中国日韩欧美久久久久久久久| 亚洲第五色综合网| 欧美www在线| 91wwwcom在线观看| 日韩小视频网址| 欧美日韩国产一区中文午夜| 欧美激情影音先锋| 欧美一级淫片videoshd| 亚洲自拍中文字幕| 中文字幕欧美精品日韩中文字幕| 欧美大胆a视频| 国产成人久久精品| 亚洲欧美激情一区| 在线播放国产一区中文字幕剧情欧美| 国产精品久久久999| 亚洲国产天堂网精品网站| 欧美丝袜一区二区| 91精品国产91久久久久久| 国产精品91视频| 欧美激情乱人伦一区| 成人免费xxxxx在线观看| 亚洲专区国产精品| 欧美中文字幕在线播放| 这里只有精品视频在线| 亚洲欧美日韩一区二区三区在线| 精品动漫一区二区三区| 午夜欧美大片免费观看| 秋霞午夜一区二区| 美女啪啪无遮挡免费久久网站| 欧美精品一二区| 欧美在线视频a| 亚洲护士老师的毛茸茸最新章节| 久久99国产精品久久久久久久久| 影音先锋日韩有码| 亚洲激情在线观看| 欧美激情一级二级| 一本久久综合亚洲鲁鲁| 久久精品国产免费观看| 高清在线视频日韩欧美| 自拍亚洲一区欧美另类| 夜夜嗨av色综合久久久综合网| 国产精品免费视频xxxx| 久久网福利资源网站| 亚洲区免费影片| 国产成人免费av| 国产精品美女av| 日韩美女主播视频| 自拍偷拍亚洲精品| 日韩在线观看视频免费| 国产日本欧美在线观看| 国产精品一区二区三区毛片淫片| 欧美日韩精品在线视频| 欧美极度另类性三渗透| xxav国产精品美女主播| 日韩中文字幕久久| 亚洲精品电影网站| 欧美日韩精品在线| 国产亚洲欧美aaaa| 欧美一级免费视频| 亚洲欧美日韩成人| 超碰日本道色综合久久综合| 岛国精品视频在线播放| 久久久最新网址| 欧美超级乱淫片喷水| 成人国产精品一区| 久久精品在线播放| 欧美福利小视频| 日韩精品免费电影| 亚洲精品小视频| 欧美放荡办公室videos4k|