亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Ruby > 正文

Ruby中使用多線程隊列(Queue)實現下載博客文章保存到本地文件

2020-10-29 19:42:21
字體:
來源:轉載
供稿:網友

Ruby:多線程下載博客文章到本地的完整代碼

復制代碼 代碼如下:

#encoding:utf-8
require 'net/http'
require 'thread'
require 'open-uri'
require 'nokogiri'
require 'date'

$queue = Queue.new
#文章列表頁數
page_nums = 8
page_nums.times do |num|
  $queue.push("http://www.cnblogs.com/hongfei/default.html?page="+num.to_s)
end

threads = []
#獲取網頁源碼
def get_html(url)
  html = ""
  open(url) do |f|
    html = f.read
  end
  return html
end

def fetch_links(html)
  doc = Nokogiri::HTML(html)
  #提取文章鏈接
  doc.xpath('//div[@class="postTitle"]/a').each do |link|
    href = link['href'].to_s
    if href.include?"html"
      #add work to the  queue
      $queue.push(link['href'])
    end
  end
end

def save_to(save_to,content)
  f = File.new("./"+save_to+".html","w+")
  f.write(content)
  f.close()
end

#程序開始的時間
$total_time_begin = Time.now.to_i

#開辟的線程數
threadNums = 10
threadNums.times do
  threads<<Thread.new do
    until $queue.empty?
      url = $queue.pop(true) rescue nil
      html = get_html(url)
      fetch_links(html)
      if !url.include?"?page"
        title = Nokogiri::HTML(html).css('title').text
        puts "["+ Time.now.strftime("%H:%M:%S") + "]「" + title + "」" + url
        save_to("pages/" + title.gsub(////,""),html) if url.include?".html"
      end
    end
  end
end
threads.each{|t| t.join}

#程序結束的時間
$total_time_end = Time.now.to_i
puts "線程數:" + threadNums.to_s
puts "執行時間:" + ($total_time_end - $total_time_begin).to_s + "秒"

多線程部分講解

復制代碼 代碼如下:

$queue = Queue.new
#文章列表頁數
page_nums = 8
page_nums.times do |num|
  $queue.push("http://www.cnblogs.com/hongfei/default.html?page="+num.to_s)
end

首先聲明一個Queue隊列,然后往隊列中添加文章列表頁,以便后面可以從這些列表頁中提取文章鏈接,另外queue聲明成全局變量($),以便在函數中也可以訪問到。

我的曾是土木人博客文章列表總共有8頁,所以需要實現給page_nums賦值為8

復制代碼 代碼如下:

#開辟的線程數
threadNums = 10
threadNums.times do
  threads<<Thread.new do
    until $queue.empty?
      url = $queue.pop(true) rescue nil
      html = get_html(url)
      fetch_links(html)
      if !url.include?"?page"
        title = Nokogiri::HTML(html).css('title').text
        puts "["+ Time.now.strftime("%H:%M:%S") + "]「" + title + "」" + url
        save_to("pages/" + title.gsub(////,""),html) if url.include?".html"
      end
    end
  end
end
threads.each{|t| t.join}

通過Thread.new來創建線程

創建線程后,會進入until $queue.empty?循環,直到任務隊列為空(即:沒有要采集的網址了)
開辟的線程,每次都會從任務隊列(queue)取到一個url,并通過get_html函數獲取網頁源碼
由于任務隊列中的url有分頁url和文章url兩種,所以要進行區分。
如果是分頁url(url中含有“?page”),就直接提取文章鏈接。
如果是文章url,就保存到本地(save_to(),文件名為文章title)
在循環體外,創建線程完畢后,需要將創建的線程執行Thread#join方法,以便讓主線程等待,
直到所有的線程執行完畢才結束主線程

代碼執行時間統計

復制代碼 代碼如下:

#程序開始的時間
$total_time_begin = Time.now.to_i
#執行過程

#程序結束的時間
$total_time_end = Time.now.to_i
puts "執行時間:" + ($total_time_end - $total_time_begin).to_s + "秒"

TIme模塊的#now方法可以獲取當前時間,然后使用to_i,可以將當前時間轉換成從1970年1月1日00:00:00 UTC開始所經過的秒數。

獲取網頁源碼

復制代碼 代碼如下:

#獲取網頁源碼
def get_html(url)
  html = ""
  open(url) do |f|
    html = f.read
  end
  return html
end

ruby中,獲取網頁的方法用Net::HTTP模塊和OpenURI模塊。OpenURI模塊最簡單,可以直徑將指定網頁當成普通文件一樣進行操作。

執行結果:使用多線程采集130多篇文章,耗時15秒(單線程:47s左右)

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
91成人精品网站| 欧美伊久线香蕉线新在线| 亚洲午夜未删减在线观看| 亚洲日韩中文字幕在线播放| 国产亚洲精品成人av久久ww| 亚洲综合大片69999| 国产精品国模在线| 日韩精品一区二区视频| 久久久久北条麻妃免费看| 国产91ⅴ在线精品免费观看| 欧美美最猛性xxxxxx| 亚洲精品v天堂中文字幕| 国产欧美亚洲视频| 亚洲3p在线观看| 亚洲国产免费av| 日韩视频免费观看| 在线观看国产成人av片| 成人黄色在线免费| 精品国产1区2区| 亚洲一区999| 美女黄色丝袜一区| 国产精品女人久久久久久| 尤物yw午夜国产精品视频| 在线观看日韩专区| 亚洲精品国产综合区久久久久久久| 88国产精品欧美一区二区三区| 国产精品永久免费在线| 日韩国产精品亚洲а∨天堂免| 在线视频一区二区| 亚洲国产欧美精品| 亚洲电影免费观看高清完整版| 国产精品女人网站| 亚洲人在线视频| 欧美特黄级在线| 亚洲香蕉在线观看| 尤物yw午夜国产精品视频明星| 久久国产加勒比精品无码| 日韩在线视频观看正片免费网站| 亚洲精品久久久久中文字幕欢迎你| 亚洲午夜精品久久久久久性色| 国产精品99导航| 欧美精品成人91久久久久久久| 欧美高清第一页| 欧美精品videos| 一二美女精品欧洲| 亚洲精品黄网在线观看| 国产精品极品尤物在线观看| 亚洲精品美女视频| 精品亚洲男同gayvideo网站| 91成人福利在线| 日韩精品视频免费专区在线播放| 欧美成人午夜剧场免费观看| 日韩免费在线免费观看| 国产欧美一区二区| 欧美精品中文字幕一区| 亚洲午夜精品久久久久久久久久久久| 欧美日韩不卡合集视频| 成人a视频在线观看| 国产精品嫩草影院久久久| 欧美高清电影在线看| 在线不卡国产精品| 久久久久久久久久久久av| 中文国产成人精品久久一| 中文字幕精品一区久久久久| 最新国产精品拍自在线播放| 亚洲免费小视频| 国产精品久久久久久久久免费| 成人信息集中地欧美| 欧美性生交xxxxxdddd| 成人福利网站在线观看11| 夜色77av精品影院| 久久久久久久成人| 中文字幕一精品亚洲无线一区| 国产欧美一区二区白浆黑人| 亚洲第一网中文字幕| 5278欧美一区二区三区| 欧美超级乱淫片喷水| 欧美成人精品激情在线观看| 欧美性生交大片免网| 色yeye香蕉凹凸一区二区av| 91亚洲国产成人久久精品网站| 亚洲精品电影在线观看| 夜夜嗨av一区二区三区免费区| 日本不卡视频在线播放| 久久久av亚洲男天堂| 在线播放日韩精品| 亚洲成av人乱码色午夜| 中文字幕一区电影| 国产成人+综合亚洲+天堂| 久久97久久97精品免视看| 欧美国产日本在线| 91精品久久久久久久久久| 成人黄色免费片| 亚洲片av在线| 亚洲成人久久电影| 九九热精品视频国产| 亚洲国产中文字幕久久网| 欧美电影在线观看完整版| 亚洲成人在线网| 亚洲综合日韩在线| 欧美老女人性视频| 97人人模人人爽人人喊中文字| 中文字幕不卡av| 97久久伊人激情网| 国产福利精品视频| 欧美日韩成人在线观看| 国产精品久久综合av爱欲tv| 久久国产一区二区三区| 亚洲成人激情图| 亚洲激情电影中文字幕| 日韩在线视频免费观看| 亚洲国产精品久久精品怡红院| 亚洲码在线观看| 欧美激情欧美激情| 九九热99久久久国产盗摄| 91在线直播亚洲| 日韩中文字幕精品视频| 欧美国产日产韩国视频| 麻豆一区二区在线观看| 亚洲国产成人av在线| 国产日韩欧美在线看| 日韩亚洲成人av在线| 中文字幕无线精品亚洲乱码一区| 色先锋久久影院av| 一区国产精品视频| 色悠久久久久综合先锋影音下载| 亚洲理论在线a中文字幕| 色偷偷偷亚洲综合网另类| 国产精品主播视频| 日韩成人在线视频观看| 亚洲人成免费电影| 91久久精品国产91久久| 深夜福利日韩在线看| 欧美国产日韩视频| 日韩av三级在线观看| 91麻豆国产语对白在线观看| 性金发美女69hd大尺寸| 久久亚洲国产成人| 国产欧美在线视频| 久久久久久999| 日本久久久久久久久久久| 97在线视频一区| 国产精品免费视频久久久| 日韩av片免费在线观看| 日本aⅴ大伊香蕉精品视频| 欧美激情亚洲激情| 亚洲人成在线观看网站高清| 26uuu久久噜噜噜噜| 日产日韩在线亚洲欧美| 欧美日韩国产成人在线| 色系列之999| 亚洲精品国产精品国自产在线| 国产一区二区三区在线播放免费观看| 久久精品视频网站| 色综合男人天堂| 欧美激情性做爰免费视频| 97国产精品视频人人做人人爱| 国产精品久久久久免费a∨| 夜夜嗨av一区二区三区四区| 日韩在线观看av| 亚洲成avwww人| 国产精品白嫩初高中害羞小美女| 亚洲第一男人天堂| 午夜精品一区二区三区av|