Go語言實(shí)現(xiàn)的web爬蟲實(shí)例

2020-04-01 19:19:09

字體：大中小

供稿：網(wǎng)友

這篇文章主要介紹了Go語言實(shí)現(xiàn)的web爬蟲,實(shí)例分析了web爬蟲的原理與Go語言的實(shí)現(xiàn)技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下

本文實(shí)例講述了Go語言實(shí)現(xiàn)的web爬蟲方法。分享給大家供大家參考。具體分析如下：

這里使用 Go 的并發(fā)特性來并行執(zhí)行 web 爬蟲。
修改 Crawl 函數(shù)來并行的抓取 URLs，并且保證不重復(fù)。

復(fù)制代碼代碼如下:

		package main
		import (
		    "fmt"
		)
		type Fetcher interface {
		        // Fetch 返回 URL 的 body 內(nèi)容，并且將在這個(gè)頁面上找到的 URL 放到一個(gè) slice 中。
		    Fetch(url string) (body string, urls []string, err error)
		}
		// Crawl 使用 fetcher 從某個(gè) URL 開始遞歸的爬取頁面，直到達(dá)到最大深度。
		func Crawl(url string, depth int, fetcher Fetcher) {
		        // TODO: 并行的抓取 URL。
		        // TODO: 不重復(fù)抓取頁面。
		        // 下面并沒有實(shí)現(xiàn)上面兩種情況：
		    if depth <= 0 {
		        return
		    }
		    body, urls, err := fetcher.Fetch(url)
		    if err != nil {
		        fmt.Println(err)
		        return
		    }
		    fmt.Printf("found: %s %q/n", url, body)
		    for _, u := range urls {
		        Crawl(u, depth-1, fetcher)
		    }
		    return
		}
		func main() {
		    Crawl("http://golang.org/", 4, fetcher)
		}
		// fakeFetcher 是返回若干結(jié)果的 Fetcher。
		type fakeFetcher map[string]*fakeResult
		type fakeResult struct {
		    body string
		    urls     []string
		}
		func (f *fakeFetcher) Fetch(url string) (string, []string, error) {
		    if res, ok := (*f)[url]; ok {
		        return res.body, res.urls, nil
		    }
		    return "", nil, fmt.Errorf("not found: %s", url)
		}
		// fetcher 是填充后的 fakeFetcher。
		var fetcher = &fakeFetcher{
		    "http://golang.org/": &fakeResult{
		        "The Go Programming Language",
		        []string{
		            "http://golang.org/pkg/",
		            "http://golang.org/cmd/",
		        },
		    },
		    "http://golang.org/pkg/": &fakeResult{
		        "Packages",
		        []string{
		            "http://golang.org/",
		            "http://golang.org/cmd/",
		            "http://golang.org/pkg/fmt/",
		            "http://golang.org/pkg/os/",
		        },
		    },
		    "http://golang.org/pkg/fmt/": &fakeResult{
		        "Package fmt",
		        []string{
		            "http://golang.org/",
		            "http://golang.org/pkg/",
		        },
		    },
		    "http://golang.org/pkg/os/": &fakeResult{
		        "Package os",
		        []string{
		            "http://golang.org/",
		            "http://golang.org/pkg/",
		        },
		    },
		}