本例子是使用了file_get_contents()函數來抓取圖片內容然后再使用fopen保存到本地服務器了,然后再進行地址url替換這樣就實現了一個完整的頁面采集功能并保存地址到本地的做法了,下面來看看例子.
首先舉個例子吧,代碼如下:
- <?php
- $text=file_get_contents("http://www.49028c.com");
- //取得所有img標簽,并儲存至二維陣列match
- preg_match_all('/<[img|IMG].*?src=[\'|\"](.*?(?:[\.gif|\.jpg]))[\'|\"].*?[\/]?>/', $text, $match);
- //打印出match
- $houzhui = "./tp/".time().rand(10000,50000).".".png;
- $yuanname = getImage($match[1][2],$houzhui,tp);
- //下載圖片方法
- function getImage($url,$filename='',$type=0){
- if($url==''){return false;}
- if($filename==''){
- $ext=strrchr($url,'.');
- if($ext!='.gif' && $ext!='.jpg'){return false;}
- $filename=time().$ext;
- }
- //文件保存路徑
- if($type){
- $ch=curl_init();
- $timeout=5;
- curl_setopt($ch,CURLOPT_URL,$url);
- curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
- curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
- $img=curl_exec($ch);
- curl_close($ch);
- }else{
- ob_start();
- readfile($url);
- $img=ob_get_contents();
- ob_end_clean();
- }
- $size=strlen($img);
- //文件大小
- $fp2=@fopen($filename,'a');
- fwrite($fp2,$img);
- fclose($fp2);
- return $filename;
- }
- ?>
案例分析,核心代碼如下:
- $text=file_get_contents("http://www.49028c.com");
- //取得所有img標簽,并儲存至二維陣列match
- preg_match_all('/<[img|IMG].*?src=[\'|\"](.*?(?:[\.gif|\.jpg]))[\'|\"].*?[\/]?>/', $text, $match);
這個正則就是直接獲取所有圖片不管是http或直接是/aa/aa.gif文件都會自動抓保存到地址了,不過這個會有一些問題圖片地址未進行補全了,如我們一個 /a/a/a.gif這樣我們是找不到圖片的,必須是http://www.49028c.com /a/a/a.gif 這樣才可以下載到了,所以我們有必要進行兩個處理方法一個是在原基本上處理,代碼如下:
- //文件保存路徑
- if($type){
- $ch=curl_init();
- $timeout=5;
- curl_setopt($ch,CURLOPT_URL,$url);
- curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
- curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
- $img=curl_exec($ch);
- curl_close($ch);
上面的$url參數進行地址補全,如我采集的是http://www.49028c.com那么地址自動補全為絕對路徑了,另一種辦法就是使用修改正則表達式,代碼如下:
- preg_match_all("/(src|SRC)=[\"|'| ]{0,}(http:\/\/(.*)\.(gif|jpg|jpeg|png))/isU",$body,$img_array);
這樣就只獲取以http開頭的圖片文件了哦.
新聞熱點
疑難解答