也談采集入庫的技術
2024-05-04 11:03:14
供稿:網友
落伍的貼也看了很多了,發現了很多講小偷技術的,如精華貼里的--小偷程序原理和簡單示例:
[url]http://www.im286.com/viewthread.php?tid=407182&extra=page%3D1[/url] 等等,也有提供采集程序下載的,但我還沒看到一篇完整的入庫的文章,或許是我看的貼少吧。雖然不是很深奧,我還是講講吧,希望高手別見笑啦,以前發了個原創的影視系
統,卻沒落伍,這次再求落伍啦,希望大家幫頂下,也希望我能落伍??!
入庫也和小偷一樣,要先得到需入庫的部分,我這里以[url]http://www.skycn.com/article/77.html[/url] 為例了
<%
dim url,mydate
url="http://www.skycn.com/article/77.html" '定義url地址
Set OXML = server.CreateObject("Microsoft.XMLHTTP")
'下面定義兩個函數,得到數據
Private Function BytesToBstr(body) '利用流進行中文編碼
Set ADOS = Server.CreateObject("ADODB.Stream")
Dim Bdat
Bdat=Body
ADOS.Type = 1
ADOS.Mode =3
ADOS.Open
ADOS.Write Bdat
ADOS.Position = 0
ADOS.Type = 2
ADOS.Charset = "GB2312"
BytesToBstr = ADOS.ReadText
ADOS.Close
End Function
Public Function GetData(byref url) '利用OXML得到數據
'on error resume next
SourceCode = OXML.open ("GET",url,false)
OXML.send()
if OXML.readystate<>4 then exit function
GetData = BytesToBstr(OXML.responseBody)'
if err.number<>0 then err.Clear
End Function
mydate=getdata(url)
mydate=Replace(mydate,chr(34),"") '去掉一些特殊字符,如雙引號等,看自己情況定
mydate=Replace(mydate,chr(16),"")
response.write mydate
%>
我們就得到了以下的數據:
'''''''''''''''''''''''''code start''''''''''''
省列去部分..............
href='../article/1034.html'>寬帶用戶需注意的七大安全</A><br><br></td></tr></table> </td> <td