亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 系統 > Linux > 正文

PHP中基于Linux的搜索引擎實現

2024-08-28 00:23:41
字體:
來源:轉載
供稿:網友

  搜索引擎是為用戶提供快速獲取網頁信息的工具,其主要的功能是系統通過用戶輸入關鍵字,檢索后端網頁數據庫,將相關網頁的鏈接和摘要信息反饋給用戶。從搜索的范圍上一般分為站內網頁搜索和全局網頁搜索。隨著網頁數量的急劇增加,搜索引擎已經成為上網查詢信息的必須手段,各個大型網站均已經提供網頁數據搜索服務,并且出現了許多為大型網站提供專業搜索引擎服務的公司,如為yahoo提供搜索服務的google,為新浪網和263等國內網站提供服務的百度公司等。專業的搜索服務費用高而免費的搜索引擎軟件基本都是基于英文的檢索,所以都不太適合intranet環境(如校園網等)的需要。

  搜索引擎的基本組成一般分為網頁收集程序、網頁后端數據組織存儲、網頁數據檢索三部分。決定搜索引擎好壞的關鍵因素是數據查詢的響應時間,即如何組織好滿足全文檢索需要的大量網頁數據。

  gnu/linux作為一個優秀的網絡操作系統,其發行版本中集成了大量的網絡應用軟件,如 web服務器(apache + php)、目錄服務器(openldap)、腳本語言(perl)、網頁收集程序(wget)等。所以,通過將它們集中進行應用,便可以實現一個簡單、高效的搜索引擎服務器。

  一、基本組成和使用方法

  1、網頁數據收集

  wget程序是一個優秀的網頁收集程序,它采用多線程設計能夠方便地將網站內容鏡像到本地目錄中,并且能夠靈活定制收集網頁的類型、遞歸收集層次、目錄限額、收集時間等。通過專用的收集程序完成網頁的收集工作,既降低了設計的難度又提高了系統的性能。為了減小本地數據的規模,可只收集能夠查詢的html文件、txt文件、腳本程序asp和php只使用缺省的結果,而不收集如圖形文件或是其他的數據文件。

  2、網頁數據過濾

  由于html文件中存在大量的標記,如<body><table>等,這些標記數據沒有實際的搜索價值,所以加入數據庫前必須對收集的數據進行過濾。perl作為廣泛使用的腳本語言,擁有非常強大而豐富的程序庫,可以方便地完成網頁的過濾。通過使用html-parser庫可以方便地提取出網頁中包含的文字數據、標題數據、鏈接數據等。該程序庫可以在www.cpan.net中下載,并且該網站收集的perl程序涉及范圍之廣,遠遠超出我們的現象。

  3、目錄服務

  目錄服務是針對大量數據檢索需要開發的服務,最早出現在x.500協議集中,后來擴展到tcp/ip中發展成為ldap(lightweight directory acess protocol)協議,其相關的標準為1995年制定的rfc1777和1997年制定的rfc2251等。ldap協議已經作為工業標準被sun、lotus、微軟等公司廣泛應用到其相關產品中,但是專用的基于windows平臺的目錄服務器卻較少見,openldap是免費的運行于unix系統的目錄服務器,其產品的性能優秀,已經被許多的linux發行版本收集(redhat、mandrake等),并且提供了包括c、perl、php等的開發接口。

  使用目錄服務技術代替普通的關系數據庫作為網頁數據的后端存取平臺主要基于目錄服務的技術優勢。目錄服務簡化了數據處理類型,去掉了通用關系數據庫的費時的事務機制,而是采用全局替換的策略對數據進行更新,其應用的重點是大量數據的檢索服務(一般數據更新和檢索的頻率比例要求在1:10以上),強調檢索速度和全文查詢,提供完整的數據備份,非常適合搜索引擎之類服務的需要。從目錄服務技術解決問題的重點不難看出其在數據檢索上的優勢,它的提出時間遠遠落后于關系數據庫的提出時間,實際上反映了根據具體問題優化數據解決方案的原則。這與目前廣泛存在的凡是涉及大量數據處理必選sql server的處理方法形成鮮明對比。

  通過選用成熟的目錄服務技術提高網頁查詢的效率,能夠簡潔有效地提高數據處理能力。這也充分顯示了gnu/linux系統運行開放軟件的優勢,畢竟不能方便地獲得運行于其他平臺的目錄服務器。

  4、查詢程序設計

  搜索引擎的前端界面是網頁,用戶通過在特定的網頁中輸入關鍵字提交給web服務器進行處理。運行在apache web服務器上的php腳本通過運行其相關ldap函數便可以執行關鍵字的查詢工作。主要進行的工作是根據關鍵字構造查詢、向目錄服務器提交查詢、顯示查詢結果等。linux + apache + php作為廣泛使用web服務器,與winnt + iis + asp相比其性能毫不遜色,在目前的linux發行版本中都集成了apache + php 以及缺省的ldap、pgsql、imap等模塊。

  5、計劃任務

  搜索引擎的網頁數據收集、數據過濾、加入目錄數據庫等工作都應該是自動完成的,在unix系統中有cron進程來專門完成按照特定時間調度任務,為了不影響系統的運行,一般可以把這些工作安排到深夜進行。

  二、具體步驟和注意事項

  1、配置wget軟件

  在redhat 6.2發行版中已經集成了該軟件包,可以直接進行安裝。將需要鏡像的站點地址編輯為一個文件中,通過 -i 參數讀入該文件;為鏡像的站點指定一個本地下載目錄;為了避免內部網中鏈接的重復引用,一般只鏡像該站點內的數據;還可以根據網站的具體情況,指定其鏡像的深度。

  2、配置openldap服務

  在redhat 6.2發行版中已經集成了openldap-1.2.9,其配置文件存放在/etc/openldap的目錄中。主要的配置文件是slapd.conf,關鍵要打開對檢索速度至關重要的index選項,可以使用setup工具,將ldap在系統引導后作為缺省服務啟動。

  ldap服務可以通過文本文件方式存放數據,即ldif文件格式。使用此方式可以高效地更新目錄服務數據,需要注意ldif格式是通過空行對數據進行分隔的,并且通過運行ldif2lbm將ldif格式數據導入目錄數據庫中時需要暫停目錄服務。

  3、編制數據過濾和ldif文件生成腳本

  為了方便地過濾網頁數據,可以調用perl的html-parser庫函數,該程序包下載后需要進行編譯,在eg目錄下生成了相關的htext,htitle程序,在perl中可以通過調用外部程序的方式運行該程序,并對其過濾結果通過重定向的方法生成臨時文件。本搜索引擎設計的目錄數據屬性有dn 、link、title、modifydate、contents,其中的dn通過link進行唯一性標識,將過濾后的網頁文本內容通過/usr/sbin/ldif程序進行自動編碼后放入ldif文件中。

  基本的ldif文件格式如下:

dn: dc=27jd,dc=zzb
objectclass: top
objectclass: organization

dn: link= http://freemail.27jd.zzh/index.html, dc=27jd ,dc=zzb
link: http://freemail.27jd.zzh/index.html
title: webmail主頁
modifydate: 2001年2月8日
contents::
cgpxzwjtywls1vfsswokcgokikhvoag7ttotyrntw1dlym1hawzptc2zoagh7ydo0t
kqyerh69pkz+qhisfpdxrsb29rxetww6o6u01uudogznjlzw1hawwumjdqzc56emjq
t1azoibmcm
vlbwfpbc4yn2pklnp6ykrouya6idexljk5ljy0ljiy4sru08o7p6o6bwfpbgd1zxn00
8o7p7/awe
6jum1hawxndwvzdnlr16ky4dpdu6cg08o7p8p7okagznjlzw1hawwumjdqzc56emk/
2shuoqchoa
agikhyzog5qbf+zvegofkzo7z7zsrm4ich8s2o0bbcvkhyicch8sq1z9burcdtikhywftr1
lk+of
igofk8vmr1sr/w99kzsb7ptc2z08nk1nhpvlzk9bk/zfjc59bq0ms9qmgius3orlukcgok
cqakcg
o=
objectclass:webpage

基本的slapd.conf文件如下:
defaultaccess read
include /etc/openldap/slapd.at.conf
#include /etc/openldap/slapd.oc.conf
schemacheck off
sizelimit 20000
pidfile /var/run/slapd.pid
argsfile /var/run/slapd.args
#######################################################################
# ldbm database definitions
#######################################################################
database ldbm
dbcachesize 1000000
index contents,title
suffix "dc=27jd, dc=zzb"
directory /usr/tmp
rootdn "cn=root,dc=27jd, dc=zzb"
rootpw secret

  通過對一個4萬個網頁(約300m左右)的本地html文件目錄進行過濾后生成的ldif文件約180m左右,如果只取文字數據的前400個字符作為網頁內容,則生成文件約35m左右。

  4、配置php+ldap服務

  在redhat6.2中已經集成了php3和php-ldap模塊,選擇完全安裝時便已經安裝到/usr/lib/apache目錄中,注意檢查/etc/httpd/php3.ini中的動態擴展(dynamic extensions)中的extension=ldap.so是否被選擇。php3中提供了豐富的ldap存取函數,能夠方便完成對目錄數據的搜索功能。有關apach + php編程方面的資料較多,在此不在贅述。注意在php3中的ldap搜索函數ldap_search不能處理其返回結果超過目錄服務設定的最大檢索數據,所以可以根據具體情況,在slapd的配置文件中設定較大的檢索數據限制(sizelimit),此問題在php4中已經解決。

  5、任務調度

  在redhat6.2中已經集成了crond并且缺省安裝后便已經啟動。其相關配置文件有/etc/crontab、/etc/cron.daily、/etc/cron.hourly、/etc/weekly、/etc/monthly,你只需要根據數據的更新頻度,將網頁收集、網頁過濾、生成ldif文件、停止目錄服務、更新目錄數據、重新啟動目錄服務,作為一個簡單的shell程序放入到相應的目錄中即可。

  三、效果與思考

  以上簡單的介紹了我們的搜索引擎的實現方法和注意事項,這僅僅是我們在對gnu/linux了解得非常膚淺的情況下設計的以目錄服務為核心的滿足內部網需要的搜索引擎系統,并不能代表gnu/linux和它集成的大量軟件的真正實力。

 通過在一臺安裝redhat linux 6.2 的sparc ultra 250上實際測試,對擁有4萬個網頁的目錄數據進行搜索時,基于上述方法設計的搜索引擎響應速度一般在3秒左右,目錄數據完全更新大約需要4小時左右,能夠滿足內部網的需要。實際上,限制搜索響應速度的關鍵是php3的ldap_search函數沒有提供數據限制的功能,導致在查詢結果集過大時系統響應速度變慢,因為每次用戶能夠瀏覽的查詢結果實際是非常少的,而服務器端每次的查詢總是返回全部結果,在php4中的ldap_search通過指定sizelimit參數,能夠有效解決該問題。

  目錄服務的應用范圍非常廣泛,實際上作為大型的信息站點為了提高客戶訪問效率,都或多或少采用了目錄服務的技術。目錄服務根據具體的應用需求的優化設計方法,對我們決定應用系統的開發無疑是一個啟發,應該說在基于索引信息的領域ldap服務遠遠優于傳統的關系數據庫系統。

  基于gnu/linux進行網絡服務器程序設計,能夠充分體會到開放源代碼的魅力和實力,它既能夠簡化系統的設計,又大大地提高了工作效率,同時也有效降低了系統的成本。程序設計由一切從零開始的復雜繁瑣的重復勞動,簡化為問題抽象、功能分解、查找資源、組合系統四個部分,更加強調對系統的認識、開闊的視野和學習的能力,同時開放源代碼也為系統進一步優化提供了堅實的基礎

  • 本文來源于網頁設計愛好者web開發社區http://www.html.org.cn收集整理,歡迎訪問。
  • 發表評論 共有條評論
    用戶名: 密碼:
    驗證碼: 匿名發表
    亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
    亚洲人成在线播放| 日韩va亚洲va欧洲va国产| 欧美日韩高清区| 欧美性xxxx极品hd欧美风情| 欧美裸身视频免费观看| 超碰91人人草人人干| 国产成人aa精品一区在线播放| 久青草国产97香蕉在线视频| 久久视频在线视频| 国产精品男女猛烈高潮激情| 欧美激情第三页| 日韩欧美亚洲范冰冰与中字| 亚洲图片在区色| 色综合天天综合网国产成人网| 亚洲片在线资源| 国产一区二区三区中文| 欧美一级电影久久| 亚洲第一区第二区| 国产精品爽爽爽爽爽爽在线观看| 91久久久久久国产精品| 69视频在线免费观看| 亚洲夜晚福利在线观看| 国产日韩欧美在线视频观看| 国模精品视频一区二区| 欧美精品18videosex性欧美| 欧美一区三区三区高中清蜜桃| 日本国产一区二区三区| 国产精品美女在线观看| 欧美成人在线网站| 久久精品成人欧美大片古装| 亚洲精品一区久久久久久| 日韩欧美亚洲一二三区| 国产精品福利在线观看| 久久久久免费精品国产| 日韩精品视频免费| 久久精品国产成人| 亚洲精品美女在线观看播放| 在线播放亚洲激情| 亚洲性69xxxbbb| 91久久国产精品| 91国内在线视频| 久久久国产精品免费| 亚洲精品网站在线播放gif| 97av在线视频| 国产精品黄视频| 韩国19禁主播vip福利视频| 亚州国产精品久久久| 亚洲综合在线小说| 亚洲女同精品视频| 国产成+人+综合+亚洲欧美丁香花| 日韩欧美在线观看| 国产精欧美一区二区三区| 国产日韩欧美在线播放| 91亚洲午夜在线| 欧美日韩在线看| 日韩高清电影好看的电视剧电影| 欧美日韩人人澡狠狠躁视频| 亚洲日韩欧美视频一区| 亚洲www永久成人夜色| 夜夜嗨av一区二区三区四区| 精品久久久久久久久久久久久| 国产区精品在线观看| 91av在线看| 欧美日韩亚洲国产一区| 国产区亚洲区欧美区| 精品色蜜蜜精品视频在线观看| 国产成人精品日本亚洲专区61| 欧美wwwwww| 伊人伊成久久人综合网站| 欧美国产中文字幕| 91wwwcom在线观看| 欧美限制级电影在线观看| 国产精品欧美激情| 色妞在线综合亚洲欧美| 亚洲一品av免费观看| 国产精品老牛影院在线观看| 国产精品美女无圣光视频| 91久久国产婷婷一区二区| 亚洲国产成人精品久久| 亚洲欧美三级在线| 日本成人激情视频| 欧美日韩国产黄| 精品中文视频在线| 97视频在线看| 成人久久久久爱| 欧美第一黄网免费网站| 影音先锋欧美在线资源| 久久国产精品首页| 精品日韩中文字幕| 亚洲国产精品久久久久久| 国产成人亚洲综合91精品| 国产精品在线看| 亚洲美女视频网站| 亚洲欧美国产另类| 国产91在线播放| 亚洲久久久久久久久久| 欧美性猛交xxxx乱大交3| www高清在线视频日韩欧美| 国产精品偷伦一区二区| 茄子视频成人在线| 久久久999成人| 米奇精品一区二区三区在线观看| 国产精品免费观看在线| 日本成人激情视频| 亚洲精品中文字| 欧美激情在线狂野欧美精品| 久久久免费电影| 国产成人亚洲综合青青| 国产91精品青草社区| 国产精品最新在线观看| 亚洲人线精品午夜| 欧美成人在线免费视频| 欧美激情国产高清| 国产欧美精品一区二区三区介绍| 久久精品国产96久久久香蕉| 日韩成人av在线播放| 亚洲精品ady| 国产成人+综合亚洲+天堂| 亚洲xxx视频| 亚洲视频一区二区| 久久成人精品一区二区三区| 992tv成人免费影院| 日韩在线播放av| 欧美高清在线播放| 国产精品久久久久久久久久新婚| 亚洲黄色www网站| 久久精品国产2020观看福利| 视频在线一区二区| 亚洲第一偷拍网| 91精品国产色综合久久不卡98口| 免费av一区二区| 国产伦精品一区二区三区精品视频| 久久久久久一区二区三区| 国产精品视频导航| 国产精品成人免费电影| 中文字幕日韩av电影| 97视频在线免费观看| 亚洲欧美精品在线| 欧美日韩国产999| 91精品国产高清久久久久久91| 欧美性少妇18aaaa视频| 亚洲欧美一区二区三区在线| 久久久久国产精品www| 国产午夜精品全部视频播放| 欧美激情欧美激情在线五月| 国产精品久久久久久久app| 7777精品视频| 欧美日韩免费网站| 亚洲精品久久久一区二区三区| 中文字幕在线看视频国产欧美在线看完整| 国产丝袜一区二区三区免费视频| 精品国偷自产在线| 亚洲伊人第一页| 中文字幕亚洲一区二区三区| 两个人的视频www国产精品| 欧美精品在线免费播放| 91国产美女在线观看| 欧美丰满片xxx777| 亚洲欧美在线免费| 亚洲高清免费观看高清完整版| 欧美猛少妇色xxxxx| 91国产美女视频| 日韩av色综合| 在线精品国产成人综合|