微軟的Net Search 引擎內幕(轉)
2024-07-21 02:17:18
供稿:網友
search 開發負責人 larry jordan、開發人員 michael ruggiero 和 michael stanton 以及 .net 框架項目經理 hari sekhar 在暗中構建了基于 .net 技術的 microsoft web 站點搜索引擎新版本。迄今為止,只有參加過今年 7 月在奧蘭多舉行的“專業開發人員討論會”中的一次特別會議的少數外部開發人員略知一些細節。現在終于可以將實情公諸于眾了。
如果您經常訪問“內幕新聞”站點,您就會知道,microsoft web 組在 2000 年 7 月份召開的“專業開發人員討論會”之前推出了其 search 引擎的新型改進版本。您已知道該版本引入了先進的同義詞匹配、可返回最為相關的加按語搜索結果的擴展 best bets 邏輯,以及對最常用搜索的智能緩存。
然而,有關該版本的內幕消息遠比表面上的東西多。
我們當然會興奮不已,因為該搜索版本的豐富的功能以及經改進的搜索結果明顯地能為客戶帶來更佳的搜索體驗(參閱 search 2.5 技術內幕)。但是,大多數人當時并未意識到,我們同時在幕后將傳統的基于 asp(active server page 活動服務器頁面)的 search 2.5 版移植到新型的 microsoft .net 框架。
對搜索組而言,這是最具前沿性的開發。因為我們已經深入到 internet 服務的未來。而且我們希望如此。下面來談談個中緣由。
為何要移植到 .net?
顯而易見,我們正在進入 internet 的下一個階段。我們正在跨越通常意義上的 web 頁面,并在開發功能強大的 web 服務。在這一階段,使資源和信息有計劃地得到利用是極為重要的。這樣,我們就可以把這些資源和信息作為服務來利用,而不是讓其停留在雜亂無章的數據倉庫中。
可擴展標記語言 (xml) 是在超級分布式系統之間實現多數據集傳輸的一種手段。它同時可以使開發人員以更具價值的新型方式聚集和組合各種來源的數據 – 這樣用戶就可以直接從中受益。
就 search 而言,我們為多種自定義和本地化 search 版本設計了在 microsoft.com 上查找信息的核心功能。我們組在如何使數據訪問兼備靈活性和可用性方面面臨挑戰。在 .net 出現之前,我們確實無法使客戶在不使用安全端口上的 dcom (分布式組件對象模型)的情況下針對我們的功能設計程序,或者客戶只得將我們的多種軟件版本安裝在其服務器上以便訪問代碼和 com。
我們組對即將推出的 .net 技術進行了研究,并認識到可以通過將代碼移植到 .net 框架來解決所有遠程性問題。而且,還有一個意外收獲,我們還可以實現 http 和 soap 的無處不在的連接。對絕大多數人而言,是否有某個人在 microsoft 或在世界的某個地方,使用我們的 web 服務在內部開發用于完全不同用途的應用程序,無關緊要。我們對兩種情況均予以支持,同時我們也可以免費獲得技術方面的好處。
最新的 search 2.5 版如今運行在 site server 3.0 上,并仍然使用 com 從搜索目錄獲得結果。該應用程序的其它各個方面都基于 xml。xml 作為一種將數據(例如,vocabulary 和 best bets)發布到 web 服務器的手段,使我們能夠輕而易舉地擴大我們的 web 空間。
我們同時執行了一項緩存客戶請求的最為常用的查詢和結果的方案,這是通過將這些查詢和結果保留在 web 服務器上來實現的,并因此增強了可擴展性,進一步提高了性能。由于我們的核心體系結構是基于 xml 的,因而,移植到一個將利用 .net 框架 web 服務的模型確實非常簡單,而這些 .net 框架 web 服務是建立在新型 asp+ 技術基礎之上的(asp+ 技術被稱為活動服務器方法 (asmx) 頁面)。
轉換
search 體系結構由三個組件組成:
word parsing and vocabulary
best bets
search results
search 的 .net 端口的體系結構與基于 asp 的版本相同(參見圖 1)。下面讓我們深入了解一下各個組件。
圖 1.用戶提交查詢后,(1) 將查詢先提交給解析器 (parser) 進行詞條分割和詞匯解析,(2) 將找到的項目的顯示術語 (display term) 傳給 best bets,(3) 將找到的項目的首選術語 (preferred term) 和剩余項目傳給 search results,(4) 使用 xsl 樣式表編譯生成的 xml 文檔,(5) 給用戶的 web 瀏覽器提交 html。單擊以放大。
word parsing and vocabulary _ 這是一個包含一個 c++ com 對象的 windows 腳本組件,它暴露出 search 中所支持的所有語言的各種詞條分割程序。這種設計之所以必要是因為詞條分割程序的接口不容易編寫成腳本,并且通常需要一種 c++ 可編腳本的封裝(盡管這是有辦法做到的:以后將對此進行詳細解釋)。在向 .net 框架移植的過程中,我們使用了 c++ 對象上的類型列表導出程序 (tlbimp.exe),并通過 .net 中的 interop 技術對其進行調用,這樣您就可以調用現有的 com 對象了。
vocabulary object 運行 xpath(查詢 xml 文檔的語言)查詢,以便將搜索詞條映射到首選術語。它同時去除了干擾詞條,并產生一種格式化的數據結構,適合于 best bets 和 search results 組件進行消耗。一項重要成果是,這個相當復雜的小腳本得以移植到 c#,我們還可以繼續從中調用傳統對象。下面是 vocabulary object 中的一個小代碼示例:
// we return an array of vocabularyobjects after parsing the user's search
// text. this ability to create simple typed structures in c# vastly improves
// our code modularity and self-documentation. here is the definition of
// vocabularyobject:
public struct vocabularyobject {
public string preferredterm; // structure members
public string displayterm;
public bool found;
public string origphrase;
public bool multiterm;
public bool multiword;
// constructor
public vocabularyobject(string preferredterm,bool found,string origphrase,
bool multiterm,bool multiword,string displayterm) {
preferredterm = preferredterm;
found = found;
origphrase = origphrase;
multiterm = multiterm;
multiword = multiword;
displayterm=displayterm;
}
}
// example usage. because the parameters to the objects constructor are
// typed, we'll get a compiler error message if we passed an integer
// where a string was expected, for example. this is a very nice feature
// over traditional scripting environments!
vocabularyobject vo("microsoft directx",true,"dx",false,false,"directx");
.net 環境的其中一個優點就是,您可以創建用于整個代碼的多數據結構。上面最后一行是闡明如何使用這些 vocabulary object 的代碼結構的語句實例。
best bets _ 這是一個小腳本組件,它可提供對本地化 xml 文檔的 xpath 查詢,并可產生加按語的 url 鏈接。xml 文檔裝載于每個 search 應用程序實例的應用范圍,并既可單獨工作,又可與 vocabulary 對象的方法緊密耦合。移植小腳本是 100% 向 .net 框架的轉換,并可利用 system.io 和 xml datanavigator 類 (system.newxml 命名空間)。
這是最簡單的移植組件。它幾乎是行對行地從 jscript 向 c# 的轉換。我們僅在某些地方對代碼作了一些更改,以便利用新的 xml datanavigator 類 - 用來查詢并更新 xml 文檔的 .net 通用語言運行時間部分。
search results - 這一復雜的組件與 site server 3.0 相接,從而獲得與客戶的搜索查詢相匹配的實際頁面描述和鏈接。它還包含一種完善的緩存算法。
構建并行解決方案
當時我們遇到的最大挑戰是,我們在開發 search 2.5 的同時,也在將整個 search 應用程序移植到 .net 框架的 asp+ 技術。由于要在 pdc 日期之前推出此應用程序并將其移植到 .net,周轉時間緊,因此我們當時決定同時推出這兩種版本,并將它們同時上市。很明顯,這是一項艱巨的任務,因為我們必須管理新的版本,了解新型 .net 框架的所有功能和新的語言隱喻,構建具有各種軟件平臺服務的服務器,等等。
關于我們是如何搞成這個項目的,還有一段有趣的故事呢。為了確保同時推出兩種版本(search 2.5 和 .net 框架,我們在項目規劃階段確定了首先把握住哪些組件不變、哪些組件在開發過程中變化最大以及哪些組件適合于哪種技術和語言。
我們還及早確定目標,努力分解此應用程序,并按照客戶可能會采用的方式移植。因為我們 microsoft.com 的人總是認真對待客戶在進行技術決策和研究投資回報時面臨的各種問題,所以,我們將此應用程序移植過程分解成許多部分,每個部分都盡可能與客戶可能采取的方法接近。我們希望確保做好每項工作,其中包括最簡單的移植(即,小腳本移植到 jscript 類)直到最大的時間和技術利益投入 – 充分利用 c# 編程語言完全移植到 .net 框架 (100% 可管理的代碼空間)。
下面是我們在應對這個挑戰時所采取的一些步驟:
首先,我們將主要的 asp 頁面轉換為 asp+。最初,我們是通過 .net reflection 技術調用小腳本,這樣我們可以在運行時通過查詢類型庫來調用典型的 com 對象。
重要知識:我們從具有 asp 的編程模型出發(其中,數據、業務邏輯以及表示全都被混合在一起),然后采用 asp+ 的一種完全面向對象的方法,最后是數據分離、編程以及 ui。
其次,處理最簡單的小腳本并將其移植。bestbets 是最簡單的組件,并且不依賴于 com 組件。我們決定使用 system.io、xml data navigator 以及 c# 編程語言將這個組件作為 dll 移植。我們希望將這個組件完全移植到受控環境,并使其充分利用 xml data navigator。
重要知識:我們了解了 newxml 命名空間。同時,我們在移植組件時去除了 .net reflection。這樣我們就可以在本地調用這些組件。
然后,我們以同樣方式處理 vocabulary 小腳本。這個組件在復雜性和代碼行方面處于此應用程序的中間。它由一個小腳本組成,這個小腳本包含用于 search 的業務和文本解析規則,并對 c++ 組件進行調用,我們創建該組件的目的是包裝 com 對斷字程序的引導調用。這個組件在移向受控空間方面具有最大優點。這個復雜組件被全部移植到 .net 框架和 c# 編程語言。這需要一些技巧,因為,它包含更為復雜的函數邏輯,并需要利用一個自定義 com 對象。但這還不算太難。下一步將拋棄 c++ 包裝并直接調用這些接口。
重要知識:我們更改了函數和邏輯以便受益于象類型安全這樣的 c# 的關鍵優勢。在使用 jscript 時,開發人員必須銘記每個變量的類型(整數、字符串)。c# 會為您做到這一點。所有變量在聲明時確定,并且 c# 會檢查您的工作以便確保沒有越界。這在處理復雜代碼時幫助很大。備注: 在 jscript 的下一個版本中,程序員將可以選擇完全確定變量的類型。
移植最終組件:searchresults。最初,我們通過 .net reflection 調用這個組件,而且情況良好。由于這個代碼太大并相當復雜,同時由于在我們推出 search 2.5 版本之前對該版本作了一些根本性的更改,因此移植該代碼的工作一直持續到現在。在 .net 測試版中找不到它,但該項工作已取得重大進展。10 月份晚些時候將發布該版本的更新。
總之,這個體系結構是一個杰作。我們擁有一些真正的 c# .net 組件,我們擁有所有的 asmx 頁面。而且,我們演示了可以通過 interop 調用自定義 com 對象,以及通過 .net reflection 調用小腳本。傳統的對象(比如,searchresults)可以消耗由 c# 對象(比如,vocabulary) 創建的數據結構,這是非常好的事。
在您審查 .net search 測試版之前值得一提的是,這個體系結構中沒有用戶界面。您所看到的是一項 web 服務的默認情況。我們本來是可以添加一個 ui 的,但是我們之所以保留成現在這樣,是想讓您看到其本來面目。