在當今信息密集的環境下,對于數據倉庫的需求日益增長。的確,眾多的應用程序,如CRM、ERP、信息門戶網站以及商務智能解決方案等,都要求得到數據倉庫的支持。
數據倉庫平臺的實施,再與企業信息集成(EII)軟件相結合,就可為組織的內外部信息提供更好的訪問,進而促進更快、更好的決策制定。
Aberdeen 集團把EII定義為“在公司級或企業級上把離散數據源結合起來的軟件,以全新的方式提交、分析或修改數據,為應用程序提供支持”,相對于傳統的數據倉庫,EII具有一些獨到優點:
·在特定方式下傳送實時數據的功能
·較早地將有價值的服務交付企業,降低項目風險
·靈活易變,以適應緊急業務需要
·明顯的交接機制,可以清楚了解進展
切實的成本減少以及迅速的投資回報
雖然超出了本文范圍,但其中必須予以重視的一點是:在數據倉庫的創建及維護過程中,應當有一個數據質量策略。這一點對于任何增強數據倉庫的EII解決方案來說也是同樣要求的,選擇有很多:最好的實施方案以便在源頭對數據進行清理,或是啟發式的工具,既可在轉換時進行清理,又可在把數據倉庫中的數據裝載到數據集市時進行清理。
元數據管理是另一極為重要的方面,已被廣泛認為是成功實施數據倉庫的關鍵。數據工程師在整體數據模型的基礎上,運用建模技術來設計數據倉庫的結構,在建模時,應根據對數據倉庫的業務需求來考慮應采用的數據工具。這里主要是指傳統的ETL工具,它們可以迅速的傳送大量數據,并且轉換成可用格式以便裝載到新創建的數據倉庫中。
事實上,根據決策、分析或應用程序的需要將數據存入數據倉庫以備實時訪問時,放入所有的數據并沒有多大意義,這就是EII軟件為什么會出現的原因,特別是在模型驅動的解決方案中。通過對數據建模,可以得出數據架構的結論,以決定載入何種數據以及在特定方式下將用到何種數據。最好解決方案能有一個元數據庫,以及允許建立大量數據模型的能力。這些模型中有一個是用來創建數據倉庫的,而其它的則是用于驅動數據返回引擎的,以便創建某種企業視圖。這意味著,最好是既擁有數據倉庫以存儲歷史資料和保護運作系統,又具備根據需要及時訪問數據倉庫以外數據的能力。
既然對企業隨時所需的各種信息進行預料是不可能的,那么當需要時對整個組織的各種數據進行快速訪問的能力就顯得至關重要了,而對于業務用戶的信息需求進行快速建模的能力,可以使公司適應快速變化的業務需求。
按需時實數據訪問的體系結構
此鐘結構基于下述要求:
·一個中心數據庫,以便為所有可用信息資產提供在線目錄
·一組全面的、集成的信息視圖
·為決策所需信息提供簡便的返回方式
完善的應用程序、門戶網站產品、報告及商務智能工具、對迅速生成特定報告所需信息的快速建模及重建模能力
可滿足現存報告及分析流程的靈活環境
對多變的業務需求的快速支持,同時需考慮到高度的可用性、性能及可伸縮性
從舊系統、關系數據庫、實時供給以及其它來自供應鏈伙伴的數據源中直接抽取數據的能力
通過有選擇地將那些不需實時的數據轉移到數據倉庫,使運作系統減輕負擔
另外,任何的實時數據管理系統還應該符合以下的關鍵標準:
水平可伸縮性,可通過另外增加軟硬件資源來解決數據量增長及指標增加問題
基于標準的組件,用于提供開放的、適應未來發展的基礎設施
適應能力強的功能及性能
向基于“購買而非自建”解決方案的市場領先者購買的組件
實時數據管理在數據倉庫和其它系統之間搭起了橋梁,可以隨時根據需要抽取數據生成集成視圖,它跨越了數據倉庫、歷史記錄、快照數據和實時運作數據,以便時實地回答特定問題和監視業務性能。
這種體系結構可以有選擇地將某些報告功能轉交給數據倉庫,并為分析及決策提供報告工具和商務智能工具,進而提高運作系統性能。對于時間敏感型的動態數據則可在需要時隨時進行時實訪問。
數據倉庫的數據建模及裝載
全部數據源包括關系型、時實、舊系統、EAI工具、ASCII文件等,在建模時作為輸入數據源,另外,轉換和處理在建模時則只是邏輯上進行數據清理,而不需對數據進行物理操作。
在此階段,可以看作存在著一個巨大的虛擬關系數據庫,其中不但存儲了所有的運作數據,還存儲了全部經過轉換、清理及過濾的數據。這個虛擬數據庫可用于向數據倉庫填充數據,或向某個在數據源頭用來進行數據清理的ETL工具提供數據。
下述幾個重要措施是必需的:
1. 分析數據需求。確定所需的數據以及恰當的連接器。
2. 對物理數據和虛擬數據進行建模。物理數據源包括數據倉庫,而虛擬數據庫即是指跨越各種物理數據源的集成視圖(其中一個虛擬數據庫可能會類似于數據倉庫,以助于裝載數據)。
3. 配置。配置連接器并啟動它們,為虛擬數據庫命名,并指出實施物理數據源的連接器,然后激活虛擬數據庫。
4. 將數據裝入數據倉庫。用一個簡單的程序來訪問虛擬數據庫并將數據裝入數據倉庫,也可以用專門的ETL工具來填充數據倉庫。
5. 跨越數據倉庫和其它系統訪問數據。數據倉庫既是原始和運作數據的虛擬數據庫,又是連接了物理數據倉庫與原始及運作系統的虛擬數據庫,因此匯總資料和明細資料將可同時返回。
最終,在技術部門真正裝載數據之前就可以對數據倉庫進行訪問了,就像數據已經存在于數據倉庫中一樣。許多數據源與數據倉庫是完全不相容的,通過對EII的結合運用,就可允許它們保持原始存儲形態,同時又能作為虛擬部分加入到數據倉庫中來。
傳統的數據倉庫方法提供了數據快照,這是通過定期的從歷史信息中抽取數據實現的,以反映數據的變化情況。數據倉庫須存儲歷史明細數據以支持分析和預測,另外,數據倉庫的設計應支持高效的特定查詢,支持用戶從報告中鉆取明細數據,數據倉庫對數據的獲取是通過每天、每周及每月的裝載,并且要對明細數據在線維護大約兩年的時間。由于大多數變化都出現在EII工具的抽象數據模型內,因此極少或根本不用對所需的轉換程序進行重編碼。當源系統中增加(或修改)了產品、客戶、地區時,數據倉庫與EII一起使所發生的變化達到最小,這種活動對裝載及轉換流程、數據庫設計、報告或用戶界面等影響極小。數據倉庫還將支持統計應用,可對明細數據進行抽樣和挖掘。
數據結構以及模型中的版本都應同時保留原版和修訂版,這可確保那些基于舊數據結構(模型)的報告當結構更新時依然得到支持。
具有圖形用戶界面的數據建模工具將與數據倉庫快速、高效的設計和配置相結合,向導驅動的流程(元數據驅動的數據源定義、數據倉庫的圖形化設計、圖形化的映射和轉換設計)將引導用戶完成數據倉庫建立的設計工作。這有助于可視化地決定合適的結構、關鍵元素和數據庫的優化設計,同樣,有助于設計高性能的數據倉庫的空間建模技術也將得到運用。
安全控制特性可由用戶激活以限制訪問,這樣可以對不同的用戶組賦予相應權限以訪問不同類型的數據,各個用戶/組對數據(敏感信息)的訪問還可以進一步限制到表、列或記錄的級別。
元數據庫
擁有元數據庫是極為重要的,這是對技術信息和業務信息兩者進行維護的統一的元數據管理工具,這些元數據將關系到整個企業、整個數據倉庫以及數據集市的數據內容和結構。
元數據包含的信息有數據源、數據定義、數據轉換、數據模型、裝載規則、用法數據等等,元數據通過一組表存儲起來,用戶可通過相應的Web界面進行查詢,既可通過查詢也可通過報告工具來提交元數據。
元數據庫也包括了版本控制特性,允許整個企業的多個群體來開發和維護元數據。元數據管理對于當今的企業數據倉庫和Web配置的應用程序是一個很重要的組成部分,元數據定義了應用程序的業務結構及其與其它企業系統之間的關系。元數據庫為整個企業提供了一個共同的管理視圖,是獲取、維護、開采分散的元數據的基礎,它減少了應用程序開始和維護成本,并幫助企業從已有的信息資產中獲取更多價值。
數據建模工具
建模組件與元數據庫密切相關,它可用來定義數據結構,并可為這些結構定義表(實體)和列(屬性),另外還有關鍵字、數據字段長度、數據類型等等,這個組件在從概念、邏輯到物理設計的整個過程中被廣泛使用,定義了大多數的物理參數,從而減少了DBA的工作量,也減少了生產時間。
元數據建模器所采用的技術是DBA和數據工程師都極為熟悉的,基于對象管理組(OMG)為元數據所建立的標準,稱為元對象工具(MOF)和xml 元數據交換(XMI)。
報告和分析工具
一個功能強大的企業報告工具應當能支持復雜的、高質量的報告創建,并且對于整個企業以及Internet來說,都不應受到數據格式化的限制。它在格式化數據方面提供了完美的靈活性,支持多種報告類型,比如表、矩陣、分組報告和圖形等,以及對這些格式的任意組合。用戶可將多個查詢合并到同一個高質量的報告中,并且可以訪問任意的信息源。
在線分析處理(OLAP)特性將使用戶可對數據進行分析以獲得透視能力,并在此基礎上采取行動。用戶可以訪問、計算及共享信息,以便跨越產品、市場、職權、流程、時期和情景等進行績效檢查、質量評判以及因果分析。
信息門戶網站
信息門戶網站為整個公司的內網用戶管理報告出版及訂閱,另外,既然已建起了信息訪問平臺,并且具備了時實信息,配置相應的門戶網站應用程序必然輕而易舉。
新聞熱點
疑難解答