SQL Server 2012 Data Quality Services (DQS) 允許你使用自己的知識庫來清洗數據. 在本文中我會展示一個簡單示例.
使用DQS清理步驟如下:
A. 建立DQS 知識庫 B. 建立DQS項目然后根據知識庫清理數據
在SQL Server database中用下面腳本創建樣本數據:
CREATE TABLE MyCustomers ( CustomerID INT, CustomerName NVARCHAR(255), City NVARCHAR(32), PRovince NVARCHAR(32), LastUpdate DATETIME ) INSERT INTO MyCustomers VALUES (1, 'Consolidate Co Ltd', 'Miami', 'FL','2013-01-01'), (2, 'Consolidation Company Ltd', 'New York', 'NY','2013-01-01'), (3, N'什錦的件', 'LA', 'CA','2013-01-01'), (4, 'Chop-suey Chinese', 'Los Angeles', 'CA', '2013-03-03'), (5, 'Big Cheese, The', 'Redmond', 'WA', '2013-02-02'), (6, 'THE BIG CHEESE', 'Chicago', 'Il','2013-02-02'), (7, 'To Be Filled Later', 'Redmond', 'Wash.', '2013-01-01')A. 建立DQS 知識庫
1. 先運行SQL Server 2014 Data Quality Server Installer 安裝DQS
注: DQS只能安裝在企業版或者商業智能版的SQL 上
安裝完畢以后引擎新增的DQS_MAIN數據庫,其中新增了三個Role,如果你要讓其他用戶訪問DQS,那么必須賦予他們其中一個Role才可以訪問DQS
2.裝好以后啟動 Data Quality Client.
3. 點擊 New Knowledge Base. Name字段輸入 MyCustomerKB, 確定 Domain Management已經被選中,然后點擊 Next
4. 點擊 Create Domain 圖標.
5. 彈出框里面 Domain Name寫 CustomerName . 還有一個可選項 Format Output to . 可以選成 Capitalize.
6. 重復相同的步驟創建 City 和 State域(暫且叫域吧,不知道官方翻譯成什么) .
7. 選擇 City 域, 點擊 domain values 標簽. 在這個界面,你可以輸入所有有效值或者無效值.
注意:默認情況下, DQS 包含一個 DQS_NULL 有效值, 你可以把它的類型改為無效, 比如你想標記缺失值.
接著改變主導值,右擊Los Angeles并選擇 Set as Leading during .
8. 選擇 State 域 ,點擊 domain values 標簽. 在這個步驟.我們用通過表格導入值.
9. 選擇 CustomerName 域,然后點擊Term-Based Relations 標簽. DQS允許你域值里面定義術語,并使他們標準化. 例如公司名稱常包括 “corp”,當出現他的變種(比如 "Microsoft Corp" 或者 "Microsoft Corporation")的時候你可以使用DQS 標準化域值中的術語,在這個步驟中,我們將定義兩個術語:
10. 點擊 Publish 按鈕 button繼續.
新聞熱點
疑難解答