Microsoft樸素貝葉斯是SSAS中最簡單的算法,通常用作理解數據基本分組的起點。這類處理的一般特征就是分類。這個算法之所以稱為“樸素”,是因為所有屬性的重要性是一樣的,沒有誰比誰更高。貝葉斯之名則源于Thomas Bayes,他想出了一種運用算術(可能性)原則來理解數據的方法。對此算法的另一個理解就是:所有屬性都是獨立的,互不相關。從字面來看,該算法只是計算所有屬性之間的關聯。雖然該算法既可用于預測也可用于分組,但最常用于模型構建的早期階段,更常用于分組而不是預測某個具體的值。通過要將所有屬性標記為簡單輸入或者既是輸入又是可預測的,因為這就可以算法在執行的時候考慮到所有屬性。在標記屬性時的工作量可能有些大。很常見的情況是,在輸入中包含大量屬性,然后處理模型再評估結果。如果結果看起來沒什么意義,我們經常減少包含的屬性數量,以便更好地理解關聯最緊密的關系?! ∪绻麚碛写罅繑祿鴮祿牧私庥趾苌?,這時可以使用樸素貝葉斯算法。例如,公司可能由于兼并了一家競爭對手而獲得了大量銷售數據。在處理這類數據的時候,可以用樸素貝葉斯作為起點?! 摿私獾氖?,這個算法有一個明顯的局限,只能處理離散(或離散化)的內容類型。如果選擇的數據結構中包含有內容類型不是Discrete(如Continuous)的數據列,那么樸素貝葉斯建立的挖掘模型會忽略這些數據?! 闼刎惾~斯算法有4個可以配置的參數:MAXIMUM_INPUT_ATTRIBUTE、MAXIMUM_OUTPUT_ATTRIBUTE、MAXIMUM_STATUS、MINIMUM_DEPENDENCY_PROBABILITY??梢栽?ldquo;值”中輸入新值來修改配置的(默認)值。這個信息在“算法參數”對話框的“說明”區中有說明?! ∮腥丝赡芟胫朗欠窠洺P枰{整算法參數的默認值。我們發現,隨著對各個算法功能的逐漸了解,我們開始傾向于手動調節。因為樸素貝葉斯頻繁地用于數據挖掘項目,尤其用于項目的早期,所以我們發現自己經常要調整它的相關參數。前3個參數的作用一目了然:調整配置的值為的是減少輸入值、輸出值或分組狀態的最大數量。最后的依賴關系可能性的意義不太明顯。在減小這個值的時候,實際是在要求減少模型生成的節點或分組的數量。下面我們進入主題,同樣我們繼續利用上次的解決方案,依次步驟如下:選擇所需輸入變量與預測變量,以及索引鍵。此例以序列為索引,身份為預測變量,選中統率、武力、智力、政治、魅力五個變量為輸入變量,完成后點擊“確定”按鈕,這時會到原來的頁面,點擊“下一步”按鈕,如圖所示。
選擇正確的數據屬性,修正了變量的數據屬性后點擊“下一步”按鈕。
更改挖掘結構名稱,點擊“完成”按鈕。
挖掘模型查看器則是呈現此依賴關系網絡,對于數據的分布進一步加以了解。
從“屬性配置”文件可以了解每個變量的特性分布狀況。
而從“屬性特性”可以看出,不同群的基本特性概率。
而從“屬性對比”中,主要可以比較不同群體的特性。
參考文獻:Microsoft Naive Bayes 算法http://msdn.microsoft.com/zh-cn/library/ms174806(v=sql.105).aspx
新聞熱點
疑難解答