在數據挖掘的數據預處理過程中,寬表數據往往是幾十萬,上百萬級記錄的。要對所有數據進行訓練,時間上很難滿足要求,因此對數據進行抽樣就很必要了,不同的數據抽樣方法對訓練結果模型的精度有很大影響。可以考慮用一些數據瀏覽工具,統計工具對數據分布做一定的探索,在對數據做充分的了解后,再考慮采用合適的數據抽樣方法,抽取樣本數據進行建模實驗。對一般的模型,比如客戶細分,主要是數據的聚類,我在做抽樣時用了隨機抽樣,也可以考慮整群抽樣;而做離網預警模型或者金融欺詐預測模型時,數據分布是嚴重有偏的,而且這種有偏數據對這類模型來說恰恰是至關重要的。一般采用分層抽樣和過度抽樣結合有不錯的效果,分層抽樣和過度抽樣的區別自己也不是很了解,現在只能是做個概述了。
幾種常用的抽樣方法:
1.簡單隨機抽樣(simple random sampling)
將所有調查總體編號,再用抽簽法或隨機數字表隨機抽取部分觀察數據組成樣本。
優點:操作簡單,均數、率及相應的標準誤計算簡單。
缺點:總體較大時,難以一一編號。
2.系統抽樣(systematic sampling)
又稱機械抽樣、等距抽樣,即先將總體的觀察單位按某一順序號分成n個部分,再從第一部分隨機抽取第k號觀察單位,依次用相等間距從每一部分各抽取一個觀察單位組成樣本。
優點:易于理解、簡便易行。
缺點:總體有周期或增減趨勢時,易產生偏性。
3.整群抽樣(cluster sampling)
先將總體依照一種或幾種特征分為幾個子總體(類.群),每一個子總體稱為一層,然后從每一層中隨機抽取一個子樣本,將它們合在一起,即為總體的樣本,稱為分層樣本
優點:便于組織、節省經費。
缺點:抽樣誤差大于單純隨機抽樣。
4.分層抽樣(stratified sampling)
將總體樣本按其屬性特征分成若干類型或層,然后在類型或層中隨機抽取樣本單位,合起來組成樣本。有按比例分配和最優分配(過度抽樣是否就是最優分配方法?)兩種方案。
特點:由于通過劃類分層,增大了各類型中單位間的共同性,容易抽出具有代表性的調查樣本。該方法適用于總體情況復雜,各類別之間差異較大(比如金融客戶風險/非風險樣本的差異),類別較多的情況。
優點:樣本代表性好,抽樣誤差減少。
新聞熱點
疑難解答