一、數據歸約基本知識:
對于小型或中型數據集,一般的數據預處理步驟已經足夠。但對真正大型數據集來講,在應用數據挖掘技術以前,更可能采取一個中間的、額外的步驟-數據歸約。本步驟中簡化數據的主題是維歸約,主要問題是是否可在沒有犧牲成果質量的前提下,丟棄這些已準備和預處理的數據,能否在適量的時間和空間里檢查已準備的數據和已建立的子集。
對數據的描述,特征的挑選,歸約或轉換是決定數據挖掘方案質量的最重要問題。在實踐中,特征的數量可達到數百,如果我們只需要上百條樣本用于分析,就需要進行維歸約,以挖掘出可靠的模型;另一方面,高維度引起的數據超負,會使一些數據挖掘算法不實用,唯一的方法也就是進行維歸約。預處理數據集的3個主要維度通常以平面文件的形式出現:列(特征),行(樣本)和特征的值,數據歸約過程也就是三個基本操作:刪除列,刪除行,減少列中的值。
在進行數據挖掘準備時進行標準數據歸約操作,我們需要知道從這些操作中我們會得到和失去什么,全面的比較和分析涉及到如下幾個方面的參數:
(1)計算時間:較簡單的數據,即經過數據歸約后的結果,可減少數據挖掘消耗的時間。
(2)預測/描述精度:估量了數據歸納和概括為模型的好壞。
(3)數據挖掘模型的描述:簡單的描述通常來自數據歸約,這樣模型能得到更好理解。
數據歸約算法特征:
(1)可測性
(2)可識別性
(3)單調性
(4)一致性
(5)收益增減
(6)中斷性
(7)優先權
二、數據歸約方法:
1、特征歸約:
用相應特征檢索數據通常不只為數據挖掘目的而收集,單獨處理相關特征可以更有效,我們希望選擇與數據挖掘應用相關的數據,以達到用最小的測量和處理量獲得最好的性能。特征歸約處理的效果:
(1)更少的數據,提高挖掘效率
(2)更高的數據挖掘處理精度
(3)簡單的數據挖掘處理結果
(4)更少的特征。
和生成歸約后的特征集有關的標準任務有兩個:
(1)特征選擇:基于應用領域的知識和挖掘目標,分析者可以選擇初始數據集中的一個特征子集。特征排列算法,最小子集算法
(2)特征構成:特征構成依賴于應用知識。
特征選擇的目標是要找出特征的一個子集,此子集在數據挖掘的性能上比得上整個特征集。特征選擇的一種可行技術是基于平均值和方差的比較,此方法的主要缺點是特征的分布未知。最優方法的近似:
(1)只對有前景的特征子集進行檢查
(2)用計算簡單的距離度量替換誤差度量
(3)只根據大量數據的子集選擇特征。
特征歸約處理期望達到的效果:
(1)提高模型生成過程和所得模型本身的性能
(2)在不降低模型質量的情況下減少模型維度
(3)幫助用戶可視化有更少維數的可能結果,改進決策。
2、主成分分析:
主成分分析是大型數據集歸約的一種統計方法。是將以向量樣本表示的初始數據集轉換為一個新的導出維度的向量樣本集,轉換的目標是將不同樣本中的信息集中在較小的維度中。
一個n維向量樣本集X={x1,x2,x3,…,xm},轉換為另一個相同維度的集Y={y1,y2,…,ym}
Y把大部分信息內容存在前幾個維中,可以讓我們以低信息損失講數據集減小到較小的維度。
Y=A*X
3、值歸約:
特征離散化技術:減少已知特征的離散值數目,將連續型特征的值離散化,使之成為少量的區間,每個區間映射到一個離散符號。這樣就簡化了數據描述并易于理解數據和最終數據挖掘的結果。
(1)分割點選擇
(2)怎樣選擇區間描述
幾種自動離散化技術:
(1)特征離散化
ChiMerge算法:
a.對已知特別數據進行升序排列
b.定義初始區間,使特征的每個值都在一個單獨的區間內
c.重復進行直到任何兩個相臨區間的X2都不小于閾值。
4、案例歸約:
初始數據集中最大和最關鍵的維度數就是案例或樣本的數目。在案例規約之前,我們消除了異常點,有時也需要消除有丟失值的樣本。取樣誤差是固有的。
取樣方法分類:
(1)普通用途取樣
a.系統化取樣
b.隨機取樣:不回放/回放
基本形式有增量取樣,平均取樣,
c.分層取樣
d.逆取樣
(2)特殊用途取樣
新聞熱點
疑難解答