最近使用python進行數據處理,需要計算矩陣的特征值和特征向量,然后對特征值由小到大排序,去前k個特征值對應的特征向量(其實是自己實現雙向2D PCA算法),感覺numpy中實現這個算法的方式很巧妙。
假設已經計算好了特征值evals=[0,2,5,3,1]和對應的特征向量evecs=[[1,1],[2,3],[4,5],[7,7],[6,8]]。首先要對特征值排序,這里要用到argmax這個函數:
import numpy as npevals=np.array([0,2,5,3,1])evecs=np.array([[1,1],[2,3],[4,5],[7,7],[6,8]])sorted_indices = np.argsort(evals)上面得到的sorted_indices就是特征值排序后的結果,巧妙的是這里是用數組下標來表示的,也就是說其中存放的是特征值由小到大的順序排序時對應的下標[0, 4, 1, 3, 2],而不是直接存放特征值。
下一步就是取前k大的特征向量了:
topk_evecs = evecs[:,sorted_indices[:-k-1:-1]]一句話就可以搞定了,這里利用的numpy數組的便利。
numpy數組的索引除了指定第一維外,還可以指定特定的列數,上面的evecs[ : , …]逗號后面省略的部分就是指定對應要保留的特征向量的列號(特征向量按列存放)。
sorted_indices[:-k-1:-1]則利用切片的語法特性,保留了前K大的特征值對應的下標。切片有三個參數[start : end : step],當step為-1時,表示逆序,從最后一個元素開始,一直到第end+1個元素為止。sorted_indices[:-k-1:-1]則表示從最后一個元素一直到第k個為止的所有下標,也就是前k大的特征值對應的下標。
這樣通過很簡潔的語句,就完成了將特征值排序并取前k大特征值對應的特征向量這一功能。
新聞熱點
疑難解答