在pandas多重索引multiIndex中選定指定索引的行方法

2020-02-15 23:43:28

字體：大中小

來源：轉載

供稿：網友

在multiIndex中選定指定索引的行

我們在用pandas類似groupby來使用多重index時，有時想要對多個level中的某個index對應的行進行操作，就需要在dataframe中找到該index對應的行，在單層index中我們可以方便的使用df.loc[index]來選擇，在多重Index中我們可以利用的類似的思路，然而其中也有一些小坑，記錄如下。

1 index為有序的

1.1 創建測試數據

首先創建一個dataframe數據

df = pd.DataFrame({'class':['A','A','A','B','B','B','C','C'],   'id':['a','b','c','a','b','c','a','b'],   'value':[1,2,3,4,5,6,7,8]})

df中內容如下圖：

pandas multiIndex選定指定索引的行

1.2 設置multiIndex

通過set_index設為多重索引

df = df.set_index(['class','id'])

設置索引后效果：

pandas multiIndex選定指定索引的行

1.3 切片篩選index

這里同樣使用loc定位

df.loc[('A',slice(None)),:]

各參數的解釋如下：

loc[(a,b),c]中第一個參數元組為索引內容，a為level0索引對應的內容，b為level1索引對應的內容

因為df是一個dataframe，所以要用c來指定列

這里‘A'，指選擇class中的A類

slice(None), 是Python中的切片操作，這里用來選擇任意的id，要注意！不能使用‘:'來指定任意index

‘:',用來指定dataframe任意的列

執行后的結果如下：

pandas multiIndex選定指定索引的行

同樣，如果想只保留id中的'a'，則可以使用：

df.loc[(slice(None),'a'),:]

2 index無序

前面的例子對應的index列為數字或字母，是有序的，接下來我們看看index列為中文的情況。

2.1 創建無序測試數據

df2 = pd.DataFrame({'課程':['語文','語文','數學','數學'],'得分':['最高','最低','最高','最低'],'分值':[90,50,100,60]})df2 = df2.set_index(['課程','得分'])

pandas multiIndex選定指定索引的行

2.2 嘗試切片選擇index

df2.loc[('語文',slice(None)),:]

我們進行同樣的操作，這時會發現提示出錯：

UnsortedIndexError: 'MultiIndex Slicing requires the index to be fully lexsorted tuple len (2), lexsort depth (0)'

這是因為此時的index無法進行排序，在pandas文檔中提到：Furthermore if you try to index something that is not fully lexsorted, this can raise:

我們可以通過 df2.index.is_lexsorted()來檢查index是否有序，

上一篇：python爬取淘寶商品銷量信息

下一篇：python微信好友數據分析詳解

學習交流

如何重啟打印機打印服務

如何重啟打印機打印服務...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注