利用pandas進行大文件計數處理的方法

2020-02-15 22:31:15

字體：大中小

來源：轉載

供稿：網友

Pandas讀取大文件

要處理的是由探測器讀出的脈沖信號，一組數據為兩列，一列為時間，一列為脈沖能量，數據量在千萬級，為了有一個直接的認識，先使用Pandas讀取一些

import pandas as pddata = pd.read_table('filename.txt', iterator=True)chunk = data.get_chunk(5)

而輸出是這樣的：

Out[4]: 332.977889999979 -0.0164794921875 0 332.97790 -0.022278 1 332.97791 -0.026855 2 332.97792 -0.030518 3 332.97793 -0.045776 4 332.97794 -0.032654

DataFram基本用法

這里，data只是個容器，pandas.io.parsers.TextFileReader。

使用astype可以實現dataframe字段類型轉換

輸出數據中，每組數據會多處一行，因為get_chunk返回的是pandas.core.frame.DataFrame格式，而data在讀取過程中并沒有指定DataFrame的columns，因此在get_chunk過程中，默認將第一組數據作為columns。因此需要在讀取過程中指定names即DataFrame的columns。

import pandas as pddata = pd.read_table('filename.txt', iterator=True， names=['time', 'energe'])chunk = data.get_chunk(5) data['energe'] = df['energe'].astype('int')

輸出為

Out[6]:

index	time	energe
0	332.97789	-0.016479
1	332.97790	-0.022278
2	332.97791	-0.026855
3	332.97792	-0.030518
4	332.97793	-0.045776

DataFram存儲和索引

這里講一下DataFrame這個格式，與一般二維數據不同（二維列表等），DataFrame既有行索引又有列索引，因此在建立一個DataFrame數據是

DataFrame(data, columns=[‘year', ‘month', ‘day'], index=[‘one', ‘two', ‘three'])

	year	month	day
0	2010	4	1
1	2011	5	2
2	2012	6	3
3	2013	7	5
4	2014	8	9

而pd.read_table中的names就是指定DataFrame的columns,而index自動設置。而DataFrame的索引格式有很多

類型

說明

例子

obj[val]

選取單列或者一組列

上一篇：對pandas中Series的map函數詳解

下一篇：python 自動去除空行的實例

學習交流

如何重啟打印機打印服務

如何重啟打印機打印服務...

熱門圖片

猜你喜歡的新聞

猜你喜歡的關注

新聞熱點

明兮語文停止運營發展資金鏈斷裂

2020-02-16 09:52:44

2006年李俊編寫了“熊貓燒香”電腦病毒，現在過得怎么樣？

2020-02-15 15:53:44

谷歌合并Alphabet旗下子公司Jigsaw，未來會如何發展？

2020-02-11 22:02:38

NASA說今天地球引力最小能讓掃帚立起來？原因很簡單

2020-02-11 21:45:12

TCL集團宣布今日起正式更名為“TCL科技”

2020-02-07 10:36:18

黑莓曲終落，情懷價幾何？

2020-02-06 12:16:44

疑難解答

圖片精選

網友關注

亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb