我們?cè)谧鰯?shù)據(jù)挖掘項(xiàng)目或大數(shù)據(jù)競(jìng)賽時(shí),如果個(gè)體是人的時(shí)候,獲得的數(shù)據(jù)中可能有出生日期的Series,舉個(gè)簡(jiǎn)單例子,比如這樣的一些數(shù):
# -*- coding: utf-8 -*-import pandas as pdfrom pandas import Series, DataFrameimport numpy as npimport seaborn as snsimport matplotlib.pyplot as plt %matplotlib inlinedata = {'birth': ['10/8/00', '7/21/93', '6/14/01', '5/18/99', '1/5/98']}frame = DataFrame(data)frame
從數(shù)據(jù)來看,'10/8/00'之類的數(shù),最左邊的數(shù)表示月份,中間的數(shù)表示日,最后的數(shù)表示年度。
實(shí)際上我們?cè)诜治鰰r(shí)并不需要人的出生日期,而是需要年齡,不同的年齡階段會(huì)有不同的狀態(tài),比如收入、健康、居住條件等等,且能夠很好地把不同樣本的差異性進(jìn)行大范圍的劃分,而不是像出生日期那樣包含信息量過大且在算法訓(xùn)練時(shí)不好作為有效數(shù)據(jù)進(jìn)行訓(xùn)練,age是一個(gè)很好地特征工程指示變量。
那如何把上述birth數(shù)據(jù)變?yōu)槟挲gage呢?
在這里用到datetime這個(gè)庫(kù),如下:
(1)首先把birth轉(zhuǎn)化為標(biāo)準(zhǔn)時(shí)間格式
frame['birth'] = pd.to_datetime(frame['birth'])frame
(2)獲取當(dāng)前時(shí)間的年份,并減去birth的年份
import datetime as dtnow_year =dt.datetime.today().year #當(dāng)前的年份frame['age']=now_year-frame.birth.dt.yearframe
在這里使用了dt.datetime.today().year來獲取當(dāng)前日期的年份,然后將birth數(shù)據(jù)中的年份數(shù)據(jù)提取出來(frame.birth.dt.year),兩者相減就得到需要的年齡數(shù)據(jù),如下:

有時(shí)候我們可能還會(huì)關(guān)注到人的出生月份與要預(yù)測(cè)變量的關(guān)系,比如人的星座就是很流行的一種以出生月份、日份來評(píng)估其對(duì)人的影響,也可以按這種方法去提取月、日數(shù)據(jù)。
新聞熱點(diǎn)
疑難解答
圖片精選