有如下格式的文本文件
代碼如下:
/“/請/!/”/“/請/!/”/兩名/劍士/各自/倒轉/劍尖/,/右手/握/劍柄/,
/左手/搭于/右手/手背/,/躬身行禮/。/兩/人/身子/尚未/站/直/,
/突然/間/白光閃/動/,/跟著/錚的/一/聲響/,
/雙劍相/交/,/兩/人/各/退一步/。
/旁/觀眾/人/都/是/“/咦/”/的/一聲/輕呼/。/青衣/劍士/連/劈/三/劍/
將這段話進行詞頻統計,結果是 詞—詞數 的形式,比如 請 2 ,并把結果放到txt文件中。
這樣的問題利用詞或單詞作為字典的key,循環判斷有不有這個key,沒有新增一個,有的話,將這個key對應的value加1
代碼如下:
#coding:utf-8
word_lst = []
word_dict = {}
with open("中文.txt","r") as f1 ,open("詞次數.txt",'w') as f2:
for line in f1:
word_lst.append(line.split('/'))
for item in word_lst:
for item2 in item:
if item2.strip() not in ",!?!啊? :
if item2 not in word_dict:
word_dict[item2] = 1
else :
word_dict[item2] += 1
for key in word_dict:
print key,word_dict[key]
f2.write(key+' '+str(word_dict[key]))
新聞熱點
疑難解答