亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Python > 正文

Python使用gensim計算文檔相似性

2020-01-04 17:33:38
字體:
來源:轉載
供稿:網友
在文本處理中,比如商品評論挖掘,有時需要了解每個評論分別和商品的描述之間的相似度,以此衡量評論的客觀性。那么python 里面有計算文本相似度的程序包嗎,恭喜你,不僅有,而且很好很強大。下面我們就來體驗下gensim的強大
 

pre_file.py

#-*-coding:utf-8-*-import MySQLdbimport MySQLdb as mdbimport os,sys,stringimport jiebaimport codecsreload(sys)sys.setdefaultencoding('utf-8')#連接數據庫try:  conn=mdb.connect(host='127.0.0.1',user='root',passwd='kongjunli',db='test1',charset='utf8')except Exception,e:  print e  sys.exit()#獲取cursor對象操作數據庫cursor=conn.cursor(mdb.cursors.DictCursor) #cursor游標#獲取內容sql='SELECT link,content FROM test1.spider;'cursor.execute(sql)   #execute()方法,將字符串當命令執行data=cursor.fetchall()#fetchall()接收全部返回結果行f=codecs.open('C:/Users/kk/Desktop/hello-result1.txt','w','utf-8') for row in data:    #row接收結果行的每行數據  seg='/'.join(list(jieba.cut(row['content'],cut_all='False')))  f.write(row['link']+' '+seg+'/r/n')f.close() cursor.close()      #提交事務,在插入數據時必須

jiansuo.py

#-*-coding:utf-8-*-import sysimport stringimport MySQLdbimport MySQLdb as mdbimport gensimfrom gensim import corpora,models,similaritiesfrom gensim.similarities import MatrixSimilarityimport loggingimport codecsreload(sys)sys.setdefaultencoding('utf-8') con=mdb.connect(host='127.0.0.1',user='root',passwd='kongjunli',db='test1',charset='utf8')with con:  cur=con.cursor()  cur.execute('SELECT * FROM cutresult_copy')  rows=cur.fetchall()  class MyCorpus(object):    def __iter__(self):      for row in rows:        yield str(row[1]).split('/')#開啟日志logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s',level=logging.INFO)Corp=MyCorpus()#將網頁文檔轉化為tf-idfdictionary=corpora.Dictionary(Corp)corpus=[dictionary.doc2bow(text) for text in Corp] #將文檔轉化為詞袋模型#print corpustfidf=models.TfidfModel(corpus)#使用tf-idf模型得出文檔的tf-idf模型corpus_tfidf=tfidf[corpus]#計算得出tf-idf值#for doc in corpus_tfidf:  #print doc###'''q_file=open('C:/Users/kk/Desktop/q.txt','r')query=q_file.readline()q_file.close()vec_bow=dictionary.doc2bow(query.split(' '))#將請求轉化為詞帶模型vec_tfidf=tfidf[vec_bow]#計算出請求的tf-idf值#for t in vec_tfidf: # print t'''###query=raw_input('Enter your query:')vec_bow=dictionary.doc2bow(query.split())vec_tfidf=tfidf[vec_bow]index=similarities.MatrixSimilarity(corpus_tfidf)sims=index[vec_tfidf]similarity=list(sims)print sorted(similarity,reverse=True)

encodings.xml

<?xml version="1.0" encoding="UTF-8"?><project version="4"> <component name="Encoding">  <file url="PROJECT" charset="UTF-8" /> </component></project>

misc.xml

<?xml version="1.0" encoding="UTF-8"?><project version="4"> <component name="ProjectLevelVcsManager" settingsEditedManually="false">  <OptionsSetting value="true" id="Add" />  <OptionsSetting value="true" id="Remove" />  <OptionsSetting value="true" id="Checkout" />  <OptionsSetting value="true" id="Update" />  <OptionsSetting value="true" id="Status" />  <OptionsSetting value="true" id="Edit" />  <ConfirmationsSetting value="0" id="Add" />  <ConfirmationsSetting value="0" id="Remove" /> </component> <component name="ProjectRootManager" version="2" project-jdk-name="Python 2.7.11 (C:/Python27/python.exe)" project-jdk-type="Python SDK" /></project>

modules.xml

<?xml version="1.0" encoding="UTF-8"?><project version="4"> <component name="ProjectModuleManager">  <modules>   <module fileurl="file://$PROJECT_DIR$/.idea/爬蟲練習代碼.iml" filepath="$PROJECT_DIR$/.idea/爬蟲練習代碼.iml" />  </modules> </component></project>

發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
国产精品狠色婷| 国产精品爽爽ⅴa在线观看| 欧美综合在线观看| 在线观看日韩av| 国产a∨精品一区二区三区不卡| 亚洲欧洲在线视频| 亚洲天堂2020| 国产精品69久久| 亚洲免费一在线| 日本一欧美一欧美一亚洲视频| 成人美女免费网站视频| 欧美成人精品激情在线观看| 亚洲欧美激情另类校园| 久久久久久久久电影| 欧美亚洲另类激情另类| 日韩av网站导航| 久久好看免费视频| 日韩免费视频在线观看| 国产在线视频2019最新视频| 一道本无吗dⅴd在线播放一区| 日韩欧美黄色动漫| 国产精品久久久久久久久久久久久| 一区二区三区美女xx视频| 视频在线观看99| 91精品国产91久久久久久吃药| 456国产精品| 欧美一区二区三区免费观看| 一区二区三区日韩在线| 中文字幕欧美精品日韩中文字幕| 57pao国产精品一区| 一本色道久久综合狠狠躁篇怎么玩| 国产一区二区三区直播精品电影| 国产91精品最新在线播放| 国产精品免费福利| 欧美中文在线免费| 上原亚衣av一区二区三区| 亚洲黄色av网站| 欧洲成人免费视频| 久久亚洲国产成人| 日韩一区视频在线| 最近中文字幕mv在线一区二区三区四区| 亚洲自拍小视频免费观看| 欧美日韩xxx| 韩国欧美亚洲国产| 欧美尺度大的性做爰视频| 国产精品久久久久久久久免费| 中文字幕不卡av| 欧美日韩国产第一页| 亚洲天堂男人天堂女人天堂| 欧美成人精品不卡视频在线观看| 亚洲伊人一本大道中文字幕| 日韩精品一区二区三区第95| 亚洲激情视频在线| 久久精品国产欧美激情| 久久在线免费观看视频| 欧美日韩色婷婷| 日韩电影中文 亚洲精品乱码| 欧美影院成年免费版| 中文字幕亚洲激情| 亚洲缚视频在线观看| 国产盗摄xxxx视频xxx69| 国产欧美久久一区二区| 欧美午夜激情在线| 国产午夜精品久久久| 91精品国产自产在线| 欧美一级片在线播放| 亚洲成人av资源网| 日本不卡高字幕在线2019| 国产欧美中文字幕| 5566成人精品视频免费| 久久久久久久国产精品| 国产精品久久久久久久久久ktv| 久久精品国产96久久久香蕉| 亚洲欧美日韩区| 欧美一级bbbbb性bbbb喷潮片| 原创国产精品91| 日韩欧美在线视频日韩欧美在线视频| www.99久久热国产日韩欧美.com| 精品日本美女福利在线观看| 国产综合在线看| 亚洲精品资源美女情侣酒店| 久久国产一区二区三区| 欧美激情亚洲另类| 亚洲人成在线免费观看| 4388成人网| 成人有码视频在线播放| 欧美日韩成人网| 欧美国产高跟鞋裸体秀xxxhd| 日韩成人在线视频观看| 中文精品99久久国产香蕉| 欧美一级大片视频| 国产ts人妖一区二区三区| 欧美成人黄色小视频| 国产亚洲精品美女久久久久| 国产69精品久久久久久| 亚洲精品视频网上网址在线观看| 97精品久久久中文字幕免费| 欧美日韩激情视频| 亚洲精品久久久一区二区三区| 91在线网站视频| 美女黄色丝袜一区| 精品视频在线观看日韩| 欧美人在线视频| 18性欧美xxxⅹ性满足| 国产91在线播放精品91| 7m第一福利500精品视频| 久久夜色精品国产亚洲aⅴ| 亚洲成人a级网| 久久国产精品亚洲| 97在线视频免费| 日韩av电影免费观看高清| 亚洲第一福利视频| 欧美国产亚洲视频| 福利二区91精品bt7086| 欧美日韩国产在线| 有码中文亚洲精品| 亚洲人午夜精品免费| 蜜臀久久99精品久久久无需会员| 姬川优奈aav一区二区| 久久人人爽人人爽人人片av高清| 国产成人短视频| 久久久久国产精品免费网站| 91视频九色网站| 亚洲网址你懂得| 国产精品视频一区国模私拍| 国产一区二区三区久久精品| 亚洲三级黄色在线观看| 97av在线视频免费播放| 91人成网站www| 日韩一区二区福利| 久久免费国产精品1| 日韩激情视频在线播放| 性欧美暴力猛交69hd| 欧美大尺度激情区在线播放| 在线视频中文亚洲| 欧美大片免费观看在线观看网站推荐| 亚洲老司机av| 91精品国产91久久久久久吃药| 国产一区二区三区视频免费| 日韩欧美国产激情| 国产视频欧美视频| 亚洲成人在线网| 欧美一级大片视频| 日韩高清欧美高清| 欧美日韩视频免费播放| 国产亚洲一区二区在线| 欧美xxxx综合视频| 色婷婷av一区二区三区在线观看| 久久综合九色九九| 久久韩剧网电视剧| 日韩在线视频一区| www欧美日韩| 成人免费视频网| 亚洲一区二区免费| 欧美激情一区二区三区在线视频观看| 国产经典一区二区| 亚洲伊人久久大香线蕉av| 欧美性猛交xxxx乱大交蜜桃| 久久亚洲精品国产亚洲老地址| 亚洲男人7777| 精品一区二区亚洲| 国产精品青青在线观看爽香蕉| 欧美中文字幕第一页| xxxx欧美18另类的高清|