亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 編程 > Python > 正文

讓python在hadoop上跑起來

2020-01-04 17:48:08
字體:
來源:轉載
供稿:網友
讓python在hadoop上跑起來,python如何在hadoop上跑起來?感興趣的小伙伴們可以參考一下
 

本文實例講解的是一般的hadoop入門程序“WordCount”,就是首先寫一個map程序用來將輸入的字符串分割成單個的單詞,然后reduce這些單個的單詞,相同的單詞就對其進行計數,不同的單詞分別輸出,結果輸出每一個單詞出現的頻數。

  注意:關于數據的輸入輸出是通過sys.stdin(系統標準輸入)和sys.stdout(系統標準輸出)來控制數據的讀入與輸出。所有的腳本執行之前都需要修改權限,否則沒有執行權限,例如下面的腳本創建之前使用“chmod +x mapper.py”

1.mapper.py

#!/usr/bin/env pythonimport sysfor line in sys.stdin: # 遍歷讀入數據的每一行    line = line.strip() # 將行尾行首的空格去除  words = line.split() #按空格將句子分割成單個單詞  for word in words:    print '%s/t%s' %(word, 1)

2.reducer.py

#!/usr/bin/env pythonfrom operator import itemgetterimport syscurrent_word = None # 為當前單詞current_count = 0 # 當前單詞頻數word = Nonefor line in sys.stdin:  words = line.strip() # 去除字符串首尾的空白字符  word, count = words.split('/t') # 按照制表符分隔單詞和數量    try:    count = int(count) # 將字符串類型的‘1'轉換為整型1  except ValueError:    continue  if current_word == word: # 如果當前的單詞等于讀入的單詞    current_count += count # 單詞頻數加1  else:    if current_word: # 如果當前的單詞不為空則打印其單詞和頻數      print '%s/t%s' %(current_word, current_count)     current_count = count # 否則將讀入的單詞賦值給當前單詞,且更新頻數    current_word = wordif current_word == word:  print '%s/t%s' %(current_word, current_count)

 

在shell中運行以下腳本,查看輸出結果:

echo "foo foo quux labs foo bar zoo zoo hying" | /home/wuying/mapper.py | sort -k 1,1 | /home/wuying/reducer.py# echo是將后面“foo ****”字符串輸出,并利用管道符“|”將輸出數據作為mapper.py這個腳本的輸入數據,并將mapper.py的數據輸入到reducer.py中,其中參數sort -k 1,1是將reducer的輸出內容按照第一列的第一個字母的ASCII碼值進行升序排序

其實,我覺得后面這個reducer.py處理單詞頻數有點麻煩,將單詞存儲在字典里面,單詞作為‘key',每一個單詞出現的頻數作為'value',進而進行頻數統計感覺會更加高效一點。因此,改進腳本如下:

mapper_1.py

讓python在hadoop上跑起來

但是,貌似寫著寫著用了兩個循環,反而效率低了。關鍵是不太明白這里的current_word和current_count的作用,如果從字面上老看是當前存在的單詞,那么怎么和遍歷讀取的word和count相區別?

下面看一些腳本的輸出結果:

讓python在hadoop上跑起來

我們可以看到,上面同樣的輸入數據,同樣的shell換了不同的reducer,結果后者并沒有對數據進行排序,實在是費解~

讓Python代碼在hadoop上跑起來!

一、準備輸入數據

接下來,先下載三本書:

$ mkdir -p tmp/gutenberg$ cd tmp/gutenberg$ wget http://www.gutenberg.org/ebooks/20417.txt.utf-8$ wget http://www.gutenberg.org/files/5000/5000-8.txt$ wget http://www.gutenberg.org/ebooks/4300.txt.utf-8

 然后把這三本書上傳到hdfs文件系統上:

 $ hdfs dfs -mkdir /user/${whoami}/input # 在hdfs上的該用戶目錄下創建一個輸入文件的文件夾 $ hdfs dfs -put /home/wuying/tmp/gutenberg/*.txt /user/${whoami}/input # 上傳文檔到hdfs上的輸入文件夾中

尋找你的streaming的jar文件存放地址,注意2.6的版本放到share目錄下了,可以進入hadoop安裝目錄尋找該文件:

$ cd $HADOOP_HOME$ find ./ -name "*streaming*"

然后就會找到我們的share文件夾中的hadoop-straming*.jar文件:

讓python在hadoop上跑起來

尋找速度可能有點慢,因此你最好是根據自己的版本號到對應的目錄下去尋找這個streaming文件,由于這個文件的路徑比較長,因此我們可以將它寫入到環境變量:

$ vi ~/.bashrc # 打開環境變量配置文件# 在里面寫入streaming路徑export STREAM=$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar

由于通過streaming接口運行的腳本太長了,因此直接建立一個shell名稱為run.sh來運行:

hadoop jar $STREAM /-files ./mapper.py,./reducer.py /-mapper ./mapper.py /-reducer ./reducer.py /-input /user/$(whoami)/input/*.txt /-output /user/$(whoami)/output

然后"source run.sh"來執行mapreduce。結果就響當當的出來啦。這里特別要提醒一下:

1、一定要把本地的輸入文件轉移到hdfs系統上面,否則無法識別你的input內容;

2、一定要有權限,一定要在你的hdfs系統下面建立你的個人文件夾否則就會被denied,是的,就是這兩個錯誤搞得我在服務器上面痛不欲生,四處問人的感覺真心不如自己清醒對待來的好;

3、如果你是第一次在服務器上面玩hadoop,建議在這之前請在自己的虛擬機或者linux系統上面配置好偽分布式然后入門hadoop來的比較不那么頭疼,之前我并不知道我在服務器上面運維沒有給我運行的權限,后來在自己的虛擬機里面運行一下example實例以及wordcount才找到自己的錯誤。

好啦,然后不出意外,就會complete啦,你就可以通過如下方式查看計數結果:

讓python在hadoop上跑起來

以上就是本文的全部內容,希望對大家學習python軟件編程有所幫助。


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
日韩欧美成人免费视频| 色综合影院在线| 国产亚洲欧洲高清| 亚洲天堂男人天堂| 国产精品久久久久久久久久久久久| 日韩成人性视频| 国产成人精品a视频一区www| 国产亚洲视频中文字幕视频| 国产精品一区二区久久| 一个色综合导航| 亚洲图片在线综合| 国产亚洲成精品久久| 日韩精品在线影院| 成人激情视频免费在线| 久久91亚洲人成电影网站| 国产精品久久久亚洲| 国语自产精品视频在线看一大j8| 在线精品国产欧美| 欧美精品在线第一页| 亚洲精品丝袜日韩| 黄色精品在线看| 日本不卡高字幕在线2019| 日韩va亚洲va欧洲va国产| 亚洲精品综合久久中文字幕| 中文字幕欧美视频在线| 两个人的视频www国产精品| 欧美精品999| 欧美电影免费在线观看| 国产福利成人在线| 一区二区三区四区视频| 日本午夜人人精品| 国语自产精品视频在线看一大j8| 大量国产精品视频| 国产日韩欧美在线观看| 欧美性受xxxx白人性爽| 911国产网站尤物在线观看| 欧美极品美女视频网站在线观看免费| 韩国精品美女www爽爽爽视频| 久久久久久久国产精品| 日韩美女在线播放| 久久乐国产精品| 一区二区欧美久久| 欧美电影在线观看网站| 深夜福利国产精品| 影音先锋欧美在线资源| 日韩在线激情视频| 日产日韩在线亚洲欧美| 亚洲电影免费观看高清完整版| 亚洲精品永久免费| 国产精品综合久久久| 亚洲第一网站免费视频| 青青久久av北条麻妃海外网| 精品一区二区电影| 97在线看免费观看视频在线观看| 国产精品∨欧美精品v日韩精品| 亚洲精品久久久久| 精品成人乱色一区二区| 欧美成人免费在线观看| 97精品在线观看| 亚洲精品综合久久中文字幕| 91国内精品久久| 国产精品久久久av久久久| 欧美精品久久久久久久| 综合激情国产一区| 亚洲精品91美女久久久久久久| 日本高清视频精品| 欧美电影免费观看高清| 久久视频免费在线播放| 国产欧美一区二区三区久久| 丝袜美腿亚洲一区二区| 日韩美女视频免费在线观看| 国产视频综合在线| 欧美激情亚洲另类| 成人免费在线网址| 国产一区二区三区视频免费| 性色av一区二区三区在线观看| 亚洲成人免费网站| 欧美日韩中国免费专区在线看| 久久在线免费视频| 国产精品入口尤物| 欧美成人激情图片网| 亚洲欧美日韩一区二区三区在线| 亚洲欧美日韩精品久久奇米色影视| 欧美日韩国产123| 国产成人精品免高潮费视频| 一本色道久久综合狠狠躁篇的优点| 日韩av一卡二卡| 国产亚洲a∨片在线观看| 久久久这里只有精品视频| 亚洲欧美成人网| 国产a级全部精品| 欧美另类精品xxxx孕妇| 精品国产乱码久久久久久虫虫漫画| 国产精品美女呻吟| 日韩av在线电影网| 日韩av电影中文字幕| 97视频在线观看视频免费视频| 日韩一中文字幕| 日本高清视频一区| 日韩福利视频在线观看| 中文字幕日韩欧美在线| 3344国产精品免费看| 亚洲人成免费电影| 久久人人爽亚洲精品天堂| 久久福利视频导航| 亚洲色图欧美制服丝袜另类第一页| 国产精品91视频| 18一19gay欧美视频网站| 91大神在线播放精品| 亚洲电影在线观看| 欧美国产中文字幕| 91社影院在线观看| 粉嫩av一区二区三区免费野| 欧美高清自拍一区| 在线观看不卡av| 欧美午夜性色大片在线观看| 久久99精品国产99久久6尤物| 国产精品第七影院| 日韩中文字幕免费| 精品久久久久久久久久| 伊人久久久久久久久久久| 国产日韩欧美在线看| 日韩毛片在线看| 国产日韩在线一区| 欧美电影在线免费观看网站| 欧美大胆在线视频| 国产欧美日韩中文字幕在线| 精品国产一区av| 亚洲欧美精品在线| 国产欧美日韩高清| 日韩精品久久久久久福利| 欧美日韩午夜剧场| 国产婷婷色综合av蜜臀av| 国产综合在线观看视频| 91在线视频精品| 色狠狠久久aa北条麻妃| 亚洲欧洲高清在线| 国产日韩精品电影| 国产精品九九九| 日韩电影免费观看在线观看| 欧美激情一区二区三区成人| 久久久免费精品视频| 久久99国产精品久久久久久久久| 国产精品成人品| 国产精品久久97| 韩国日本不卡在线| 日韩电影第一页| 亚洲第一中文字幕| **欧美日韩vr在线| 精品久久久视频| 久久久久久久久久久成人| 欧美成aaa人片在线观看蜜臀| 欧美区在线播放| 亚洲色图日韩av| 欧洲永久精品大片ww免费漫画| 国产精品影院在线观看| 亚洲成人黄色在线| 久久成人精品一区二区三区| 在线看欧美日韩| 国产精品久久久久久五月尺| 亚洲精品丝袜日韩| 久久精彩免费视频| 精品久久久久久电影| 国内精品小视频在线观看|