亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb

首頁 > 學院 > 開發設計 > 正文

Hadoop 編寫WordCount

2019-11-14 22:19:37
字體:
來源:轉載
供稿:網友
Hadoop 編寫WordCount

本文發表于本人博客。

前面幾次講了關于Hadoop的環境搭建、HDFS操作,今天接著繼續。本來Hadoop源碼中就有一個例子WordCount,但是今天我們來自己實現一個加深對這個Mapper、Reducer的理解,如有不對歡迎指正。

我們先來梳理一下思路,對于自定義Mapper以及Reducer,我們先要覆蓋其map以及reduce函數,然后按照相關步驟比如設置輸入文件目錄、輸入文件格式化類、設置自定義Mapper、分區、排序、分組、規約、設置自定義Reducer等等。這里我們把輸入文件的使用空格分割(也可以用制表符來),下面是自定義Mapper類MyMapper:

import java.io.IOException;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.maPReduce.Mapper;import org.apache.hadoop.mapreduce.Mapper.Context;public class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable> {        @Override    protected void map(LongWritable key, Text value,Context context) throws IOException, InterruptedException {        String[] splied = value.toString().split(" ");        for (int i = 0; i < splied.length; i++) {            String lineWord = splied[i];            context.write(new Text(lineWord), new LongWritable(1));        }    }}

這里我選擇的是新的API,相關庫基本是在org.apache.hadoop.mapreduce下,舊API是在org.apache.hadoop.mapred下,包括一些引用庫也是這樣。自定義MyMapper是泛型繼承Mapper,其中參數key/value是Hadoop內部類型,它不支持java的基本類型這里我們需要注意下為什么不選擇java的基本類型呢,原因是不需要其它額外是操作,而且本身需要序列化反序列化并提升其性能所以加入了hadoop的類型放棄java的基本類型。關于hadoop key/value跟java基本類型相互轉換的問題也很簡單,從java基本類型轉換至hadoop的key/value的話直接new帶參就可以了,從hadoop的key/value類型轉換至java的基本類型使用get方法就可以了!如:

LongWritable lw = new LongWritable(1L);long temp = lw.get();

接下來繼續看自定義Reducer類MyReduce:

import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.Reducer;import org.apache.hadoop.mapreduce.Reducer.Context;public class MyReduce extends Reducer<Text, LongWritable, Text, LongWritable> {    @Override    protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException, InterruptedException {        long count = 0L;        for(LongWritable value: values) {            count += value.get();        }        context.write(key, new LongWritable(count));    }}

這個跟上面類似了,再來看看main方法的如何執行的!

    import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapreduce.InputFormat;import org.apache.hadoop.mapreduce.Job;import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;import com.sun.org.apache.xpath.internal.axes.HaspositionalPredChecker;public class Test {    static final String OUTPUT_DIR = "hdfs://hadoop-master:9000/mapreduce/output/";    static final String INPUT_DIR = "hdfs://hadoop-master:9000/mapreduce/input/test.txt";        public static void main(String[] args) throws Exception {        Configuration conf = new Configuration();        Job job = new Job(conf, Test.class.getSimpleName());                deleteOutputFile(OUTPUT_DIR);                //1設置輸入目錄        FileInputFormat.setInputPaths(job, INPUT_DIR);        //2設置輸入格式化類        job.setInputFormatClass(TextInputFormat.class);        //3設置自定義Mapper以及鍵值類型        job.setMapperClass(MyMapper.class);        job.setMapOutputKeyClass(Text.class);        job.setMapOutputValueClass(LongWritable.class);        //4分區        job.setPartitionerClass(HashPartitioner.class);        job.setNumReduceTasks(1);        //5排序分組        //6設置在自定義Reduce以及鍵值類型        job.setReducerClass(MyReduce.class);        job.setOutputKeyClass(Text.class);        job.setOutputValueClass(LongWritable.class);        //7設置輸出目錄        FileOutputFormat.setOutputPath(job, new Path(OUTPUT_DIR));        //8提交job        job.waitForCompletion(true);    }        static void deleteOutputFile(String path) throws Exception{        Configuration conf = new Configuration();        FileSystem fs = FileSystem.get(new URI(INPUT_DIR),conf);        if(fs.exists(new Path(path))){            fs.delete(new Path(path));        }    }}

執行的時候先會輸出上次執行過的輸出目錄。然后就按照步驟:

1.設置輸入文件目錄;2.輸入文件格式化類;3.設置自定義Mapper以及其鍵值類型;4.分區;5.排序;6.分組;7.規約;8.設置自定義Reducer以及其鍵值類型;9.設置輸出目錄;10.代碼提交至JobTracker。

當然這過程中有些是可以省略的比如輸出文件格式化類。從這個例子我們可以得出:既然可以設置自定義Mapper以及自定義Reducer,那么也應該可以設置自定義的輸入文件格式化類以及分區、排序、分組、規約等等,這個以后會有相關的筆記現在這里只是寫個簡單的例子。我們編寫一個文件如下并把它上傳至hdfs://hadoop-master:9000/mapreduce/input/test.txt:

luoliang measura asura.com luoliangme

然后執行main函數,將會在hdfs://hadoop-master:9000/mapreduce/output/目錄下輸出一個類似part-*的文件,我們可以使用如下命令查看:

hadoop fs -text /output/part-*

此時會輸出:

asura 1asura.com 1luoliang 2me 2

現在文件是輸出了也對比下是正確,但是腦子還是一片空白,不知道其怎么做到的,那么這個就是關于mapreduce的原理了,下面我也說說大概其原理:從把代碼提交至JobTracker開始,它就會從指定的輸入文件路徑去獲取文件,這里支持多個文件以及二級目錄下的多個文件,這里獲取就是使用的HDFS api來操作了!把所有文件讀取出來之后按照指定的大小進行分割InputSplit,把分割好后的鍵值FileSplit(比如:<0,"luoliang me">,<13,"asura asura.com luoliang">)再轉化為RecordReader(比如<"luoliang",1>,<"luoliang",1>),此時全部轉換完畢后會每個都調用map函數,map函數把數據寫入到Mapper.Context中,再會對數據進行分區排序分組規約,最后通過shuffle到達reduce端,這其中每個map的輸出數量是等于reduce的輸入數量。到達reduce端數據已經發生了質變了不在是<"luoliang",1>而是類似變成<"luoliang",{1,1}>這樣的鍵值數據,這是我們需要迭代獲取總數量并在寫會context中,計算完后輸出到指定的目錄。在這里由于有重復的單詞所以map函數的調用次數跟reduce函數調用次數是不同的。規約這個其實就是自定義reduce,但是這個不是必須有的因為如果是統計關于類似平均數的問題,數據在map端進行規約了,雖然傳送時間以及處理時間減少性能提升了但是對于最終結果可能會有影響,所以這個規約要看具體情況才能使用。至于這個shuffle一步還不是怎么了解需要多多再看看。

這次先到這里。堅持記錄點點滴滴!


發表評論 共有條評論
用戶名: 密碼:
驗證碼: 匿名發表
亚洲香蕉成人av网站在线观看_欧美精品成人91久久久久久久_久久久久久久久久久亚洲_热久久视久久精品18亚洲精品_国产精自产拍久久久久久_亚洲色图国产精品_91精品国产网站_中文字幕欧美日韩精品_国产精品久久久久久亚洲调教_国产精品久久一区_性夜试看影院91社区_97在线观看视频国产_68精品久久久久久欧美_欧美精品在线观看_国产精品一区二区久久精品_欧美老女人bb
欧美性资源免费| 另类专区欧美制服同性| 国产亚洲视频在线观看| 亚洲欧美一区二区激情| 日韩高清中文字幕| 欧美中文字幕视频在线观看| 亚洲国产成人91精品| 亚洲男人天堂2023| 日本久久久a级免费| 成人在线一区二区| 国产精品视频导航| 国产精品美女在线观看| 成人免费福利视频| 中文字幕不卡在线视频极品| 亚洲无亚洲人成网站77777| 欧美激情亚洲视频| 亚洲欧美变态国产另类| 国产精品欧美一区二区三区奶水| 久久久欧美一区二区| 在线一区二区日韩| 国内揄拍国内精品少妇国语| 色先锋久久影院av| 久操成人在线视频| 日韩在线视频中文字幕| 亚洲欧美在线一区二区| 国产丝袜精品第一页| 久久免费视频在线观看| 欧美国产乱视频| 久久99久久久久久久噜噜| 伊人精品在线观看| 伊人久久精品视频| 亚洲第一综合天堂另类专| 色综合久久88色综合天天看泰| 激情久久av一区av二区av三区| 97久久超碰福利国产精品…| 久久精品亚洲精品| 欧美日韩一区二区在线| 精品国产一区二区三区久久久狼| 亚洲无限乱码一二三四麻| 欧美精品电影免费在线观看| 日韩三级影视基地| 国产精品无码专区在线观看| 亚洲a区在线视频| 91中文字幕一区| 欧美日韩在线免费观看| 成人在线观看视频网站| 成人免费在线视频网站| 国产成人精品网站| 3344国产精品免费看| 日韩视频免费大全中文字幕| 亚洲精品美女久久| 国产不卡视频在线| 日韩一级裸体免费视频| 精品成人乱色一区二区| 亚洲专区在线视频| 91精品国产高清久久久久久| 日本不卡高字幕在线2019| 欧美小视频在线| 韩国三级电影久久久久久| 日日摸夜夜添一区| 91在线视频免费| 亚洲久久久久久久久久| 2018日韩中文字幕| 国产在线观看91精品一区| 国产一区二区精品丝袜| 亚洲电影免费在线观看| 黑人极品videos精品欧美裸| 国产欧美在线视频| 国产精品白嫩美女在线观看| 欧美老女人性视频| 色樱桃影院亚洲精品影院| 91沈先生在线观看| 国模gogo一区二区大胆私拍| 久久久久久久久91| 国产精品欧美亚洲777777| 国产亚洲在线播放| 庆余年2免费日韩剧观看大牛| 成人在线中文字幕| 亚洲性xxxx| 亚洲裸体xxxx| 日韩精品中文字幕有码专区| 日韩中文在线中文网三级| 欧美日韩国产成人高清视频| 97国产在线观看| 欧美日韩中文字幕日韩欧美| 国产欧美精品va在线观看| 亚洲欧美成人一区二区在线电影| 国产丝袜一区二区三区| 国产精品jvid在线观看蜜臀| 国产91在线高潮白浆在线观看| 欧美亚洲成人精品| 亚洲欧美一区二区三区在线| 日韩中文字幕视频在线观看| 午夜剧场成人观在线视频免费观看| 国产精品日韩欧美综合| 欧美激情精品久久久久久变态| 久久久精品999| 欧美精品18videosex性欧美| 国产成人aa精品一区在线播放| 国产精品久久久精品| 国产精品成人国产乱一区| 国产精品永久免费视频| 午夜精品99久久免费| 亚洲成色777777在线观看影院| 欧美激情精品久久久| 国产福利精品av综合导导航| 日韩精品在线免费| 国产ts人妖一区二区三区| 国产99视频精品免视看7| 国产精品自拍小视频| 在线中文字幕日韩| 日韩免费中文字幕| 国产精欧美一区二区三区| 色阁综合伊人av| 57pao国产成人免费| 亚洲午夜未满十八勿入免费观看全集| 欧美高清在线视频观看不卡| 日韩精品中文字幕视频在线| 欧美国产精品va在线观看| 欧美精品福利在线| 精品国产精品三级精品av网址| 国产精品久久久久久久久粉嫩av| 久久久久久尹人网香蕉| 91免费的视频在线播放| 精品magnet| 欧美日韩免费一区| 久久精品男人天堂| 黑人精品xxx一区一二区| 久久久精品2019中文字幕神马| 久久视频在线播放| 亚洲国产精品99久久| 26uuu亚洲伊人春色| 国产成人免费av电影| 亚洲一区亚洲二区| 日韩一二三在线视频播| 91成人免费观看网站| 欧美日韩一区二区在线| 韩国v欧美v日本v亚洲| 欧美日韩国产va另类| 欧美精品少妇videofree| 国产精品啪视频| 欧美大秀在线观看| 91精品国产91久久久久久| 岛国av午夜精品| 国产精品中文字幕在线| 97**国产露脸精品国产| 欧美精品成人91久久久久久久| 欧美成人剧情片在线观看| 亚洲精品视频二区| 国产欧美日韩精品在线观看| 中文字幕日韩有码| 成人女保姆的销魂服务| 亚洲福利视频网站| 三级精品视频久久久久| 中文字幕亚洲图片| 欧美电影电视剧在线观看| 国产精品一区专区欧美日韩| 日本a级片电影一区二区| 欧美日韩国产精品一区| 久久久久久久电影一区| 一区二区三区视频免费在线观看| 欧美日韩国产二区| 亚洲亚裔videos黑人hd| 久久精品国产亚洲一区二区|