博客
关于我
运行一个Hadoop Job所需要指定的属性
阅读量:83 次
发布时间:2019-02-26

本文共 2210 字,大约阅读时间需要 7 分钟。

1、设置job的基础属性
[java] 
 
  1. Job job = new Job();  
  2. job.setJarByClass(***.class);  
  3. job.setJobName(“job name”);  
  4. job.setNumReduce(2);  
2、设置Map与Reudce的类
[java] 
 
  1. job.setMappgerClass(*.class);  
  2. job.setReduceClass(*.class);  

3、设置Job的输入输出格式

[java] 
 
  1. void    setInputFormatClass(Class<? extends InputFormat> cls)  
  2.   
  3. void    setOutputFormatClass(Class<? extends OutputFormat> cls)   

前者默认是TextInputFormat,后者是FileOutputFormat。

4、设置Job的输入输出路径

当输入输出是文件时,需要指定路径。

[java] 
 
  1. InputFormat:  
  2. static void    addInputPath(JobConf conf, Path path)  
  3.   
  4. FileOutputFormat:  
  5. static void    setOutputPath(Job job, Path outputDir)   
当输入格式是其它类型时,则需要指定相应的属性,如Gora的DataSource。

5、设置map与reduce的输出键值类型
主要有以下4个类
[java] 
 
  1. void    setOutputKeyClass(Class<?> theClass)  
  2.   
  3. void    setOutputValueClass(Class<?> theClass)  
  4.   
  5. void    setMapOutputKeyClass(Class<?> theClass)  
  6.   
  7. void    setMapOutputValueClass(Class<?> theClass)   
(1)前面2个方法设置整个job的输出,即reduce的输出。默认情况下,map的输出类型与reduce一致,若二者不一致,则需要通过后面2个方法来指定map的输出类型。
(2)关于输入类型的说明:reduce的输入类型由output的输出类型决定。map的输入类型由输入格式决定,如输入格式是FileInputFormat,则输入KV类型为LongWriterable与Text。
6、运行程序

job.waitForCompletion()。

见以下示例:

[java] 
 
  1. package org.jediael.hadoopdemo.maxtemperature;  
  2.   
  3. import org.apache.hadoop.fs.Path;  
  4. import org.apache.hadoop.io.IntWritable;  
  5. import org.apache.hadoop.io.Text;  
  6. import org.apache.hadoop.mapreduce.Job;  
  7. import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;  
  8. import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;  
  9.   
  10. public class MaxTemperature {  
  11.     public static void main(String[] args) throws Exception {  
  12.         if (args.length != 2) {  
  13.             System.err  
  14.                     .println("Usage: MaxTemperature <input path> <output path>");  
  15.             System.exit(-1);  
  16.         }  
  17.         //1、设置job的基础属性  
  18.         Job job = new Job();  
  19.         job.setJarByClass(MaxTemperature.class);  
  20.         job.setJobName("Max temperature");  
  21.   
  22.         //2、设置Map与Reudce的类  
  23.         job.setMapperClass(MaxTemperatureMapper.class);  
  24.         job.setReducerClass(MaxTemperatureReducer.class);  
  25.           
  26.         //4、设置map与reduce的输出键值类型  
  27.         job.setOutputKeyClass(Text.class);  
  28.         job.setOutputValueClass(IntWritable.class);  
  29.           
  30.         //5、设置输入输出路径  
  31.         FileInputFormat.addInputPath(job, new Path(args[0]));  
  32.         FileOutputFormat.setOutputPath(job, new Path(args[1]));  
  33.           
  34.         //6、运行程序  
  35.         System.exit(job.waitForCompletion(true) ? 0 : 1);  
  36.     }  
  37. }  

版权声明:本文为博主原创文章,转载请注明来自http://blog.csdn.net/jediael_lu/ https://blog.csdn.net/jediael_lu/article/details/43416751
你可能感兴趣的文章
mysql的cast函数
查看>>
MySql的CRUD(增、删、改、查)操作
查看>>
MySQL的DATE_FORMAT()函数将Date转为字符串
查看>>
mysql的decimal与Java的BigDecimal用法
查看>>
MySql的Delete、Truncate、Drop分析
查看>>
MySQL的Geometry数据处理之WKB方案
查看>>
MySQL的Geometry数据处理之WKT方案
查看>>
mysql的grant用法
查看>>
Mysql的InnoDB引擎的表锁与行锁
查看>>
mysql的InnoDB引擎索引为什么使用B+Tree
查看>>
MySQL的InnoDB默认隔离级别为 Repeatable read(可重复读)为啥能解决幻读问题?
查看>>
MySQL的insert-on-duplicate语句详解
查看>>
mysql的logrotate脚本
查看>>
MySQL的my.cnf文件(解决5.7.18下没有my-default.cnf)
查看>>
MySQL的on duplicate key update 的使用
查看>>
MySQL的Replace用法详解
查看>>
mysql的root用户无法建库的问题
查看>>
mysql的sql_mode参数
查看>>
MySQL的sql_mode模式说明及设置
查看>>
mysql的sql执行计划详解
查看>>