当您使用M / R程序读取文件时,映射器的输入键应为 ,而输入值将为整行。
因此,这里正在发生的事情是您试图将行索引作为Text
错误的对象,并且您需要一个LongWritable
替代项,以便Hadoop不会抱怨类型。
尝试以下方法:
public class TopKRecord extends Configured implements Tool {
public static class MapClass extends Mapper<LongWritable, Text, Text, Text> {
public void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
// your map code goes here
String[] fields = value.toString().split(",");
String year = fields[1];
String claims = fields[8];
if (claims.length() > 0 && (!claims.startsWith("\""))) {
context.write(new Text(year.toString()), new Text(claims.toString()));
}
}
}
...
}
您还可能需要重新考虑代码中的一件事,即为Text
要处理的每条记录创建2个对象。您应该只在开始时创建这两个对象,然后在您的映射器中只需使用set
方法设置它们的值。如果您要处理大量数据,这将节省大量时间。