Hadoop排序工具用法小结
基本概念:
d.1.5.23 e.9.4.5 e.5.9.22 e.5.1.45 e.5.1.23 a.7.2.6 f.8.3.3 |
bin/hadoop streaming -input /tmp/comp-test.txt -output /tmp/xx -mapper cat -reducer cat \ -jobconf stream.num.map.output.key.fields=2 \ -jobconf stream.map.output.field.separator=. \ -jobconf mapred.reduce.tasks=5 |
e.9 4.5 f.8 3.3 —————— d.1 5.23 e.5 1.23 e.5 1.45 e.5 9.22 —————— a.7 2.6 |
KeyFieldBasePartitioner的用法
bin/hadoop streaming -input /tmp/comp-test.txt -output /tmp/xx -mapper cat -reducer cat \ -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \ -jobconf stream.num.map.output.key.fields=2 \ -jobconf stream.map.output.field.separator=. \ -jobconf map.output.key.field.separator=. \ -jobconf num.key.fields.for.partition=1 \ -jobconf mapred.reduce.tasks=5 |
d.1 5.23 —————— e.5 1.23 e.5 1.45 e.5 9.22 e.9 4.5 —————— a.7 2.6 f.8 3.3 |
bin/hadoop streaming -input /tmp/comp-test.txt -output /tmp/xx -mapper cat -reducer cat \ -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \ -jobconf stream.num.map.output.key.fields=3 \ -jobconf stream.map.output.field.separator=. \ -jobconf map.output.key.field.separator=. \ -jobconf mapred.text.key.partitioner.options=-k2,3 \ -jobconf mapred.reduce.tasks=5 |
e.9.4 5 —————— a.7.2 6 e.5.9 22 —————— d.1.5 23 e.5.1 23 e.5.1 45 f.8.3 3 |
KeyFieldBaseComparator的用法
bin/hadoop streaming -input /tmpcomp-test.txt -output /tmp/xx -mapper cat -reducer cat \ -partitioner org.apache.hadoop.mapred.lib.KeyFieldBasedPartitioner \ -jobconf mapred.output.key.comparator.class=org.apache.hadoop.mapred.lib.KeyFieldBasedComparator \ -jobconf stream.num.map.output.key.fields=4 \ -jobconf stream.map.output.field.separator=. \ -jobconf map.output.key.field.separator=. \ -jobconf mapred.text.key.partitioner.options=-k1,2 \ -jobconf mapred.text.key.comparator.options=”-k3,3 -k4nr” \ -jobconf mapred.reduce.tasks=5 |
e.5.1.45 e.5.1.23 d.1.5.23 e.5.9.22 —————— a.7.2.6 —————— f.8.3.3 e.9.4.5 |
转载于:https://www.cnblogs.com/sug-sams/articles/9999441.html
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/101304.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...