大家好,又见面了,我是你们的朋友全栈君。
setInputPaths方法先读第一个输入路径input1,再读第二个输出路径input2
public static class myMapper extends Mapper<LongWritable, Text, Text, Text> {
@SuppressWarnings("rawtypes")
private final static Map<Integer, List> cooccurrenceMatrix = new HashMap<Integer, List>();// 同现矩阵
Text k = new Text();
Text v = new Text();
@SuppressWarnings("unchecked")
@Override
protected void map(LongWritable key, Text values,
Mapper<LongWritable, Text, Text, Text>.Context context)
throws IOException, InterruptedException {
String[] lists = values.toString().split("[\t,]");
// 同现矩阵时候,v1存的是书本id 书本id v2存的是权值。
// 用户评分矩阵,v1存的是书本号 v2存的是用户id 用户评分
String[] v1 = lists[0].split(":");
String[] v2 = lists[1].split(":");
if (v1.length > 1) {// 需要先读到cooccurrence同现矩阵
int itemID1 = Integer.parseInt(v1[0]);// 横轴
int itemID2 = Integer.parseInt(v1[1]);// 纵轴
int num = Integer.parseInt(v2[0]);// 权重
List<Cooccurrence> list = null;
if (!cooccurrenceMatrix.containsKey(itemID1))
list = new ArrayList<Cooccurrence>();
else
list = cooccurrenceMatrix.get(itemID1);
list.add(new Cooccurrence(itemID1, itemID2, num));
cooccurrenceMatrix.put(itemID1, list);// 以横坐标书号为key 存储同现矩阵
}
if (v2.length > 1) {// userVector用户评价矩阵
int itemID = Integer.parseInt(v1[0]);// 物品id
String userID = v2[0];// 用户id
double pref = Double.parseDouble(v2[1]);// 用户评分
k.set(userID);
if (cooccurrenceMatrix.containsKey(itemID)) {
Iterator<Cooccurrence> iterator = cooccurrenceMatrix.get(
itemID).iterator();
while (iterator.hasNext()) {
Cooccurrence co = iterator.next();
v.set(co.getItemID2() + "," + pref * co.getNum());
context.write(k, v);
}
}
}
}
}
ok,上结论:
开始时候还不明白为什么把step3里边把同现矩阵重写一遍,然后分析70m的豆瓣数据时候看了step2和step3_2的区别,就是将数据进行了切割,保证了先读step3_1里边的数据,后读step3_2里边的数据。
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/125996.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...