FileInputFormat.setInputPaths多路径读取规则

全栈程序员-用户IM • 2022年4月6日下午10:00 • 未分类

大家好，又见面了，我是你们的朋友全栈君。

FileInputFormat.setInputPaths(job, input1, input2);

在读取文件时候，默认先读单个大文件所在的路径（一次性读清该文件下所有文件），后读小文件所在路径。

写协同过滤时候，想让
setInputPaths方法先读第一个输入路径input1，再读第二个输出路径input2

就算把文件位置交换，读取的顺序还是错误

public static class myMapper extends Mapper<LongWritable, Text, Text, Text> {
		@SuppressWarnings("rawtypes")
		private final static Map<Integer, List> cooccurrenceMatrix = new HashMap<Integer, List>();// 同现矩阵

		Text k = new Text();
		Text v = new Text();

		@SuppressWarnings("unchecked")
		@Override
		protected void map(LongWritable key, Text values,
				Mapper<LongWritable, Text, Text, Text>.Context context)
				throws IOException, InterruptedException {

			String[] lists = values.toString().split("[\t,]");

			// 同现矩阵时候，v1存的是书本id 书本id v2存的是权值。
			// 用户评分矩阵，v1存的是书本号 v2存的是用户id 用户评分
			String[] v1 = lists[0].split(":");
			String[] v2 = lists[1].split(":");

			if (v1.length > 1) {// 需要先读到cooccurrence同现矩阵
				int itemID1 = Integer.parseInt(v1[0]);// 横轴
				int itemID2 = Integer.parseInt(v1[1]);// 纵轴

				int num = Integer.parseInt(v2[0]);// 权重

				List<Cooccurrence> list = null;
				if (!cooccurrenceMatrix.containsKey(itemID1))
					list = new ArrayList<Cooccurrence>();
				else
					list = cooccurrenceMatrix.get(itemID1);

				list.add(new Cooccurrence(itemID1, itemID2, num));
				cooccurrenceMatrix.put(itemID1, list);// 以横坐标书号为key 存储同现矩阵
			}

			if (v2.length > 1) {// userVector用户评价矩阵

				int itemID = Integer.parseInt(v1[0]);// 物品id
				String userID = v2[0];// 用户id
				double pref = Double.parseDouble(v2[1]);// 用户评分

				k.set(userID);

				if (cooccurrenceMatrix.containsKey(itemID)) {
					Iterator<Cooccurrence> iterator = cooccurrenceMatrix.get(
							itemID).iterator();

					while (iterator.hasNext()) {
						Cooccurrence co = iterator.next();

						v.set(co.getItemID2() + "," + pref * co.getNum());
						context.write(k, v);
					}

				}
			}
		}
	}

百度了半天没结果，然后自己琢磨。

自己捣鼓了半天后，把大文件进行了切块。然后读取正确。

ok，上结论：

FileInputFormat.setInputPaths(job, input1, input2);在读取文件时候，默认先读单个大文件所在的路径（一次性读清），后读

小文件所在路径。

协同过滤的代码参考的是https://blog.csdn.net/pang_hailong/article/details/53046330?locationNum=12&fps=1

开始时候还不明白为什么把step3里边把同现矩阵重写一遍，然后分析70m的豆瓣数据时候看了step2和step3_2的区别，就是将数据进行了切割，保证了先读step3_1里边的数据，后读step3_2里边的数据。

就是这样，小萌新第一次写博客，请大神们多多指教。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/125996.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

FileInputFormat.setInputPaths多路径读取规则

ok，上结论：

相关推荐

Teleport Ultra/Pro 1.72 安装+便携版（备份网站内容工具+离线网页浏览）[通俗易懂]

国内常用的NTP时间源同步服务器汇总「建议收藏」

mysql数据库用户修改密码_mysql8修改密码

ARM汇编：数据处理指令集：MOV、ADD、ADDS、ADC、SUB、SUBS、SBC、RSB、MUL、AND、ORR、EOR、BIC、CMP、TST、TEQ、LSL、LSR、ASR、RORV

Centos重装ssh服务

java学习——Java 动态代理机制分析

发表回复