FileInputFormat.setInputPaths多路径读取规则

FileInputFormat.setInputPaths(job,input1,input2);在读取文件时候,默认先读单个大文件所在的路径(一次性读清该文件下所有文件),后读小文件所在路径。写协同过滤时候,想让setInputPaths方法先读第一个输入路径input1,再读第二个输出路径input2就算把文件位置交换,读取的顺序还是错误publicstaticclassmyMapp…

大家好,又见面了,我是你们的朋友全栈君。

FileInputFormat.setInputPaths(job, input1, input2);
在读取文件时候,默认先读单个大文件所在的路径(一次性读清该文件下所有文件),后读小文件所在路径。

写协同过滤时候,想让
setInputPaths方法先读第一个输入路径input1,再读第二个输出路径input2
就算把文件位置交换,读取的顺序还是错误
public static class myMapper extends Mapper<LongWritable, Text, Text, Text> {
		@SuppressWarnings("rawtypes")
		private final static Map<Integer, List> cooccurrenceMatrix = new HashMap<Integer, List>();// 同现矩阵

		Text k = new Text();
		Text v = new Text();

		@SuppressWarnings("unchecked")
		@Override
		protected void map(LongWritable key, Text values,
				Mapper<LongWritable, Text, Text, Text>.Context context)
				throws IOException, InterruptedException {

			String[] lists = values.toString().split("[\t,]");

			// 同现矩阵时候,v1存的是书本id 书本id v2存的是权值。
			// 用户评分矩阵,v1存的是书本号 v2存的是用户id 用户评分
			String[] v1 = lists[0].split(":");
			String[] v2 = lists[1].split(":");

			if (v1.length > 1) {// 需要先读到cooccurrence同现矩阵
				int itemID1 = Integer.parseInt(v1[0]);// 横轴
				int itemID2 = Integer.parseInt(v1[1]);// 纵轴

				int num = Integer.parseInt(v2[0]);// 权重

				List<Cooccurrence> list = null;
				if (!cooccurrenceMatrix.containsKey(itemID1))
					list = new ArrayList<Cooccurrence>();
				else
					list = cooccurrenceMatrix.get(itemID1);

				list.add(new Cooccurrence(itemID1, itemID2, num));
				cooccurrenceMatrix.put(itemID1, list);// 以横坐标书号为key 存储同现矩阵
			}

			if (v2.length > 1) {// userVector用户评价矩阵

				int itemID = Integer.parseInt(v1[0]);// 物品id
				String userID = v2[0];// 用户id
				double pref = Double.parseDouble(v2[1]);// 用户评分

				k.set(userID);

				if (cooccurrenceMatrix.containsKey(itemID)) {
					Iterator<Cooccurrence> iterator = cooccurrenceMatrix.get(
							itemID).iterator();

					while (iterator.hasNext()) {
						Cooccurrence co = iterator.next();

						v.set(co.getItemID2() + "," + pref * co.getNum());
						context.write(k, v);
					}

				}
			}
		}
	}

百度了半天没结果,然后自己琢磨。
自己捣鼓了半天后,把大文件进行了切块。然后读取正确。


ok,上结论:

FileInputFormat.setInputPaths(job, input1, input2);在读取文件时候,默认先读单个大文件所在的路径(一次性读清),后读
小文件所在路径。


协同过滤的代码参考的是https://blog.csdn.net/pang_hailong/article/details/53046330?locationNum=12&fps=1

开始时候还不明白为什么把step3里边把同现矩阵重写一遍,然后分析70m的豆瓣数据时候看了step2和step3_2的区别,就是将数据进行了切割,保证了先读step3_1里边的数据,后读step3_2里边的数据。

就是这样,小萌新第一次写博客,请大神们多多指教。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/125996.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Java中print、printf、println的区别 详解

    Java中print、printf、println的区别 详解Java中print、printf、println的区别详解printf主要是继承了C语言的printf的一些特性,可以进行格式化输出print就是一般的标准输出,但是不换行println和print基本没什么差别,就是最后会换行System.out.printf(“thenumberis:d”,t);参照JAVAAPI的定义如下:’d’整数

  • FPGA–modelsim仿真工具的破解

    FPGA–modelsim仿真工具的破解1、先把modelsim安装到电脑上;2、将解压的破解文件(MentorKG.exe和patch_dll.bat)复制到modelsim安装目录下的win64文件夹中;3、进入安装目录下的win64文件夹找到mgls.dll、mgls64.dll两个文件,去掉只读属性;4、运行patch_dll.bat(双击该文件即可,有的教程是通过cmd运行的,不过没有直接双击方便快捷),稍等一段时…

  • 第十七篇:实例分析(1)–初探WDDM驱动学习笔记(八)

    第十七篇:实例分析(1)–初探WDDM驱动学习笔记(八)

  • DB2存储过程语法解析

    DB2存储过程语法解析创建SQL存储过程(CREATEPROCEDURE(SQL)statement)语法格式如下:>>-CREATEPROCEDURE–procedure-name—————————–>>–+—————————————————-+–*—->’-(–+-

  • 最简单的三极管音频放大电路

    最简单的三极管音频放大电路最简单的三极管音频放大电路最简单的三极管音频放大电路 调节R1大小,使在最大输出时信号不失真即可,减小R可输出更大的功率。如果有万用表,可将C极电压调为电源电压的1/2左右。        图一固定偏置,电源电压对偏置电流影响很大 基本的共发射极电路   require.async([‘wkcommon:widget/ui

  • 大数据应用管理模式及内容

    大数据应用管理模式及内容通过调研,数据应用管理可总结为分散管理型、职能复用型、集中管理型三种模式,数据应用管理模式中重点关注组织管理、需求管理、建设管理、成果管理四大领域。(1)管理模式分散管理型:各部门分散开展数据应用,无集中管理,例如某某国有集团,公司各业务部门均设有业务数据部门,开展本部门数据应用相关事务。职能复用型:赋予现有部门数据应用管理职责,集中开展数据应用局部过程的管理事务,例如某工业公司,依托公司…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号