组织切片技术的原理(黄瓜怎么切片)

全栈程序员-用户IM • 2022年4月13日下午6:20 • 未分类

大家好，又见面了，我是你们的朋友全栈君。

第一种切片机制——FileInputFormat

1.简介
2.切片的默认机制
3.介绍默认切片流程
4.某些细节详解
5.FileInputFormat最常用的三个子类

在job提交阶段我们会提交
xml文件、jar包、和切片信息，xml文件我们可以在程序中申明或写成配置文件，jar包就是我们的逻辑代码和依赖，而我们的切片信息可以由FileInputFormat和CombineTextInputFormat切片机制决定（也可以自定义切片机制）！！！

1.简介

FileInputFormat是所有基于文件的InputFormat的基类。这个基类提供了getSplits的通用性实现。FileInputFormat的子类需要覆写isSplitable方法来确保input-files不能被切分，并且被作为一个整体输入到mapper。FileInputFormat抽象类除了实现了父类InputFormat的抽象方法getSplits，还增加了一个比较重要的方法是IsSplitable，主要作用是：由于我们输入的文本文件可能是压缩文件，而压缩文件并不一定能被切分，所以判断的是压缩编码是否为SplittableCompressionCodec接口的实现，目前默认支持的可切分压缩编码为BZip2Codec，这也就是我们使用gzip等其他压缩文件进行处理的时候，map的个数等于压缩文件的个数。getSplits通过判断IsSplitable是否为true来选择对输入文件进行切分还是把文件当作一个split。

2.切片的默认机制

简单地按照文件的内容长度进行切片
切片大小，默认等于Block大小
切片时不考虑数据集整体，而是逐个针对每一个文件单独切片
图解三：

3.介绍默认切片流程

程序先找到你数据存储的目录
开始遍历处理（规划切片）目录下的每一个文件
遍历第一个文件file1.txt

	//源码流程
	1）获取文件大小：fs.sizeOf(ss.txt)
	2）计算切片大小：（computeSliteSize(Math.max(minSize,Math.min(maxSize,blocksize)))=blocksize=128M）
	3）开始切 第一个切片：ss.txt--0:128M
			 第二个切片:ss.txt--128:256M
			 第三个切片:ss.txt--256:320M
	//注：每次切片时，都要判断切完剩下的部分是否大于块的1.1倍，不大于1.1倍就划分一块切片
	4）将切片信息写到一个切片规划文件中
	5) 整个切片的核心过程在getSplit()方法中完成
	6) InputSplit只记录了切片的元数据信息，比如起始位置、长度以及所在的节点列表等。

提交切片规划文件到YARN上，YARN上的MrAppMaster就可以根据切片规划文件计算开启MapTask个数。

4.某些细节详解

1. 源码中计算切片大小的公式
Math.max(minSize, Math.min(maxSize, blockSize))

mapreduce.input.fileinputformat.split.minsize=1 默认值为1
mapreduce.input.fileinputformat.split.maxsize= Long.MAXValue 默认值Long.MAXValue
因此，默认情况下，切片大小=blocksize。

2. 改变切片大小
1）maxsize（切片最大值）：参数如果调得比blockSize小，则会让切片变小，而且就等于配置的这个参数的值
2）minsize（切片最小值）：参数调的比blockSize大，则可以让切片变得比blockSize还大。

5.FileInputFormat最常用的三个子类

输入格式	功能描述	键类型	值类型
TextInputFormat	每条记录是一行输入。键是LongWritable类型，存储该行在整个文件中的起始字节偏移量。值是这行的内容，不包括任何行终止符（换行符和回车符）。	行的字节偏移量(LongWritable)	行的内容(Text)
KeyValueInputFormat	每一行均为一条记录，被分隔符分割为key，value。可以通过在驱动类中设置conf.set(KeyValueLineRecordReader.KEY_VALUE_SEPERATOR, “\t”);来设定分隔符。默认分隔符是tab（\t）	第一个定义key/value分隔符之前的所有字符(Text)	第一个定义key/value分隔符之后的所有字符(Text)
NLineInputFormat	如果使用NlineInputFormat，代表每个map进程处理的InputSplit不再按Block块去划分，而是按NlineInputFormat指定的行数N来划分。即输入文件的总行数/N=切片数，如果不整除，切片数=商+1。	行的字节偏移量(LongWritable)	行的内容(Text)
SequenceFileInputFormat	Hadoop定义的高性能二进制格式	用户自定义	用户自定义