Hadoop mapreduce过程key 和value分别存什么值

全栈程序员-用户IM • 2022年4月23日下午7:00 • 未分类

Hadoop mapreduce过程key 和value分别存什么值Hadoop mapreduce过程key 和value分别存什么值

大家好，又见面了，我是你们的朋友全栈君。

转自：https://www.cnblogs.com/gaopeng527/p/5436820.html

这里以wordCount为例，直接看图就懂了：

（1）inputFormat将hdfs上要处理的文件一行一行的读入，将文件拆分成splits，由于测试用的文件较小，所以每个文件为一个split，并将文件按行分割形成<key,value>对，如图4-1所示。这一步由MapReduce框架自动完成，其中偏移量（即key值）包括了回车所占的字符数（Windows和Linux环境会不同）。

这里是把每个文件按行处理，下图有两个文件，每个文件有两行，每一行的开头字符所在位置的偏移量，第一行的开头偏移量自然是0,hello world共10个偏移量，加上中间的空格11个偏移量，回车再算一个，第二行的开头偏移量是12.

图4-1 分割过程

　　2）将分割好的<key,value>对交给用户定义的map方法进行处理，生成新的<key,value>对，如图4-2所示。

这里是用户自定义的map处理程序，每一行的字符按“ ” 分割，分割的每一个元素都记为1，也就是map节点的所有value都是1

图4-2 执行map方法

　　3）得到map方法输出的<key,value>对后，Mapper会将它们按照key值进行排序，并执行Combine过程，将key至相同value值累加，得到Mapper的最终输出结果。如图4-3所示。

图4-3 Map端排序及Combine过程

　　4）Reducer先对从Mapper接收的数据进行排序，再交由用户自定义的reduce方法进行处理，得到新的<key,value>对，并作为WordCount的输出结果，如图4-4所示。

图4-4 Reduce端排序及输出结果

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/106122.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

全球邮箱正则表达式是什么_验证邮箱的正则表达式

全球邮箱正则表达式是什么_验证邮箱的正则表达式最近做外贸，涉及到邮箱的匹配，网上查了一下，没有合适的，因为设计到各种语言，各种格式的邮箱，就尝试自己写了，效果还可以。$partten=’/[^`~!@#$%\^&\*\(\)\+=\|\{\}\’:;\’,\\\[\]<>\/\?~！@#￥%……&\*（）——+\|\{\}【】‘；：”“’。，、？\s]{1,}@[^`~!@#$%\^&\*\(\)…

全栈程序员-用户IM
2022年9月2日
pycharm中使用anaconda部署python环境_anaconda虚拟环境是什么

pycharm中使用anaconda部署python环境_anaconda虚拟环境是什么如何在pycharm中使用anaconda的虚拟环境（envs），最近项目中有许多同学咨询，这里就给大家简单介绍一下。

全栈程序员-用户IM
2022年8月26日
基于Android点餐系统的设计与实现

基于Android点餐系统的设计与实现该APP是一个包含前端用户点餐App和后端餐厅管理网页的系统，主要实现菜品相关的修改和展示、个人信息的管理、点餐预约等。

全栈程序员-用户IM
2022年6月19日
python做物联网(物联网技术应用)

开篇Python作为一门快速发展的解释性编程语言，数以百万计的开发者已经将Python应用在人工智能、游戏开发、数据挖掘、信息安全、系统运维等行业并取得了成功。现如今，一大批国内外头部IoT解决方商正在尝试将Python引入物联网/智能硬件开发行业，部分支持python语言的物联网开发板和模组也陆续面试。例如阿里云智能推出的HaaS开发板，树莓派推出的RaspberryPiPico开发板等。那么，物联网设备会是Python的下一…

全栈程序员-用户IM
2022年4月12日
OJ平台各个简写的含义

OJ平台各个简写的含义简写字符的含义简写全称中文称谓ACAccepted通过WAWrongAnswer答案错误TLETimeLimitExceed超时OLEOutputLimitExceed超出输出限制MLEMemoryLimitExceed超出内存RERuntimeError运行时错误PEPresentationError格式错误CECompileError无法编译…

全栈程序员-用户IM
2022年6月22日
idea

idea2021激活码破解方法

idea2021激活码破解方法，https://javaforall.cn/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧！

全栈程序员-用户IM
2022年3月14日

发表回复

关注全栈程序员社区公众号