mapreduce过程

全栈程序员-用户IM • 2021年7月16日上午10:00 • 未分类

mapreduce过程

程序会根据inputformat将文件分割成splits分片,每个分片会分配一个map task任务,每个map task任务会有一个内存缓冲区,任务处理后的结果会写入到内存缓冲区,并决定数据写入到哪个patitioner,当写入的数据达到内存缓冲区的阈值(默认80%)时,会启动一个线程将内存中的数据溢写到磁中,同时不影响前面的处理结果继续写入到内存缓冲区,.在接下来的溢写过程中,mapreduce框架会对key进行排序,如果map task处理的结果很大会形成多个溢写文件,最后缓冲区的内容会全部溢写到磁盘中,如果有多个文件则合并为一个文件.

当所有的map task任务完成后,每个map task任务会形成一个最终文件,并且该文件的按区划分.reduce任务启动之前,一个map task完成后,会启动线程来拉取map结果数据到相应的reduce task,不断的合并数据,为reduce的数据输入做准备,当所有的map task完成后,数据也就拉取合并完毕,reduce task启动 ,最终将输出结果存入到hdfs.

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/106367.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

树莓派4B设置USB启动

树莓派4B设置USB启动千呼万唤始出来！官方在2020-05-15发布了一个4B的beta版EEPROM固件更新，这次更新终于增加了期待已久的USB引导功能，今天这个教程就来讲一下如何使用USB而脱离SD卡启动树莓派4B。

全栈程序员-用户IM
2022年5月18日
Extjs grid设置单元格字体颜色，单元格背景颜色，行背景颜色

Extjs grid设置单元格字体颜色，单元格背景颜色，行背景颜色Extjsgrid设置单元格字体颜色，单元格背景颜色，行背景颜色一.在ColumnModel中用renderer渲染颜色：1.不定义样式：(1).字体颜色：{ header:"审核状态", dataIndex:"status", width:100, renderer:function(v){ if(v==1){ return"<s…

全栈程序员-用户IM
2022年7月27日
漂亮的表格样式(使用CSS样式表控制表格样式)

漂亮的表格样式(使用CSS样式表控制表格样式)

全栈程序员-用户IM
2021年9月7日
route add 添加路由参数错误_route删除路由

route add 添加路由参数错误_route删除路由routeadd命令的主要作用是添加静态路由，通常的格式是：routeADD157.0.0.0MASK255.0.0.0157.55.80.1METRIC3IF2参数含义：^destination^mask^gatewaymetric^^interfacedestination【网段地址】mask【子网掩码】gateway【网关地址】metric【路由跳数…

全栈程序员-用户IM
2022年8月12日
商用技术的均衡架构：联想CEMS

商用技术的均衡架构：联想CEMS

全栈程序员-用户IM
2021年8月1日
设计模式

十八、职责链模式-推卸责任，不关我的事，我不管！#和设计模式一起旅行#

不在其位，不谋其政！ –出自《论语·泰伯》故事背景在现实世界中，有很多情况下会遇到一些推卸责任的场景，比如要办理一件事的时候，被告诉你要去做个做这个事情，但是去了这个地方，确告诉要到另一个地方去，最后搞了很久，才办完这一件事。这种情况下，就可以简单的称为踢皮球，也就是推卸责任。在软件中，当外部请求程序进行某个出来，这个程序无法处理就把该请求转给其他对象负责，当对个对象组…

全栈程序员-用户IM
2022年2月27日

发表回复

关注全栈程序员社区公众号