hadoop默认对3个副本的存储策略和执行策略：「建议收藏」

全栈程序员-用户IM • 2022年4月23日下午11:40 • 未分类

hadoop默认对3个副本的存储策略和执行策略：「建议收藏」hadoop默认对3个副本的存储策略和执行策略：

大家好，又见面了，我是你们的朋友全栈君。

1，首先要先了解下什么是rack（机架）集群，一个集群有多个机架，一个机架有多个机器，一个机器一个datanode或namenode节点。通常一个机架内的机器之间的网络速度会高于跨机架机器之间的网络速度。
2，但是要同时保持副本存储策略的容错性和高效性，第一副本：放置在上传文件的DN上（就是执行‘hadoop fs -put 文件名’上传文件命令的机器上，本地文件上传到同一台机器自然要快一点），如果是集群外提交，则随机挑选一台；第二副本：放置在第一副本不同机架的不同节点上；第三副本，放置在第二副本相同机架的不同节点上；其他更多副本：随机放置在节点中。
3，在高效性方面，一个大文件被分成多个分片，也就是多个map任务分别在多个datanode节点上处理，这里就牵扯到任务粒度。如果有m个map任务，不一定会在m个datanode 节点上并行运行。因为可能存在一个datanode上有多个分片\数据块\map任务,所以应该准确的说m个map任务在n个datanode节点上并行运行（注意是并行运行，这样同时处理才会快）。
4，本地计算，在2中也存在野种思想，就是把在哪天DN上传的文件就把次DN作为第一副本；再者就是数据存储在那台机器就由哪台机器负责进行这部分数据的计算，这样可以减少数据在网络上的传输，数据在哪里我就在哪里计算，做到不移动数据，在业界把这形容为“移动计算比移动数据更经济”。

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/106041.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

Keytool命令详解

以前用过几次这个东东，但每次都重新查询一次。本文原始出处是这里。－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－Keytool 是一个Java 数据证书的管理工具,Keytool 将密钥（key）和证书（certificates）存在一个称为keystore的文件中在keystore里，包含两种数据：密钥

全栈程序员-用户IM
2022年4月4日
御用导航提示提醒_又现神操作！广西两车主开车走楼梯，车主：导航让我走的！…[通俗易懂]

御用导航提示提醒_又现神操作！广西两车主开车走楼梯，车主：导航让我走的！…[通俗易懂]大家有没有被导航坑坏的经历？近日柳州市某小区内有两辆小轿车跟着导航走结果都开到了同一楼梯处卡在了同样的地方……2月12日上午，在柳州市柳江区柳西新城小区，一司机开车跟着导航走，结果将车子开到楼梯上了。据网友描述，事故发生在该小区31栋平台上，一辆红色小轿车的四个车轮都在楼梯上，走下楼梯直达小区门口。随后，司机用其他车子把他的汽车拉起来，自己也没有受伤。无独有偶此前就发生过一样的事…

全栈程序员-用户IM
2022年5月7日
STM32看门狗配置说明

STM32看门狗配置说明系统时钟：TheWWDGclockisprescaledfromtheAPBclockandhasaconfigurabletime-windowthatcanbeprogrammedtodetectabnormallylateorearlyapplicationbehavior./**@defgroupWWDG_PrescalerWWDGPrescaler*@{*/#defineWWDG_PRESCALER_10x

全栈程序员-用户IM
2022年5月3日
Mac 电脑连上 wifi 却打不开网页的解决办法

Mac 电脑连上 wifi 却打不开网页的解决办法系统偏好设置–>网络–>高级–>代理–>取消代理☑️

全栈程序员-用户IM
2022年6月22日
MYSQL ERROR CODE 错误编号的意义

mysql error code(备忘)转1005：创建表失败1006：创建数据库失败1007：数据库已存在，创建数据库失败1008：数据库不存在，删除数据库失败1009：不能删除数据库文件导致删除数据库失败1010：不能删除数据目录导致删除数据库失败1011：删除数据库文件失败1012：不能读取系统表中的记录1020：记录已

全栈程序员-用户IM
2022年3月9日
Ubuntu安装超好用的Edge浏览器

Ubuntu安装超好用的Edge浏览器Edge与Chrome都基于开源浏览器Chromium。但是Chrome由与众所周知的原因，扩展商店，翻译等服务延迟高，并不好用。相比较Edge体验起来会更流畅。但是通过官方地址https://www.microsoft.com/zh-cn/edge并没有Linux版本。这里可以通过https://www.microsoftedgeinsider.com/zh-cn/下载官方内部版本。…

全栈程序员-用户IM
2022年7月21日

发表回复

关注全栈程序员社区公众号