架构方案(16) 常见分布式文件存储介绍、选型比较、以及架构设计

全栈程序员-用户IM • 2022年5月1日上午9:20 • 未分类

架构方案(16) 常见分布式文件存储介绍、选型比较、以及架构设计数据正成为世界上最有价值的资源，分布式文件存储是应对数据爆炸的最好解决方案，那就会涉及到分布式文件存储方案、选型、架构设计等。分布式文件存储的来源在这个数据爆炸的时代，产生的数据量不断地在攀升，从GB,TB,PB,ZB.挖掘其中数据的价值也是企业在不断地追求的终极目标。但是要想对海量的数据进行挖掘，首先要考虑的就是海量数据的存储问题，比如Tb量级的数据。谈到数据的存储，则不得不说的是磁盘…

大家好，又见面了，我是你们的朋友全栈君。

数据正成为世界上最有价值的资源，分布式文件存储是应对数据爆炸的最好解决方案，那就会涉及到分布式文件存储方案、选型、架构设计等。

分布式文件存储的来源

在这个数据爆炸的时代，产生的数据量不断地在攀升，从GB,TB,PB,ZB.挖掘其中数据的价值也是企业在不断地追求的终极目标。但是要想对海量的数据进行挖掘，首先要考虑的就是海量数据的存储问题，比如Tb量级的数据。

谈到数据的存储，则不得不说的是磁盘的数据读写速度问题。早在上个世纪90年代初期，普通硬盘的可以存储的容量大概是1G左右，硬盘的读取速度大概为4.4MB/s.读取一张硬盘大概需要5分钟时间，但是如今硬盘的容量都在1TB左右了,相比扩展了近千倍。但是硬盘的读取速度大概是100MB/s。读完一个硬盘所需要的时间大概是2.5个小时。所以如果是基于TB级别的数据进行分析的话，光硬盘读取完数据都要好几天了，更谈不上计算分析了。那么该如何处理大数据的存储，计算分析呢？这就会涉及到如下的分布式文件存储。

常见的分布式文件系统

GFS、HDFS、Lustre 、Ceph 、GridFS 、mogileFS、TFS、FastDFS等。各自适用于不同的领域。它们都不是系统级的分布式文件系统，而是应用级的分布式文件存储服务。

分布式文件存储选型比较

在这里插入图片描述

知名开源分布式文件存储

1.GFS（Google File System）

Google公司为了满足本公司需求而开发的基于Linux的专有分布式文件系统。尽管Google公布了该系统的一些技术细节，但Google并没有将该系统的软件部分作为开源软件发布。

2.HDFS

Hadoop 实现了一个分布式文件系统（Hadoop Distributed File System），简称HDFS。 Hadoop是Apache Lucene创始人Doug Cutting开发的使用广泛的文本搜索库。它起源于Apache Nutch，

后者是一个开源的网络搜索引擎，本身也是Luene项目的一部分。Aapche Hadoop架构是MapReduce算法的一种开源应用，是Google开创其帝国的重要基石。

3.TFS

TFS（Taobao FileSystem）是一个高可扩展、高可用、高性能、面向互联网服务的分布式文件系统，主要针对海量的非结构化数据，它构筑在普通的Linux机器集群上，可为外部提供高可靠

和高并发的存储访问。TFS为淘宝提供海量小文件存储，通常文件大小不超过1M，满足了淘宝对小文件存储的需求，被广泛地应用在淘宝各项应用中。它采用了HA架构和平滑扩容，保证了整个文件系统的可用性和扩展性。同时扁平化的数据组织结构，可将文件名映射到文件的物理地址，简化了文件的访问流程，一定程度上为TFS提供了良好的读写性能。

Google学术论文，这是众多分布式文件系统的起源，HDFS和TFS都是参考Google的GFS设计出来的。

典型的分布式文件存储的架构设计

我以hadoop的HDFS为例，毕竟开源的分布式文件存储使用的最多。

Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS是一个高度容错性的系统，适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问，非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束，来实现流式读取文件系统数据的目的。

大规模数据集

运行在HDFS上的应用具有很大的数据集。HDFS上的一个典型文件大小一般都在G字节至T字节。因此，HDFS被调节以支持大文件存储。它应该能提供整体上高的数据传输带宽，能在一个集群里扩展到数百个节点。一个单一的HDFS实例应该能支撑数以千万计的文件。

简单的一致性模型

HDFS应用需要一个“一次写入多次读取”的文件访问模型。一个文件经过创建、写入和关闭之后就不需要改变。这一假设简化了数据一致性问题，并且使高吞吐量的数据访问成为可能。Map/Reduce应用或者网络爬虫应用都非常适合这个模型。目前还有计划在将来扩充这个模型，使之支持文件的附加写操作。

异构软硬件平台间的可移植性

HDFS在设计的时候就考虑到平台的可移植性。这种特性方便了HDFS作为大规模数据应用平台的推广。

Namenode 和 Datanode

HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanodes组成。

Namenode是一个中心服务器，负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。

集群中的Datanode一般是一个节点一个，负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间，用户能够以文件的形式在上面存储数据。从内部看，一个文件其实被分成一个或多个数据块，这些块存储在一组Datanode上。

Namenode执行文件系统的名字空间操作，比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理文件系统客户端的读写请求。在Namenode的统一调度下进行数据块的创建、删除和复制。

在这里插入图片描述

Namenode和Datanode被设计成可以在普通的商用机器上运行。这些机器一般运行着GNU/Linux操作系统(OS)。HDFS采用Java语言开发，因此任何支持Java的机器都可以部署Namenode或Datanode。由于采用了可移植性极强的Java语言，使得HDFS可以部署到多种类型的机器上。一个典型的部署场景是一台机器上只运行一个Namenode实例，而集群中的其它机器分别运行一个Datanode实例。这种架构并不排斥在一台机器上运行多个Datanode，只不过这样的情况比较少见。

分布式存储的未来

随着现代社会从工业时代过渡到信息时代，信息技术的发展以及人类生活的智能化带来数据的爆炸性增长，数据正成为世界上最有价值的资源。

根据物理存储形态，数据存储可分为集中式存储与分布式存储两种。集中式存储以传统存储阵列（传统存储）为主，分布式存储（云存储）以软件定义存储为主。

传统存储一向以可靠性高、稳定性好，功能丰富而著称，但与此同时，传统存储也暴露出横向扩展性差、价格昂贵、数据连通困难等不足，容易形成数据孤岛，导致数据中心管理和维护成本居高不下。

分布式存储：将数据分散存储在网络上的多台独立设备上，一般采用标准x86服务器和网络互联，并在其上运行相关存储软件，系统对外作为一个整体提供存储服务。。

总之，分布式文件存储，不仅提高了存储空间的利用率，还实现了弹性扩展，降低了运营成本，避免了资源浪费，更适合未来的数据爆炸时代场景。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/132800.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

设计

全栈程序员-用户IM

0 0

.sql文件导入错误「建议收藏」

.sql文件导入错误「建议收藏」如果是使用Navicat导入的话，有一种情况是此sql文件是导出的.sql文件这样只导了数据sql，没有结构sql因为数据库中不存在该表，所以会报错这种情况.sql文件需要右击表，点击转储为SQL，选择数据和结构，再导入就好了！……

全栈程序员-用户IM
2022年10月2日
java list详解_java集合List解析[通俗易懂]

java list详解_java集合List解析[通俗易懂]作为一个Developer，Java集合类是我们在工作中运用最多的、最频繁的类。相比于数组(Array)来说，集合类的长度可变，更加适合于现代开发需求；Java集合就像一个容器，可以存储任何类型的数据，也可以结合泛型来存储具体的类型对象。在程序运行时，Java集合可以动态的进行扩展，随着元素的增加而扩大。在Java中，集合类通常存在于java.util包中。Java集合主要由2大体系构成，分别是C…

全栈程序员-用户IM
2022年7月9日
python merge函数_pandas replace函数

python merge函数_pandas replace函数在pandas中如果我们想将两个表格按照某一主键合并，我们需要用到merge函数。pd.merge(dataframe_1,dataframe_2,how=”inner”)参数how有四个选项，分别是：inner、outer、left、right。inner是merge函数的默认参数，意思是将dataframe_1和dataframe_2两表中主键一致的行保留下来，然后合并列。outer是相对于inner来说的，outer不会仅仅保留主键一致的行，还会将不一致的部分填充Nan然后保留下来。

全栈程序员-用户IM
2022年10月23日
stm32 st_基于STM32

stm32 st_基于STM32用了不少芯片，就只有51有位操作，这个特性很喜欢，赋值简单、效率又高且节省内存，不必为了一个bool去分配一个uint8.发现stm32有Bit-Banding，就试了一下，用MDK-ARM环境下的汇编代码做了一些比较。操作，清零USART1的SR寄存器的TC位：方法一：//利用USART_TypeDef这个结构寻到SR的地址，再赋值USART1->SR&amp…

全栈程序员-用户IM
2022年10月13日
Q1营收利润大增，Take-Two如何掘金“次世代”？[通俗易懂]

Q1营收利润大增，Take-Two如何掘金“次世代”？[通俗易懂]8月3日美股盘后，拥有GTA和2K等知名系列游戏的Take-Two(NASDAQ:TTWO)发布了截至2020年6月30日的2020财年第一季度的业绩报告。财报公布后次日，股价跳空高开，最终股价收于177.52美元，涨幅达5.87%。回顾近期走势，TTWO已连续创下历史新高，可见其一直深受投资者青睐。（图源：雪球）以下为近期核心数据表现：由于全球疫情居家，TTWO受益颇多。本季度无论是营收、净利润，还是各产品的销量均超过市场预期。此次财报有着许多亮点值得深入讨论，而除此之外，也希望随着新品推

全栈程序员-用户IM
2022年6月7日
渗透测试漏洞扫描_系统漏洞扫描工具有哪些

渗透测试漏洞扫描_系统漏洞扫描工具有哪些安全漏洞产生的原因技术原因软件系统复杂性提高，质量难于控制，安全性降低公用模块的使用引发了安全问题经济原因“柠檬市场”效应——安全功能是最容易删减的部分环境原因从传统的封闭、静态和可控变为开放、动态和难控攻易守难安全缺陷安全性缺陷是信息系统或产品自身“与生俱来”的特征，是其“固有成分”安全漏洞是与生俱来的系统设计缺陷Internet从设计时就缺乏安全的总体架构和设计 TCP/IP中的三阶段握手.软件源代码的急剧膨胀Windows951500万行

全栈程序员-用户IM
2022年8月12日

架构方案(16) 常见分布式文件存储介绍、选型比较、以及架构设计

分布式文件存储的来源

典型的分布式文件存储的架构设计

分布式存储的未来

相关推荐

.sql文件导入错误「建议收藏」

java list详解_java集合List解析[通俗易懂]

python merge函数_pandas replace函数

stm32 st_基于STM32

Q1营收利润大增，Take-Two如何掘金“次世代”？[通俗易懂]

渗透测试 漏洞扫描_系统漏洞扫描工具有哪些

发表回复

渗透测试漏洞扫描_系统漏洞扫描工具有哪些