大家好，又见面了，我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

Hive

Hbase

存储介质：

https://www.zhihu.com/question/46392643?sort=created

请问，在家里攒一套 100TB-200TB 的存储有什么架构方案可以借鉴的？

预算10万以内，性价比越高越好
带宽和吞吐量不是很重要，USB 3.0/千兆LAN 单出口都可以接受，软raid硬raid都行
可以是机柜形式，有单间机房
耗电无所谓，噪声小一点
可靠，2-3年内只需要更换坏掉的HDD或SSD，最多换换风扇
软硬件架构都需要信息参考和指导

与 Hadoop 对比，如何看待 Spark 技术？ – 知乎

http://www.pp1pp.com/news/detail/1285

https://www.zhihu.com/question/56577327

1万亿条，每条10K，也就是 1T*10K = 10PB，以每秒 175MB的速度写入，大概需要 710天。

假定你搭个 100个结点的集群，每个结点就是 100TB，然后每个结点以 175MB 的速度写入，大约需要一个星期写满，这还不包括冗余。

在这个数据量下要求实时搜索性能高，建议你注明下搜索性能要高到什么程度。

作者：雷鹏
链接：https://www.zhihu.com/question/56577327/answer/226815332
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

https://www.zhihu.com/question/20004877

分布式与集群的区别是什么？

RAID50
RAID50是RAID5与RAID0的结合。此配置在RAID5的子磁盘组的每个磁盘上进行包括奇偶信息在内的数据的剥离。每个RAID5子磁盘组要求至少三个硬盘。RAID50具备更高的容错能力，因为它允许某个组内有一个磁盘出现故障，而不会造成数据丢失。而且因为奇偶位分部于RAID5子磁盘组上，故重建速度有很大提高。优势：更高的容错能力，具备更快数据读取速率的潜力。需要注意的是：磁盘故障会影响吞吐量。故障后重建信息的时间比镜像配置情况下要长。
存储服务器
https://blog.csdn.net/fgf00/article/details/52592651/
DAS、SAN和NAS三种服务器存储方式
https://blog.csdn.net/Celeste7777/article/details/48711169?utm_source=blogxgwz31
DAS,NAS,SAN和ISCSI存储架构介绍
https://www.csdn.net/article/2011-06-14/299663

https://blog.csdn.net/cuiyaonan2000/article/details/80226556

Hadoop、Spark、HBase与Redis的适用性见解

知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路

http://www.cnblogs.com/imstudy/p/9668257.html

统一存储
统一存储具体概念：
　　统一存储，实质上是一个可以支持基于文件的网络附加存储（NAS）以及基于数据块的SAN的网络化的存储架构。由于其支持不同的存储协议为主机系统提供数据存储，因此也被称为多协议存储。
　　基本简介：
　　统一存储（有时也称网络统一存储或者NUS）是一个能在单一设备上运行和管理文件和应用程序的存储系统。为此，统一存储系统在一个单一存储平台上整合基于文件和基于块的访问，支持基于光纤通道的SAN、基于IP的SAN（iSCSI）和NAS（网络附加存储）。
　　工作方式：
　　既然是一个集中化的磁盘阵列，那么就支持主机系统通过IP网络进行文件级别的数据访问，或通过光纤协议在SAN网络进行块级别的数据访问。同样，iSCSI亦是一种非常通用的IP协议，只是其提供块级别的数据访问。这种磁盘阵列配置多端口的存储控制器和一个管理接口，允许存储管理员按需创建存储池或空间，并将其提供给不同访问类型的主机系统。最通常的协议一般都包括了NAS和FC，或iSCSI和FC。当然，也可以同时支持上述三种协议的，不过一般的存储管理员都会选FC或iSCSI中的一种，它们都提供块级别的访问方式，和文件级别的访问方式（NAS方式）组成统一存储。
存储架构方案
分布式文件系统与服务器存储方式
分布式文件系统比较
作者：知乎用户
链接：https://www.zhihu.com/question/26993542/answer/129451667
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。
既然是关于分布式文件系统的，就多说几句
***GlusterFS
1.GlusterFS 文件系统标准的posix接口支持，可以做分布式NAS，也有人HPC（高性能计算），甚至支持KVM的虚机卷；做分布式NAS最多，其他方面用的不多，很多互联网视频公司用GlusterFS来做片库；
POSIX表示可移植操作系统接口（Portable Operating System Interface of UNIX，缩写为 POSIX ），为一个POSIX兼容的操作系统编写的程序，应该可以在任何其它的POSIX操作系统（即使是来自另一个厂商）上编译执行。

ceph
2.ceph，支持块ceph RBD，对象ceph RGW，文件cephfs；ceph RBD和ceph RGW比较成熟，在openstack社区比较火，做虚机块存储用的很多，cephfs的前期bug比较多，社区目前也在解决这些问题；
3.Lustre，比较老牌的分布式文件系统，部署在多个san阵列上，不支持副本，支持分布式锁，主要做HPC高性能计算；
4.HDFS只支持追加写，设计中没有考虑修改写、截断写、稀疏写等复杂的posix语义，目的并不是通用的文件系统，一般作为hadoop ecosystem的存储引擎；
5.moosefs 比较接近GoogleFS的c++实现，通过fuse支持了标准的posix，算是通用的文件系统，可惜社区不是太活跃；
6.IBM的GPFS也是一个很老牌的分布式文件系统，非常强大，有两个分支，一个是通用文件系统，一个是兼容hadoop mapreduce，可惜没有开源，国内也没人买的起；
7.facebook Haystack是一个专有的图片存储系统的原型，适合小文件和worm场景（write once read many），本身并没有开源，github上已经有一个比较成熟的实现Terry-Mao/bfs（不是百度的BFS）
注意：
与Hadoop对比，如何看待spark技术
Hadoop解决了大数据（大到一台计算机无法进行存储，一台计算机无法在要求的时间内进行处理）的可靠存储和处理。
HDFS：在由普通PC组成的集群上提供高可靠地文件存储，通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。
MapReduce:通过将简单的Mapper和Reducer的抽象提供一个编程模型，可以在一个由几十台上百台的PC组成的不可靠集群上并发地、分布式地处理大量的数据集，而把并发、分布式（如机器间通信）和故障恢复等计算细节隐藏起来。而Mapper和Reducer的抽象，又是各种各样的复杂数据处理都可以分解为的基本元素。这样，复杂的数据处理可以分解为由多个Job(包含一个Mapper和一个Reducer)组成的有向无环图（DAG）,然后每个Mapper和Reducer放到Hadoop集群上执行，就可以得到结果。

大数据的技术基础：MapReduce、Google File System和BigTable

2003年到2004年间，Google发表了MapReduce、GFS（Google File System）和BigTable三篇技术论文，提出了一套全新的分布式计算理论。

MapReduce是分布式计算框架，GFS（Google File System）是分布式文件系统，BigTable是基于Google File System的数据存储系统，这三大组件组成了Google的分布式计算模型。

Google的分布式计算模型相比于传统的分布式计算模型有三大优势：首先，它简化了传统的分布式计算理论，降低了技术实现的难度，可以进行实际的应用。其次，它可以应用在廉价的计算设备上，只需增加计算设备的数量就可以提升整体的计算能力，应用成本十分低廉。最后，它被Google应用在Google的计算中心，取得了很好的效果，有了实际应用的证明。

后来，各家互联网公司开始利用Google的分布式计算模型搭建自己的分布式计算系统，Google的这三篇论文也就成为了大数据时代的技术核心。

主流的三大分布式计算系统：Hadoop，Spark和Storm

由于Google没有开源Google分布式计算模型的技术实现，所以其他互联网公司只能根据Google三篇技术论文中的相关原理，搭建自己的分布式计算系统。

Yahoo的工程师Doug Cutting和Mike Cafarella在2005年合作开发了分布式计算系统Hadoop。后来，Hadoop被贡献给了Apache基金会，成为了Apache基金会的开源项目。Doug Cutting也成为Apache基金会的主席，主持Hadoop的开发工作。

Hadoop采用MapReduce分布式计算框架，并根据GFS开发了HDFS分布式文件系统，根据BigTable开发了HBase数据存储系统。尽管和Google内部使用的分布式计算系统原理相同，但是Hadoop在运算速度上依然达不到Google论文中的标准。

不过，Hadoop的开源特性使其成为分布式计算系统的事实上的国际标准。Yahoo，Facebook，Amazon以及国内的百度，阿里巴巴等众多互联网公司都以Hadoop为基础搭建自己的分布式计算系统。

Spark也是Apache基金会的开源项目，它由加州大学伯克利分校的实验室开发，是另外一种重要的分布式计算系统。它在Hadoop的基础上进行了一些架构上的改良。Spark与Hadoop最大的不同点在于，Hadoop使用硬盘来存储数据，而Spark使用内存来存储数据，因此Spark可以提供超过Hadoop100倍的运算速度。但是，由于内存断电后会丢失数据，Spark不能用于处理需要长期保存的数据。

Storm是Twitter主推的分布式计算系统，它由BackType团队开发，是Apache基金会的孵化项目。它在Hadoop的基础上提供了实时运算的特性，可以实时的处理大数据流。不同于Hadoop和Spark，Storm不进行数据的收集和存储工作，它直接通过网络实时的接受数据并且实时的处理数据，然后直接通过网络实时的传回结果。

Hadoop，Spark和Storm是目前最重要的三大分布式计算系统，Hadoop常用于离线的复杂的大数据处理，Spark常用于离线的快速的大数据处理，而Storm常用于在线的实时的大数据处理。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/185129.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

100TB大数据存储方案

请问，在家里攒一套 100TB-200TB 的存储有什么架构方案可以借鉴的？

与 Hadoop 对比，如何看待 Spark 技术？ – 知乎

分布式与集群的区别是什么？

Hadoop、Spark、HBase与Redis的适用性见解

知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路

发表回复

100TB大数据存储方案

请问，在家里攒一套 100TB-200TB 的存储有什么架构方案可以借鉴的？

与 Hadoop 对比，如何看待 Spark 技术？ – 知乎

分布式与集群的区别是什么？

Hadoop、Spark、HBase与Redis的适用性见解

知乎技术分享：从单机到2000万QPS并发的Redis高性能缓存实践之路

相关推荐

mysql数据库命令大全菜鸟_mysql常用命令[通俗易懂]

navicat 15 for mysql.ink激活码【在线破解激活】

XBox360自制系统的更新（Update）「建议收藏」

【csma/ca协议和csma/cd协议的matlab仿真详解】

三星s4刷机教程（卡刷）

《Android开发从零开始》视频全集「建议收藏」

发表回复