从机械硬盘和固态硬盘的结构来看IO

从机械硬盘和固态硬盘的结构来看IO“磁盘”这个词,对于程序员来说并不陌生,我们知道它是一种存储介质,主要用来存储数据的,可以说常用的中间件基本上都离不开它,比如我们常用的MySQL数据库、kafka消息引擎,甚至redis缓存都离不开磁盘。我们在优化某个业务逻辑的时候,经常需要用到缓存,尽量让热数据都从缓存里读取,因为我们知道磁盘是缓慢的,特别在高并发的场景下,我们要保证极少的请求走磁盘IO。不知道你有没有思考过以下问题: 机械硬盘为什么慢? 机械硬盘有多慢? kafka也是写磁盘的,它却挺快的,为什么?..

大家好,又见面了,我是你们的朋友全栈君。

从机械硬盘和固态硬盘的结构来看IO

“磁盘”这个词,对于程序员来说并不陌生,我们知道它是一种存储介质,主要用来存储数据的,可以说常用的中间件基本上都离不开它,比如我们常用的MySQL数据库、kafka消息引擎,甚至redis缓存都离不开磁盘。

我们在优化某个业务逻辑的时候,经常需要用到缓存,尽量让热数据都从缓存里读取,因为我们知道磁盘是缓慢的,特别在高并发的场景下,我们要保证极少的请求走磁盘IO。不知道你有没有思考过以下问题:

  1. 机械硬盘为什么慢?

  2. 机械硬盘有多慢?

  3. kafka也是写磁盘的,它却挺快的,为什么?

  4. SSD为什么比普通的机械磁盘要快?

  5. 既然SSD这么快,那为什么不抛弃传统的机械磁盘?

带着这些疑问,我们一起来看看磁盘相关的知识。

从机械硬盘开始

从机械硬盘和固态硬盘的结构来看IO

这是一块普通机械硬盘的内部结构,它的组成并不多,我们重点关注磁盘磁头臂磁头就行。

先说磁盘,它的样子就像光盘,我们的数据就是存在它里面的,我们其实一般称它为盘片,盘片的表面涂有磁性的记录材料,注意这里不是只有一面可以存数据,盘片的两面都可以存,同时对于一块磁盘来说,通常它是由多个盘片组成的,因此的它组成应该是这样的。

从机械硬盘和固态硬盘的结构来看IO

图中一共有4个盘片,一共8个盘面,其中每个盘面都被画成了一圈一圈的同心圆。

从机械硬盘和固态硬盘的结构来看IO

这样的一圈一圈的橙色圆我们把它叫做磁道,当然磁道也是由一个个弧段组成的。

从机械硬盘和固态硬盘的结构来看IO

像如图的绿色弧段部分我们叫做扇区,扇区是磁盘组成的最小单位,一般一个扇区可以存储512个字节。

从机械硬盘和固态硬盘的结构来看IO

多个盘片相同的磁道,可以组成一个虚拟的圆柱,这个虚拟的圆柱面,我们叫做柱面

对于一个盘面来说,它的存储容量=单个扇区的大小 * 磁道的扇区数 * 磁道数。

对于一个盘片来说,它有两个面所以一个盘片的容量=2 * 盘面容量。

对于一个磁盘来说,磁盘的容量=盘片的数量 * 单盘片的容量。

说完了盘片,我们来说说磁头,我们的数据是在盘片上的,盘片上的数据并不能直接传输到总线上,因此需要一个媒介,这个媒介就是磁头,磁头可以把某个扇区的数据传输到总线上。

从机械硬盘和固态硬盘的结构来看IO

说完了磁头,接下来就是磁臂了,磁头解决了数据读写的问题,但是没有解决读写哪个扇区的问题,这时候就需要磁臂,磁臂可以在一定范围内摆动,来找到目标扇区。

从机械硬盘和固态硬盘的结构来看IO

当然磁臂的摆动范围有限,比如磁臂无论怎么摆动也无法摆动到扇区B处,这时就该转动盘片了,你应该听过磁盘的转速,比如7200转/分,这个其实就是转轴来带动盘片的转动的速度,因此最终通过盘片的转动+磁臂的摆动,就可以定位到我们的目标扇区。

机械硬盘有多快

搞懂了机械硬盘的物理结构之后,我们接下来看看它有多快。我们知道定位到一条数据需要盘片的转动,还需要磁臂的摆动,这些都是物理的,当我们的磁头定位到具体的扇区之后,读写数据的速度是很快的,因此影响机械硬盘读写速度的主要原因就是这两个物理运动,这两个物理运动对应两个专业名词叫做 平均延时 和 平均寻道时间

我们先说平均延时,我们上面说到当一个目标扇区不在磁臂的摆动范围之内时,就要转动盘片,以7200转/min的磁盘为例,它每秒可以转动120圈,转一圈就是1/120s=8.33ms左右,那我们定位目标区域的平均耗时是多少呢?以一个磁道为例,它是圆形的,目标节点可以分布在圆上的任何位置。

从机械硬盘和固态硬盘的结构来看IO

比如当我们要找A的时候,可能只需要转一点点,找B的时候,可能要转半圈,找C的时候可能要转将近一圈。所以根据算术平均法可以大致判断平均找到一个目标节点需要转动半圈,这个半圈的时间就是8.33/2=4.17ms,也就是平均延时。

我们再来看看平均寻道时间,通过盘面的转动我们大致找到了目标区域,但是还没精确定位到,这时候需要磁臂的摆动去定位我们具体的目标扇区,这个摆动的耗时一般是4-10ms

因此磁盘随机IO大概的耗时就是4.17+4=8.17 ~ 4.17+10=14.14ms,这个数字代表了什么?我们取个折中,假设随机IO的耗时是10ms,那么1s可以做100次随机IO,看到100这个数字,你是不是明白了什么~,这个是真的小,这也是为什么我们对于QPS较高的接口,都要加个缓存层,因为磁盘扛不住啊。

这里科普下,我们上面说的1s内存能做100次随机IO,这个100我们叫做IOPS,即每秒的输入输出量(或读写次数),是衡量磁盘性能的关键指标

我们可以通过iostat,来查看当前机器磁盘的指标:

iostat
KB/t  tps  MB/s  us sy id   1m   5m   15m
23.44    9  0.20  12  8 80  2.40 1.97 1.90

其中tps就是我们当前磁盘的每秒传输次数,当这个数值很大时需要注意。

当然以上都是随机IO,顺序IO就大大不一样了,顺序IO的速度堪比内存的离散读写,总之很快,像大名鼎鼎的kafka就是磁盘顺序IO,所以至少在磁盘读写这块它的性能还不错。顺序IO之所以快,首先盘片不需要每次转动了,其次我们的磁臂也不需要大幅度的摆动去寻道了,因此节省了大量的物理耗时,速度和随机IO之间应该是数量级的差异。

更加快速的固态硬盘

先说个数字,我们日常用的机械硬盘的数据传输率差不多在200MB/s左右,而固态硬盘的传输率差不多在768MB/s,可以发现固态硬盘比普通机械硬盘快了不少,然而这只是在接口是SATA3.0的情况下,我们的固态硬盘还支持PCI Express接口,在这个接口下,固态硬盘的读写能力还会上一个等级,可以达到1GB/s以上,当然这些只是科普知识,作为程序员的我们不用太在意接口相关的知识。

从机械硬盘和固态硬盘的结构来看IO

我们还是先从原理开始讲起,固态硬盘的运作方式和机械磁盘一点都不一样,通过上图的内部结构可以看出,固态硬盘并没有盘片、磁臂等机械部件。

那么它是如何存储数据的呢?答案是电容,电容是非常小的电子元件,我们只需要给电容充上电,那么就可以表示比特位1,给电容放电就可以表示比特位0,采用这样方式存储数据的固体硬盘,我们一般称之为使用了SLC的颗粒,全称是 Single-Level Cell,也就是一个存储单元中只有一位数据,那么一块固态硬盘能存储多少数据就完全取决于能放多少电容,因此后来有的工程师发明了更高级的用法,即让一个电容里能放下2个比特位、3个比特位、甚至4个比特位。

那么问题来了一个电容如何表示这个多的比特位?答案是电压,给电容充电的玩意叫做电压计,以能放两位比特位的电容为例,它可以表示00、01、10、11 4个数字,放电状态是00,其余我们只需要充上不同的电压即可。

从机械硬盘和固态硬盘的结构来看IO

当然想要表示的数字越多,就得充很多不同的电压,因此速度就会相对慢些。

短命的固态硬盘

搞懂了固态硬盘的内部结构之后,我们来看看固态硬盘的读写原理,看看为什么固态硬盘的寿命不高。

相比机械硬盘存储数据的盘片,固态硬盘的叫做裸片,裸片之间也是叠放在一起的,以一个裸片为例,它的结构大致如下:

从机械硬盘和固态硬盘的结构来看IO

还是划分的概念,首先一张裸片上可以放多个平面,一般一个平面上的存储容量大概是GB级别,然后一个平面上可以分成很多块,一般一个块的存储大小,通常几百KB到几MB大小,一个块里面再就是分很多的页,一个页的大小通常是4KB,我们着重关注下,这和我们接下来要说的固态硬盘的寿命息息相关。

我们知道对于机械硬盘来说,我们写入数据的时候,不会在乎要写入的扇区是否已经有数据,直接覆盖就行了,但是固态硬盘就不一样了,如果某块要写的区域已经有数据了,必须要先擦除,然后才能写入

这个擦除很关键,因为它就是影响固定硬盘寿命的直接原因,擦的越多寿命就会越来越短,它就像你用一个橡皮擦在一张纸上擦拭一样,擦的多了,纸张也就通了,纸张通了,纸就不能用了。

那么一块固态硬盘可以擦除多少次呢?以单比特电容的模式来说,它大概可以擦除10w次,其他的多比特位的更少,可能只有几千次。因此如果的你业务数据需要经常更新,不太建议使用固态硬盘。

关于擦除数据,还有一点很重要,那就是它是以块为单位的,通过上图我们知道数据存储的最小单位其实是页,页属于块,一个块上有很多的页,如果一个块上的某些页的数据被标记删除了,此时也不能直接擦除这些单独的页,因此这些页就无法被复用,除非整个块上的页都被标记删除了。

从机械硬盘和固态硬盘的结构来看IO

如图,页A、页B、页C虽然都是被标记删除的数据,但是因为它所属的块还有其它有效数据,所以当有新数据要写入的时候,它只能写入白色区域未使用的页,并不能利用这些红色区域。但是这样的话,就会出现这样一个问题:随着时间的推移,红色区域会越来越多,也就是碎片越来越多,这样势必会造成浪费。

从机械硬盘和固态硬盘的结构来看IO

浪费可耻,因此需要一套紧凑机制,这时候会把相关块的有效数据移动到一个新的块中,让不同块的有效数据更加紧凑的分布,那么对于被移动出数据的块来说,它上面的页要么没数据,要么是标记删除的数据,可以直接对这个块进行擦除,从而达到回收利用的目的。

回到题目

通过对机械硬盘和固态硬盘的了解,我们再来看看一开始的问题:

  1. 机械硬盘为什么慢?机械磁盘慢的原因主要是因为定位一条数据需要盘片的转动 + 磁臂的摆动,这些都是物理的,所以会慢

  2. 机械硬盘有多慢?,通过上面的计算,我们可以大概得出对于一个7200转的机械硬盘来说,它的iops大概在100左右,每次io的耗时在10ms左右

  3. kafka也是写磁盘的,它却挺快的,为什么? 因为kafka是顺序io,就算对于机械硬盘来说,顺序io也是很快的,因为它不会像离散io那样,需要过多的寻道。

  4. SSD为什么比普通的机械硬盘要快?这里主要因为SSD不需要像机械硬盘那样的物理运动来寻道。

  5. 既然SSD这么快,那为什么不抛弃传统的机械硬盘?首先从价格上来讲,固态硬盘价格稍贵,其次固态硬盘的寿命没有机械硬盘的高。


最后

创作不易,各位的三连就是对作者最大的支持,也是作者最大的创作动力,我们下期见。

从机械硬盘和固态硬盘的结构来看IO

 

往期精彩:

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/144978.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • IntelliJ idea 必备 好用 优秀 插件

    IntelliJ idea 必备 好用 优秀 插件1、AtomMaterialICons这是一个icon图片插件,有一个特别牛的功能就是可以优化idea流畅度,不知道是什么原理,现在这个插件成为了我必备插件2、FileExpander有了这个插件,有些小伙伴平时用的Jad工具就可以扔了,它能在Idea里直接打开Jar包3、GitToolBox这款插件现在我几乎离不开它。他能在项目上提示你还有多少文件没提交,远程还有多少文件没更新下来。还能在每一行代码上提示上次提交的时间。查版本提交问题的时候尤其方便4、MavenHelper

  • 程序员如何接私活「建议收藏」

    马无夜草不肥,人无外财不富!最近有很多程序员朋友问我如何接私活?接私活的方法有很多种,根据你的实力以及社会资源等因素选择合适自己的方法:1、熟人介绍,利用同事、同学、老顾客等熟人关系介绍订单,这个方法的好处就是,大家都有一定了解以及以及信任基础,很少存在骗单或者偷稿的行为,做的好可以成为长期稳定的合作伙伴,少去推广接单的痛苦与烦恼!2、网络平台接活,现在的网络接单平台有很多,选取一两个适合自己的网…

  • 电脑蓝屏错误代码0x000000ED_0x00000019蓝屏win7

    电脑蓝屏错误代码0x000000ED_0x00000019蓝屏win7相信大家都遇到过电脑蓝屏的情况,而且蓝屏故障是一件非常麻烦的事情,前不久小编电脑出现蓝屏并且提示错误代码是0x000000BE,很多用户可能会直接选择重装系统,其实不用这么麻烦,出现0x000000BE很有可能是硬件设备驱动程序存在BUG或安装不正确引起,具体一起来看看。解决方法:在开机过程中按下f8键进入Windows高级启动菜单,进入安全模式,也许会有改善。再重启电脑,继续按F8键,此时可以选…

  • executescalar mysql_ExecuteScalar

    executescalar mysql_ExecuteScalar这两个答案和一点点思考使我想到了一个接近答案的东西。首先再澄清一下:该应用程序是用C#(2.0+)编写的,并使用ADO.NET与SQLServer2005进行通信。镜像设置是托管主体和镜像的两个W2k3服务器以及托管作为监视器的快速实例的第三个服务器。这样做的好处是,故障转移对于使用数据库的应用程序几乎是透明的,它将对某些连接引发错误,但从根本上讲一切都会很好地进行。是的,我们得到了奇怪的误报…

  • C / C++ 读取文件出现乱码解决方法 | 输出到文件出现乱码

    C / C++ 读取文件出现乱码解决方法 | 输出到文件出现乱码  昨天用C语言写了一下文件读取,发现读出来的全是乱码。这肯定是文字编码不同导致的。    据我查证,C语言的汉字编码方式是由你电脑决定的,所以需要看一下你电脑是什么编码,来确定你需要把文本文件改成什么编码。1.win+R,打开运行框之后输入cmd打开,然后在cmd最上边右键→属性,点开就可以查看当前编码方式,我的电脑是GBK。2.然后修改对应的文本文件编码方式。…

  • 免费的抢小米软件_小米手机自动抢红包软件

    免费的抢小米软件_小米手机自动抢红包软件发现一个免费抢小米的工具。http://liulanqi.baidu.com/

    2022年10月28日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号