磁盘

磁盘结构：

寻址方式：

每个磁头用来读track的数据，每个track是一个圈，每个盘片有很多个track，不同盘片的同一位置的track组成一个柱面。

编址方式：CHS，属于哪个柱面（cylinder）、属于哪个盘面上（header）、属于哪个部分（sector）。右边是逻辑地址。

既是电子式的设备、又是机械式的设备，它的性能评价由时间决定：seek time + rotational latency + data transfer rate。

seek time是磁头来回移动的时间，如果seek time变短了则IO越快，取决于磁头和块之间的距离。如果要读数据只能等转轴转到这个块，这个时间就是rotational speed。data transfer rate主要分为内部的传输速率（数据从track传到磁盘内部的buffer）和外部的传输速率（从接口到主机）。

数据传输量越大，则数据传输花的时间越多，磁盘访问的效率越高，每次访问数据量越大，才能均摊掉另外两部份的时间。

来的请求越来越多的时候，延迟会更大。如果利用率大于70%上，那么延迟时间就会呈指数增加，这是排队论中说明的。

第一个指标是在容量上要多少盘，第二个指标是要达到一定的性能指标需要提供多少盘。第三个指标则是考虑了所有指标的访问服务时间。需要盘的数量由Dc和Dp两个的最大值决定。

传输速率：数据在里圈和外圈是不一样的，里圈比较小，如果在每英寸放的比特数是相同的，则外圈放更多的数据量，如果放相同的数据量的话，外圈的密度就更小，所以可以在外圈放更多的数据。角速度相同，则外圈的转动速度要考虑。提出zone的概念，外圈有更多的sector。外圈传输的速率比里圈更高。

磁盘固件调度：地址转换。图中200在盘片的背面，一个磁盘两个面。

1到5个盘片相当于1到10个盘面，每个盘面上有不同个数的track，每个柱面cylinder有track，一个track上有不同个数的sector。从一个逻辑地址找到其物理地址。

在每个track中留一个sector，用于把坏的sector映射过来，但是还要防止不连续，所以做一定的调整，不把坏的块直接映射到备用块，而是做一定的映射。

如果在track之间进行访问的话呢，注意不能浪费转，加一个skew偏移，让他在读完一个track之后继续读另一个track，不浪费。

disk cache为硬件做一个缓冲。做预读，预先放在缓冲中；写缓冲。

磁盘调度：磁盘控制器基于磁头当前位置选择完成下一个请求，实现更短的响应时间，更高的吞吐和对所有块更均等的访问延迟。主要有：

先来先服务FCFS
最短寻道时间SSTF：根据离当前磁头位置最近的块选择服务，有的请求会被饿死
SCAN：像是电梯，从磁盘的开头开始移动，直到走到最后，移动过程中一直服务请求。为了避免SSTF算法（最短寻道时间算法）来的“饥饿”现象，SCAN要求磁头每轮朝一个固定方向移动来服务访问请求（如果该方向有自请求），当磁头走到尽头后这个时候百寻道方向会发生调转。所以SCAN可以看作规定了磁头移动方向的SSTF算法。
C-SCAN：等待时间更可能均衡。一直都是从某个起点开始扫描。加了一个Circle规定的SCAN算法，也就是磁头移动方向始终固定，到尽头后直接返回到另度一端的开始位置，继续沿着这个方向扫描。
Look和C-LOOK：对应SCAN和C-SCAN的改进算法。因为SCAN和C-SCAN中每次磁头都要走到磁道尽头，问而实际过程中并不需要要求磁头走到尽头，而是到达该方向的答最后一个请求后即可返回，这样可以避免一些不必要的磁头移动。

SSD

非易失性存储器NVM提供了高速的访问和持久性。下图是不同存储层次。

闪存是电子非易失可重写的介质。闪存最基本的单元是floating gage transistor。通过横着的wordline和竖着的bitline读取，当读取到之后，放进sense amplifiers中，这叫做行选中。page是一行，block是这一块。

这是读的原理图。闪存不可覆盖写，需要擦除操作，读写粒度与擦除粒度不同。而且是有限次擦除的。

闪存中的块分为三种状态：live、dead（这两个是写过的）、free（没写过的）。引出垃圾回收，选择一些块去回收。根据数据的“年龄”和是否有效判断是否需要对其进行移动和垃圾回收。在为数据分配空间时尽量把数据写到写次数比较少的块上。

FTL：FTL简单来说就是系统维护了一个逻辑Block地址（LBA，logical block addresses ）和物理Block地址（PBA, physical block addresses）的对应关系，有了这层映射关系，我们需要修改时就不需要改动原来的物理块，只需要标记原块为废块，同时找一个没用的新物理块对应到原来的逻辑块上就好了。使用更小更快的SRAM来存储这个映射。

page-level FTL：维护页到页的映射关系。可以把任意逻辑页映射到任意的物理页。但是页表很大。

block-level FTL：维护块的映射关系，会更小，因为块会更大，所需要的项更少。逻辑页地址用块地址加偏移来表示。

LBA/PBA的映射本身会对寿命均衡产生正面影响。就如我们SD卡上的FAT文件系统，文件分配表会被经常修改，但由于修改的是逻辑块，我们可以让每次物理块不同而避免经常擦写相同的物理块，这本身就保证不会有物理块被经常擦写。但是有一种情况它没有办法处理，即冷的数据块（cold block），它们被写入后没有更改，就一直占据某些物理块，而这些物理块寿命还很长，而别的热的块却在飞速损耗中。这种情况怎么办呢？我们只有在合适的时机帮它们换个位置了，如何选择这个时机很重要，而且这个搬家动作本身也会损耗寿命本身。这些策略也是各个FTL算法的精华了。

block-base FTL：存放数据的block+存放新数据的block+存映射表的block+保留的block

c图中，如果d-block中的数据都是invalid的，u-block中的数据都是合法刚写入的，那d-block中的数据就要擦除，且变成u-block；而且u-block要变成d-block，这种overhead是最小的。b图中，把d-block的valid块移动到u-block中，d-block中的数据就要擦除，且变成u-block；而且u-block要变成d-block，这种开销是中等的。a图中，d-block和u-block中的valid块位置不一样，要新找一个free block拷贝过去，然后把这两个块变成free的。

main memory

以CPU插座为北的话，靠近CPU插座的一个起连接作用的芯片称为“北桥芯片”。北桥芯片就是主板上离CPU最近的芯片，这主要是考虑到北桥芯片与处理器之间的通信最密切，为了提高通信性能而缩短传输距离。北桥与外存进行通信。从外存中取出来，放到DRAM里。

ALU中只有有限个寄存器，数据需要放到主存中，主存也负责信息的交换。FPGA和GPU都需要memory的参与，让数据更快地参与计算。

南桥芯片（South Bridge）是主板芯片组的重要组成部分，一般位于主板上离CPU插槽较远的下方，PCI的前面，即靠主机箱前的一面，这种布局是考虑到它所连接的I/O总线较多，离处理器远一点有利于布线。

现在有更多的数据密集型的程序，需要更快和更高的带宽，能耗的要求也是重要的考虑，DRAM技术上很难变得更好。很多的数据库都会移动到内存中，放到外存上会延迟很高。图计算有很强的随机性，图越来越大的时候，从外存中随机IO会很慢，大数据处理也放到内存中来。大于40%的功耗放到了DRAM中，隔一段时间就要把DRAM中的数据重写一遍。

几种新的DRAM，3D-stacked DRAM把二维变成三维。

40-35nm的DRAM的制造会变得很困难，因为在刷新和提供足够存储数据的能力上会有问题。

CPU会连接DRAM上很多的channel，channel会连接DIMM，DIMM分成rank，rank中是一个一个的chip，chip中有bank，bank中有row/col。

DRAM逻辑上是一个大二维数组，每一行叫wordline，行列交点叫做cell单元。先使用行解码器找到行号，把数据读取到sense amps中，相当于是row buffer，在使用列解码器找到数据块。

每个地址都是一个行列对，读取一个数据时，在二维矩阵中找：

选中这一行，再放到row buffer中
在row buffer中使用列选择器进行读写，如果第二次读取的跟上一次读取的row相同，则为hit状态。
precharge：在DRAM中加电压读取是破坏性的，这一步是从row buffer中恢复之前的数据。

DRAM的chip连接着很多的bank，这些bank共享地址/数据/指令总线，每个chip有自己的数据通路，每次只能读取几个bit。下图中把不同的chip组织起来，能够实现更大的数据通路。

channel是通道，不同通道的数据互不干扰，有不同的内存控制器。下图是一个简单的层次结构图。DIMM之间分时共享。

从CPU的角度看，它提供了两个memory channel，同一个channel可以连接多个DIMM条，正面和反面都是芯片。正面是rank0，背面是rank1，rank的结构层次是就是这样的，通过address把数据读取出来。每个rank的64bit通过每个chip的8bit输出的，每个chip的8bit通过任意一个bank输出，在一个bank中选择row和col：

在每个bank中，并行操作row buffer，实现多个bank并行操作的流水线。

地址映射：把2Gb的memory编址，把31个bit进行划分，以下两种，第二种把col进行分割，有利于并行，第一个bank放64bit，第二个bank放第二个64bit，这样可以并行起来。不同的排布导致了不同的并行性。

DRAM的refresh：电容中的电子会慢慢泄露，控制器会发出请求，每一行在64毫秒之后会被写入到row buffer中并被写回到row中，只要机器是开着的，每一行都要刷新，所以DRAM一直在工作。DRAM不能扩展也是因为这一个原因。在refresh时不能响应相应的请求。有两种refresh的方法：每隔一段时间刷新一个（burst），或者是每隔一段时间把所有的都刷新一下（distribute）。