带你学习《深入理解计算机系统》程序性能优化探讨(3)

您所在的位置:网站首页 内存中每一个基本单元都被赋予一个唯一的序号称为什么 带你学习《深入理解计算机系统》程序性能优化探讨(3)

带你学习《深入理解计算机系统》程序性能优化探讨(3)

2023-06-21 20:47| 来源: 网络整理| 查看: 265

        连外行都大概清楚,目前硬件速度的瓶颈在硬盘而不是CPU。为了有效的克服不同器件之间的速度差,从CPU到硬盘引入了多级缓存机制。由于缓存影响程序读取速度,因此是实现优化时必须考虑的内容。

 

一、存储器层次结构

        缓存的思想可能存在于任何有速度差的存储之间,现在看看经典的存储器层次结构图:

 

        从L0到L3,都是针对CPU处理本身设计的缓存结构,L4就是我们常说的内存,以下类似。分这么多层次,说明在CPU指令执行过程中,数据被人为划分成多个层次结构。最顶层的L0就是寄存器,用于CPU指令执行时保存临时值;L1~L3是SRAM,即静态RAM,速度快但造价较DRAM要高得多,分别保存跟CPU执行指令相关、由小到大的三个抽象层信息。L4及之后的存储器,为更大的抽象层,关于其中的细节,将作为虚拟存储器内容,在随后的章节中讨论。为了方便起见,我们只针对L1高速缓存进行原理级论述。

 

二、高速缓存通用结构

        在讨论之前,我们再来确认一个老生常谈的问题,我常说:“32位机最大可访问4GB的地址空间”,啥意思?首先,32位是CPU的一个参数,指CPU总线的数据宽度。32位CPU顾名思义就是拥有32bit的总线数据宽度,一次操作最大可执行32位的计算。回忆下之前我们讲过的32位乘法,由于乘法的结果有可能大于32位,因此会用两个32位变量进行保存。

        那么,当CPU要读某个地址时,首先要先计算出该地址的值。假设地址是从00000000开始的,FFFFFFFF结束,在此范围内的地址空间有多大呢?很明显,00000000~FFFFFFFF一共有2^32= 4294967296种取值,也就是我们常说的4G。可惜小编我曾经脑子进水,问出这样的问题:地址不是按字节标识的么?byte和bit不是按8位换算的么?你这4G换算成字节,不是只有500MB大小么?那00000000~FFFFFFFF何来4GB地址空间???饿,别笑话我,拿这个问题去问我的学霸朋友,居然把他也蒙了好一会儿!当然,要解释这个也很容易,正因为地址是按字节标识的,因此当我们访问存储器时,根本不需要对存储器的逐个位进行读取,找到字节级,再用移位就能存储空间的每个位了。比如,假设有一款特殊的CPU,它是2位的CPU,毫无疑问,他每次只可能处理00、01、10、11这四种值,于是这四个值可以代表四个地址,而每个地址代表8位存储空间,也就是32位地址空间……想明白没?CPU里处理地址值时,每个数值都代表一个字节(byte)大小的存储空间,而不是一位(bit)大小的存储空间。因此,4Gbit大小的数值空间,就能标识4GB大小的地址空间,如果说计算地址相当于数数,那么我们是按字节来数存储器空间,而不是按位来数……你别说,脑子卡壳时,要是没事先想清楚,还真有可能被人问到(⊙o⊙)。ps,这里的“卡”应该读qiǎ,哈哈!

        最直接的回答是:32位机,可表述2^32字节的地址空间(2^32B),分别是2^2*2^10*2^10*2^10,而三个2^10的递增刚好是KB->MB>GB,也就是2^2GB也就是4GB。

        所谓地址空间,其实是由地址来解释空间,地址是数值,而每一个数值标识一个8位bit的存储空间,这应该算是地址空间不太严格的定义了!

好了,假设地址有m位,那么就有M=2^m个字节地址空间,M个不同的地址。结论先放在这,我们来浅析下什么是地址。来看两则定义:

    1.内存中每个用于数据存取的基本单位,都被赋予一个唯一的序号,称为地址。

    2.标识寄存器、存储单元和存储设备的编号或名称。

定义1太过狭隘,把地址的概念限制于内存之中,显然不是我们想要的,还是定义2比较靠谱,用来标识寄存器和存储的编号或名称,它提供了在寄存器、缓存、内存、硬盘等器件中的数据检索依据。也就是说,M=2^m地址空间对这些器件的作用是类似的,只是具体策略有所不同。

事实上,现代操作系统所管辖的内存时,是不会让程序员访问到内存每个数据块的实际硬件地址的,而是采用一种称为“虚拟存储器”的方法,将内存中连续或不连续的存储块,定义成连续的虚拟地址供程序员访问。类似C语言中取地址&符号的出来的地址值,都是这种虚拟地址值,这样有利于简化操作,更有便于操作系统和内存硬件采用更合理的方案分配存储空间。内存是缓存硬盘数据和程序中间值的重要工具,这些属于层次结构中L4和L5的规则原理,将在后面虚拟存储器章节进行详细讨论。

CPU如何通过地址管理寄存器,我们也暂不关心,我们要关心的是嵌入cpu内部的高速缓存L1以及下层的L2、L3的通用缓存的地址结构。试想,高速缓存总是比内存(教材上经常称为主存或者存储器)小得多得多,L1一般就几十上百KB而已,离4GB远着呢,那么CPU的这32位地址怎么用呢?很明显,高速缓存既然小,那一定是被地址空间所共享,你4GB中任何一个字节都可能被缓存在L1~L3中,很显然,我们得有办法进行区分。要对高速缓存进行有效的管理,就得给高缓存分组,组里面还可以有行,行里面可以有不同的字节串,针对这个想法,就能推出教材里的通用结构图:

 

品味这个结构图时,凭直觉容易犯的错误,就是把下面的地址和上面的行混为一谈。因此先明确下概念:

            1.上面整个部分就是高速缓存

            2.这个高速缓存被划分成S个组

            3.每个组有E行数据

            4.每行中都有一个高速缓存块,

            5.每个缓存块的大小是B个字节

            6.综上所述,整个高速缓存的存储大小C = S*E*B,你滴明白?

        我始终觉得,从大到小的计算方式更符合中国人的思维习惯,对C=S*E*B的这个简单乘法计算,写成这样顺序更便于理解。

        好了,既然清楚了高速缓存的通用结构,那么CPU是依据什么来访问缓存中各字节的呢?首先你得找到组吧,然后找到行吧,最后找到块吧,最后再通过偏移找到具体的字节吧?如果你能看懂到这,那(S,E,B,m)就灰常好理解了。

        既然CPU在访问高速缓存时,需要找这么多信息,那么在定义高速缓存的地址概念时,就必须得有相应的字段来标识。刚才我们有了总地址空间计算方式M=2^m,说明地址有m位,标识了M字节的地址空间。现在要标识组,要在S个组里面找出唯一的一个组信息,需要占用地址中的多少位呢?如果S=2^s,那我们就需要在m位地址中划分出s位来标识组信息;好,接下来要找行,既然每组有E行,若E=2^t,那有要在m位中划分t位来标识行信息;最后是行中的缓存块字节偏移,既然有B字节,而B=2^b字节,也就说还要从m中分配b位来标识块字节偏移……

        总结一下:

        S=2^s         组索引s生成组总数S

        E=2^t          标记位t生成行总数E

        B=2^b         块偏移b生成块总数B

        M=2^m        地址为m生成地址总数M

        完整的地址m位被弄得四分五裂,而且它还得保证刚好够用,很显然我们就能得到m = s+t+b这样的等式。这样的分配结果会产生一个问题:既然地址已经按照C=S*E*B和缓存的各个位置都一一对应上了,既然m位地址可以标识2^m字节的空间,那么我的缓存本身大小也是C=S*E*B= 2^s * 2^t * 2^b=2^(s+t+b)=2^m字节……缓存和被缓存对象一样大,岂不是多此一举么?另外,为什么图中m的划分顺序是t,s,b而不是s,t,b呢?

 

三、直接映射高速缓存

        于是我们先对t做做文章,让它不表述行信息,假如每个组只有一行如何?这就是所谓的直接映射高速缓存!这种缓存的特点是,每组只有一行,那每组也就只有一个缓存块。这样一来,t就不再用于区分组中的行信息了。那它用来干什么呢?答案是,用来共享。在直接映射高速缓存中,标记位t就是不同地址共享同一行缓存空间的依据。

 

        上图解释了地址位(下方)于直接映射高速缓存(上方)的对应关系。

                1.根据地址中的i已经找到了缓存里的i组

                2.读取了缓存中第一位的有效位是1,说明该数据有效,

                3. 判断地址中标记位t的值是否与i组里这唯一的一行纪录中的标记位相等,若相等说明数据有效,缓存命中,

                            若不相等呢?说明该组该行正缓存其他标记位标识的信息,也就是对当前地址不命中。

                4.若缓存命中,则读取地址中块偏移信息,找到具体的字节。既然块偏移的取值范围是000~111,也就是0~7,说明可以访问8字节块中任意一个字节。

 

        我们发现,正是因为有标记位的存在,同样大小的直接映射缓存,在服务于m位地址时,可以减少块偏移的位数,简化偏移操作,增加组的数量。同时,因为标记位的存在,使得m地址所标识的数据被轮流载入缓存,由标记位判断缓存是否命中。某个确定地址的数据可以暂时不在缓存中保存。

        这里详细阐述教材中的例子:

        假设有一个直接映射高速缓存:(S,E,B,m)=(4,1,2,4)。根据上面的基础可以得知,这个缓存有4个组(S=2^s也就是2^2),每组一行(直接映射的特征),每个块有两个字节(B=2^b也就是2^1),地址有4位。可以得出如下信息:

        组索引位:s=2;块偏移位数b=1;地址位数m=4,物理地址最大数量M=2^4=16字节,标记位t = m - s - b = 1。

        地址的划分如下(组索引用s代替原图中的i,方便讨论):

 

标记位t组索引s组索引s块偏移b

        直接映射高速缓存结构:

                                                                                                         组0:

有效位标记位高速缓存块高速缓存块

                                                                                                         组1:

有效位标记位高速缓存块高速缓存块

                                                                                                         组2:

有效位标记位高速缓存块高速缓存块

                                                                                                         组3:

有效位标记位高速缓存块高速缓存块

        如上所示,4个组,组索引取值00~11;每个组一行,高缓存块两个字节,标记位一个字节;地址取值0~15(十进制),

 

地址位t

    行

地址位s

    组

地址位b

    块

 地址 标记位 (t=1) 索引位 (s=2) 偏移位 (b=1) 块号000000100010200101300111401002501012601103701113810004910014101010511101151211006131101614111071511117

        可以说,能看懂上图对于高速缓存(S,E,B,m)=(4,1,2,4)的分配方案,就完全的理解直接映射高速缓存了。

1.先从索引位和偏移位看起,组索引00~11标志四个组,每个组有一个缓存块(每个组只有一行的嘛),每个缓存块有两个字节,因此偏移位是0~1,从上图看出,每个索引位对应两个偏移位,其实就是遍历每组里缓存块的俩个字节,当标记位确定时,它们共有8种组合。

2.标记位t取值0~1,由于每组只有一行,因此标记位用于区分同组、同偏移位的可能存储的两种不同的字节。也就说,每组中的缓存块的每个字节,都可能对应两个不同的取值,用标记位区分开来。因此我们看到,标记位0~1,将索引位和偏移位的组合数增大了一倍。其实就是后面所谓的共享。

3.由于标记位对缓存块的扩展,本来只有C=S*E*B=4*1*2=8字节大小的缓存,增大一倍后就能处理16字节数据了,你看看,刚好就能对应地址0~15这16个取值,每个取值代表一个字节,就刚好是16字节(听起来很废话,主要为了尽可能让大家读懂)

4.由于每个缓存块是两个字节大小,因此16个字节就需要8个缓存块,因此就有了最后的“块号”,刚好0~7,共8个块。本来高速缓存只有4个块,现在通过标记位的引入,逻辑上便扩展成8个块,只是在具体实现时,0、4块共享同一个空间;1、5块共享同一个空间;2、6块共享同一个空间;3、7块共享同一个空间。

        综上所述,这款直接映射高速缓存实际具有4个缓存块,通过标记位在逻辑上扩展成8个逻辑块,每个逻辑块都唯一对应两个计算机里的字节。四、组相联高速缓存和全相联高速缓存

         组相联英文里为set associative,比如我的CPU是8-way set associative,8路组相联缓存,说明每组中有8行。组相联高速缓存中,每组的行数E的范围应该是1



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3