计算机组成原理学了有什么用(终于有人把34)
计算机组成原理学了有什么用(终于有人把34)对于计算机的物理结构层次,我们这门课主要研究逻辑层和微电路层的具体实现方式。可以简单将软件看作一个层次结构,硬件为软件提供接口,系统软件又为应用软件形成接口,来完成不同的程序。计算机系统由两大部分组成:硬件和软件。软件又包括系统软件和应用软件。系统软件可以管理整个计算机系统:应用软件是按照任务需要编制成的程序。
1. 计算机组成原理概论计算机:数字电子计算机
组成:计算机硬件系统的逻辑实现
原理:不以具体机型为依托的,基本实现原理。
计算机组成原理:掌握如何实现的具体细节。
1.1 计算机系统简介计算机系统由两大部分组成:硬件和软件。软件又包括系统软件和应用软件。
系统软件可以管理整个计算机系统:
- 语言处理程序(将高级语言转换为机器可以懂得指令)
- 操作系统
- 服务性程序(比如数学库、MPI服务程序进行并行之间的通信)
- 数据库管理系统
- 网络软件
应用软件是按照任务需要编制成的程序。
可以简单将软件看作一个层次结构,硬件为软件提供接口,系统软件又为应用软件形成接口,来完成不同的程序。
对于计算机的物理结构层次,我们这门课主要研究逻辑层和微电路层的具体实现方式。
计算机系统的指令层次如下图所示
操作系统可以管理软硬件的资源。
计算机系统结构定义了系统软硬件的交界面,定义了哪些功能由软件实现,哪些功能由硬件实现,定义为==程序员所见到的计算机系统的属性概念性的结构与功能特性==。(指令系统,数据类型,寻址技术,I/O机理),即程序员需要理解的东西。
计算机组成:实现计算机体系结构所体现的属性,即具体指令的实现。
1.2 计算机的基本组成1.2.1 冯诺依曼结构上图实线表示数据流动,虚线表示控制反馈。
- 计算机结构由五大部件组成:存储器、运算器、控制器、输入设备、输出设备。
- 以运算器为中心,==程序存储在存储器中==。
- 指令和数据以同等地位保存在存储器中,可以按照地址寻找。
- 指令和数据由二进制表示,指令由操作码和地址码组成,操作码指明指令要干什么,地址码指明操作数的地址。
冯诺依曼结构以运算器为中心,容易形成瓶颈。我们可以使用存储器作为中心来进行优化,但是还不够。
1.2.2 现代计算机硬件框图指令和数据都是保存在存储器中的。
1.2.3 存储器的基本组成MAR是存储器地址寄存器,保存了存储单元的地址和编号,长度反映存储单元的个数。
MDR是存储器数据寄存器,保存了要存入存储体的数据或刚从存储体拿出来的数据,长度反映存储字长。
利用MAR和MDR来将数据放入存储器。
1.2.4 运算器的结构ALU(算术逻辑单元),通常是一个组合电路,输入撤销,输出也撤销,因此需要加上寄存器保存参与运算的计算。
数据寄存器X保存输入参数,ACC为累加寄存器,保存结果,乘法可能使得数据位数保存不下,使用MQ寄存器保存低位。
上表中存放了不同运算中,运算器的工作过程,以乘法为例,操作过程如下:
- 首先将被乘数取出来放到ACC中
- 从指令中的乘数地址M中取出乘数,送入MQ中
- 将被乘数送到X中
- 将ACC清零
- 完成乘法操作,结果由ACC和MQ保存
这些操作的过程顺序是由控制器来控制完成的。
1.2.5 控制器的基本结构控制器的功能是解释指令(完成指令)、保证指令的按序执行。
- PC(程序计数器)寄存器保存了当前指令的地址,进行取指令,PC有计数功能。
- IR(指令寄存器)存放当前要执行的指令,将操作码送入CU进行分析。
- CU(控制单元)发出控制信号,控制相对应的部件来执行指令。
下面以取数指令为例分析指令执行过程(取数送到ACC中)
- PC保存指令的地址,送到MAR进行寻址
- MAR根据地址到存储体中找到保存的指令
- MDR从存储体中取出指令
- 送到IR中,IR存放要执行的指令
- IR将操作码送入CU中进行分析
- 同时将地址码送到MAR中找这个数的数据
- MAR根据地址到存储体中找到要取的数
- MDR保存从存储体中取出的数
- CU控制下,将要取的数送到ACC中。
CU分析控制这些步骤的过程。
1.3 计算机硬件的主要技术指标- 机器字长:CPU一次能处理数据的位数,与CPU中寄存器位数有关。
- 运算速度:主频、核数以及每个核支持的线程数、CPI(执行一条指令所需的时钟周期数)、MIPS(每秒执行百万条指令)、FLOPS(每秒浮点运算次数)。
- 存储容量:主存容量(可使用存储单元个数×存储字长来表示存储体容量,MAR * MDR)(也可使用字节数来表示)、辅存容量(字节数表示)。
第一台计算机,1946年ENIAC,十进制运算。
电子技术的发展与计算机体系结构技术的发展对计算机的发展产生了决定性作用。
根据硬件技术来对计算机进行划分代码
电子管→晶体管→大规模集成电路→大规模集成电路→超大规模集成电路
软件技术的发展:机器语言(面向机器)、汇编语言(面向机器)、高级语言(面向问题)。
2.2 计算机的应用- 科学计算和数据处理
- 工业控制和实时控制
- 网络技术
- 虚拟现实
- 办公自动化和管理信息系统
- CAD/CAM/CIMS
- 多媒体技术
- 人工智能
总线是连接各个部件的信息传输线,是各个部件共享的传输介质,是信号的公共传输线。
如果使用单总线结构(系统总线),那么同时只能有一对部件进行信号传输,效率较低,使用双总线结构效率会更高。
上面的结构,无法在I/O和主存之间进行直接的信息传输,必须要通过CPU。
3.2 总线的分类- 片内总线:芯片内部的总线。
- 系统总线:计算机各部件之间的信息传输线。可分为:
- 数据总线,双向的,一般小于等于机器字长和存储字长。
- 地址总线,单向的,与存储地址、I/O地址有关。
- 控制总线,双向(CPU发出存储器读写指令,总线允许,中断确认等;CPU接收中断请求、总线请求)
- 通信总线:计算机之间或计算机和其它设备之间的通信,并行通信总线和串行通信总线。
总线印刷到电路板上(主板),其他设备插板插到电路板上。
总线的性能指标:
- 总线宽度:数据线根数,同时可以传输多少位。
- 标准传输率:每秒传输的最大字节数MBps
- 时钟同步/不同步
- 总线复用:地址线与数据线是否可以复用
- 信号线数:地址线、数据线和控制线的总和
- 总线控制方式
- 其他指标:负载能力等
增加了DMA(直接存储器访问)总线,外部设备直接访问存储器内存。高速设备直接通过DMA访问主存。
CPU与cache通过局部总线进行相连,扩展总线将外部设备连接。
高速设备和低速设备分离,分别连接到高速总线和扩展总线上。
PCI高速总线来连接高速设备,PCI总线可以通过桥来进行扩展。
3.5 总线控制3.5.1 总线判优控制通过是否能对总线发出占用请求,我们将设备分为主设备(主模块)和从设备(从模块)。主设备可以对总线有控制权,从设备响应从主设备发来的总线命令。
总线判优控制可以分为两种:集中式和分布式。下面介绍几种集中式的总线判优控制结构。
主设备通过BR申请总线的控制权,有设备在使用总线,则设置BS。总线控制部件通过BG来链式查询这些接口是否提出了BR,遇到了BR则交出控制权。
因此,优先顺序则为BG的查询顺序。这种结构对电路故障特别敏感,尤其是BG,如果BG后面出了问题,会导致后面的设备一直不会响应。
数据线用于数据的传输,地址线用于从设备的查找。通过设备地址线来查找某个设备是否发出总线请求。计数器的值通过设备地址线进行传输,来查找某个设备是否发出请求。可以自定义计数器的计数方式,来改变从哪个设备先查询等。
为每个I/O接口增加了BR和BG,通过排队器来进行优先级排队。这种方式使用的线数较多。
3.5.2 总线通信控制为了解决通信双方(主从设备)协调配合的问题。
总线的传输周期(完成一次主从设备完整可靠的传输所需要的时间):
- 申请分配阶段:主设备申请,总线决定
- 寻址阶段:主设备向向从设备给出地址和命令
- 传数阶段:主设备和从设备进行交换数据
- 结束阶段:主从设备撤销有关信息
- T1,主设备给出地址信号
- T2,给出从设备的读命令信号
- T3,从设备给出数据,输出到总线,完成数据交换
- T4,撤销地址信号,结束周期
强制同步,如果设备之间速度不同,快的设备需要等慢的设备。
不互锁:不管从设备是否接收到请求信号,过段时间主设备都会撤销请求。不管主设备是否接收到应答信号,从设备多段时间都会撤销应答。
半互锁和全互锁针对上面进行改进。
增加等待响应信号,当wait为低电平,则等待一个T。
使用分离式通信来将总线空闲的时间也充分利用起来。
4. 存储器4.1 概述按照存取方式对存储器进行分类:
- 存取时间与物理地址无关(随机访问):随机存储器、只读存储器。
- 存取时间与物理地址有关(串行访问):顺序存取存储器(磁带)、直接存取存储器(磁盘)。
按照在计算机中的作用分类:
存储器的层次结构:
- 寄存器包括体系结构寄存器和非体系结构寄存器。
- 一部分缓存放在了CPU之中。
- 缓存——主存层次,使用硬件方法连接到一个整体(对程序员透明,即不需要了解),速度较快,解决CPU和主存之间速度差距较大的问题,缓存即为Cache,CPU可以直接从缓存调用数据,cache和主存也进行数据交换。使用主存储器的实地址和物理地址。
- 主存——辅存层次,使用软硬件结合方式连接,容量较大,解决容量不足问题。这个层次称为虚拟存储器,使用虚地址和逻辑地址。
主存的基本组成:
主存与CPU之间的
主存中存储单元地址的分配:
- 每个字节(8位)一个地址,如果一个存储单元存储32位,即四个字节为一个字,可以将高位字节/低位字节,放在小的地址作为字地址。
主存的技术指标:
4.2.2 主存储器半导体芯片简介基本结构:
- 地址线(单向)给出地址,经过译码驱动电路来选择指定的存储单元,完成数据的读写操作(数据线双向)。
- 片选线是芯片选择信号,给出这次选择的地址是不是这个芯片的地址。
- 读写控制线,控制操作允许读还是写。
- 根据地址线和数据线条数,可以计算出芯片容量。如果地址线10条,数据线4条,那么芯片容量则为1K×4位。即1K个地址,每个地址数据4位。
译码驱动方式:
第一种方法是线选法
- 使用地址译码器,给定输入,输出只有一根线(字线)是有效的,图中一根线中是8个芯片组合成一个字,那么只有一根线的这一组芯片有效。
- 这种方法,每个字的存储单元都需要一根线,当容量较大的时候,很麻烦。
第二种方法是重合法
- 将所有存储单元布置成二维的阵列,使用两个地址译码器XY,一组(X Y)对应一个存储单元。
- 这样会大大降低所需要的线数量。
SRAM的基本电路:
- 使用触发器T1-T4来存储0/1,T5、T6控制存储单元读写,实际中会有许多虚线框进行堆叠,T7、T8列开关,一列共用。同样,可以横向进行堆叠,那么行地址选择的这一行,所有存储单元的T5和T6都会导通,但是只有对应列也有效的那个存储单元才进行读写。
- 通过行选和列选,选中进行读写操作的存储单元。
SRAM芯片举例(Intel 2114):
- WE读写控制信号,CS片选信号,A0-A9为地址线,4个I/O数据线。
- 10根地址线,使用重合法,6线为行地址,4线为列地址,每个列信号控制四列,这样一次就可以选择4位,将这4位看做是一个存储单元。就完成了1K×4位的选择。
DRAM的基本电路:
- 利用电容,如果电容保存了电荷,则认为保存是1,没有电,则认为是0。
- 保存在Cg上,T1、T2、T3是控制管。
- 读出信息与原信息相反,需要加非门。
- 写入信息与输入信息相同。
还有一种结构是单管动态RAM:
- 读出数据时,数据线有电,则为1。
- 写入时,Cs充电为1,放电为0。
三管DRAM芯片举例(Intel 1103):
- 因为电容会漏电,刷新放大器会定时对存储的信息进行刷新。
单管DRAM芯片举例(Intel 4116 16k×1位):
- 只有7根地址线,通过两次,来接受行地址和列地址,存放到对应的缓存器中。
- 通过行时钟、列时钟、写时钟来控制读写。
动态RAM的刷新:
- 每一次刷新只与行地址有关,与列地址没有关系,每次刷新一行。
- 集中刷新(在某段时间集中刷新所有的电容),这段时间DRAM是不可用的,称为死区。
- 分散刷新(每次读写操作之后,将某一行刷新),相当于将原来的读写操作的时间变长,把刷新操作放在读写操作中,这样就不存在死区。分散刷新比较频繁,有点过度刷新了。
- 异步刷新(将上面两种结合),则每隔一段时间对某一行进行刷新,即多个读写操作加一个刷新操作。
- DRAM的集成度较高,每个存储单元复杂度较低。
- SRAM的速度较快,一般用作缓存。
ROM中一般保存系统信息或系统程序。早期是只读的,不可以写,经过多年的发展和改进,现在的ROM可以自己多次读写。
- 掩模ROM(MROM):只读,不能修改。行列选择线交叉处有MOS管则为1,没有则为0。
- PROM(一次性编程):熔丝断了,则为0,否则为1。可以一次性的破坏性编程。
- EPROM(可以多次编程):N型沟道浮动栅MOS电路。S与D导通为1,不导通为0。
- EEPROM(多次性编程):电可擦写、局部擦写、全部擦写。
- Flash Memory(闪存型存储器):比EEPROM快,具有RAM的一些功能。
存储器容量扩展可以通过位扩展(增加存储字长)、字扩展(增加存储字的数量)、同时扩展。
CPU与存储器的连接:
- 地址线的连接:低位作为地址,高位作为片选信号。
- 数据线的连接
- 读写命令控制线的连接
- 片选线的连接:MREQ信号(表示该信号是连接存储器还是I/O接口)一定要连接到片选信号中,使得只有这个信号有效,才是CPU和内存连接工作。
- 合理选择存储芯片(ROM/RAM,芯片的性能参数)
- 其他:时序、负载
校验,检测合法代码,对非法代码进行纠错。
编码的纠错、检错能力与编码的最小距离有关。最小距离为任意两组合法代码之间二进制位数的最小差异。 $$ L-1 = D C\ (D≥C) $$ L为最小距离,D为检测错误的位数,C为纠正错误的位数。
汉明码是具有一位纠错能力的编码,汉明码都采用了奇偶校验和分组校验(分组的奇偶校验,分组之间是有重叠的,校验位放在2 ^ k处,k=0 1 2 3...)。
汉明码的分组,将代码中每一位进行分组(1 2 3 4 5 6 7序号),将每一位的序号进行分组,序号的二进制最右边一位为1的,第一组,右边第二位为1的,第二组......
==最后的校验结果,哪一位是1,那么这位对应的那组中的那个序号的代码位出错。如果出现了多个1,那么就是这几个组中公共的那位出错了。==
4.2.7 提高主存的访问以及存储速度CPU速度提升很快,但是存储器的速度提升较慢。
我们可以采用高速器件,采用层次结构(Cache-主存) ==调整主存结构。==
- 单体多字系统:使得存储器的存储字长大于CPU的字长(比如是CPU字长的4倍),这样一次读取就可以读取多个指令。但是这样会导致存储器结构复杂, 而且,如果需要执行的指令不是连续存放的,会更麻烦。
- 多体并行方式:
- 高位交叉:对各个存储体进行编号,存储体内部自行编号,每个存储体独立,有自己的控制编号。这样CPU给出的地址是体号 体内地址,各个存储体可以并行处理。(类似存储器容量的扩展)如果程序指令存方式顺序的,实际上还是在一个存储体中,并无法提升存储体速度。
- 低位交叉:体内地址 体号,使用横向的编码,比如存储体为M0-M3,那么第一个地址为M0的第一个位置,第二个地址为M1的第一个位置......这样M0中所有地址后两位都为00,M1都为01,M2都为10,M3都为11。后两位给出了存储体的选择地址。这样如果程序指令顺序存放的地址,实际上是不同存储体并行处理,这样就提升了效率,流水操作。
CPU与主存(DRAM)之间存在速度差异,为了避免CPU“空等”的现象,使用cache。
程序访问的局部性原理:
- 时间的局部性:当前正在使用的指令或数据,会在不久的将来还会使用到,那么应该把这种数据或指令放在缓存中。
- 空间的局部性:当前正在使用的指令或数据,不久的将来,相邻的指令或数据会使用到,那么应该把当前和相邻的指令和数据放到缓存中。
cache的工作原理:
把主存和cache分成大小相等的块,每个块大小相等,主存的块数量远远大于cache的块数量。==主存与cache之间的信息传送是按块传送,块内地址不变,cache的每个块的标记,标记了这个块是主存的哪个块。==
主存块调入了缓存(即cache标记了),称为命中,CPU可直接在缓存中取得数据;如果没有调入,称为未命中。
我们希望,每次执行程序,都尽可能的在cache中提取数据,这样速度会很快。CPU欲访问的信息在Cache中的比率称为命中率,命中率与Cache的容量和块长有关。一般每块取4-8个字,一般为一个存取周期内从主存调出的信息长度。
cache与主存的访问效率:
这里面平均访问时间为每次访问的平均时间(可能从cache,可能从主存)。
4.3.2 cache的基本结构与读写操作cache的基本结构:
读写操作:
- 前者时刻保持了cache和主存的一致,后者只写cache中,当cache中退出时才写回主存。
cache的改进:
- 增加cache的级数:片内cache,片外cache。
- 分立缓存:指令cache,数据cache。
即主存的任意一块加载到cache中的哪块。
直接映射:
即主存中任意一个块,只能映射到指定的一个cache块中,cache块可以是一对多的。相当于将主存分区,每个区内的这些块,对应于cache的所有块;这样在cache的标记中,有t位的标记,表示当前该cache块存放的是主存哪个区的对应位置信息。
****
这种方法cache块的利用率比较低,且可能会冲突。
全相联映射:
主存中任意一个块,可以被放入cache中的任意一个块中。
这样的话,虽然块的利用率高了,但是因为块可以映射到任意一个位置,如果查询某个主存块是否已经放入cache,需要比较所有的cache标记,速度较慢。
==组相联映射==:
与直接映射相似,==将cache分组,每个组可以有多个块;将主存分区,每个区的大小为cache的组数==。这样每个区的第0块,可以放入cache第0组的任何一个位置,因为每个组有多个块,解决了直接映射的冲突问题;想查询某个主存的块是否放入了cache,只需要在对应的组进行查询即可,解决了全相联映射的问题。
4.3.4 替换算法如果内存块满了,如何替换,将谁弹出。
先进先出(FIFO)算法
近期最少使用(LRU)算法
4.4 辅助存储器辅助存储器的主要作用是保存程序、文档和影音资料,不能直接与CPU交换信息,需要调入主存才能进行读写。
包括磁盘存储器和光盘存储器等。