服务器CPU

服务器的中央处理器（
CPU
），在内部结构上是跟台式机的差不多，它们都是由运算器和控制器组成，
CPU
的内部结构可分为控制单元，逻辑单元和存储单元三大部分。当然工作原理也是一样。随着两者的需求和发展，台式机和服务器的处理器在技术、性能指标等各方面都存在并存的现象，一个最明显的现象，像
Intel
的奔腾系列产品，一直应用于服务器的低端领域。但不代表着服务器
CPU
与台式机将会完全一样，下面内容会让你对服务器
CPU
有个全方位的了解
……<?xml:namespace prefix = o ns = “urn:schemas-microsoft-com:office:office” />

一、产品篇

上面简单把服务器处理器列了一下表，我们可以很清晰看出，服务器处理器按
CPU
的指令系统来区分，有
CISC
型
CPU
和
RISC
型
CPU
两类，后来出现了一种
64
位的
VLIM
指令系统的
CPU
，这种架构也叫做
“IA-64”
。目前基于这种指令架构的
MPU
有
Intel
的
IA-64
、
EM64T
和
AMD
的
x86-64
。
RISC
型的
CPU
是我们比较不熟悉的类型，下面一一介绍；

<?xml:namespace prefix = v ns = “urn:schemas-microsoft-com:vml” />

IBM
：

IBM
的四条处理器产品线
—— POWER
体系结构，
PowerPC
系列的处理器，
Star
系列（很少用于服务器中），以及
IBM
大型机上所采用的芯片

POWER
是
Power Optimization With Enhanced RISC
的缩写，是
IBM
的很多服务器、工作站和超级计算机的主要处理器。
POWER
芯片起源于
801 CPU
，是第二代
RISC
处理器。
POWER
芯片在
1990
年被
RS
或
RISC System/6000 UNIX
工作站（现在称为
eServer
和
pSeries
）采用，
POWER
的产品有
POWER1
、
POWER2
、
POWER3
、
POWER4
，现在最高端的是
POWER5
。
POWER5
处理器是目前单个芯片中性能最好的芯片。
POWER6
计划
2006
年发布。

PowerPC
是
Apple
、
IBM
和摩托罗拉（
Motorola
）联盟（也称为
AIM
联盟）的产物，它基于
POWER
体系结构，但是与
POWER
又有很多的不同。例如，
PowerPC
是开放的，它既支持高端的内存模型，也支持低端的内存模型，而
POWER
芯片是高端的。最初的
PowerPC
设计也着重于浮点性能和多处理能力的研究。当然，它也包含了大部分
POWER
指令。很多应用程序都能在
PowerPC
上正常工作，这可能需要重新编译以进行一些转换。从
2000
年开始，摩托罗拉和
IBM
的
PowerPC
芯片都开始遵循
Book E
规范，这样可以提供一些增强特性，从而使得
PowerPC
对嵌入式处理器应用（例如网络和存储设备，以及消费者设备）更具有吸引力。
PowerPC
体系结构的最大一个优点是它是开放的：它定义了一个指令集（
ISA
），并且允许任何人来设计和制造与
PowerPC
兼容的处理器；为了支持
PowerPC
而开发的软件模块的源代码都可以自由使用。最后，
PowerPC
核心的精简为其他部件预留了很大的空间，从新添加缓存到协处理都是如此，这样可以实现任意的设计复杂度。
IBM
的
4
条服务器产品线中有两条与
Apple
计算机的桌面和服务器产品线同样基于
PowerPC
体系结构，分别是
Nintendo GameCube
和
IBM
的
“
蓝色基因（
Blue Gene
）
”
超级计算机。现在，三种主要的
PowerPC
系列是嵌入式
PowerPC 400
系列以及独立的
PowerPC 700
和
PowerPC 900
系列。而
PowerPC 600
系列，是第一个
PowerPC
芯片。它是
POWER
和
PowerPC
体系结构之间的桥梁。现在的
PowerPC970
，采用
0.13
微米
SOI
工艺制造，其内只有一颗
CPU
核心，带有
512K
芯片内
L2 cache
。

HP
：

HP
（惠普）公司自已开发、研制的适用于服务器的
RISC
芯片
——PA-RISC
，于
1986
年问世。目前，
HP
主要开发
64
位超标量处理器
PA-8000
系列。第一款芯片的型号为
PA-8000
，主频为
180MHz
，后来陆续推出
PA-8200
、
PA-8500
、
PA-8600
、
PA-8700
、
PA-8800
型号。还有一个就是
HP
的
“
私生子
”Alpha
。（
Alpha
处理器最早由
DEC
公司设计制造，在
Compaq
公司收购
DEC
之后，
Alpha
处理器继续得到发展，后来又被惠普公司收购）

HP
于
2002
年开始就公布了其两大
RISC
处理器
——PA-RISC
和
Alpha
的发展计划，其中
PA-RISC
与
Alpha
处理器至少要发展到
2006
年，对基于其上的服务器的服务支持将至少持续到
2011
年。
2006
年，
HP
将会推出
PA-8900
。而对于
Alpha
的发展，惠普公司于已经于
2004
年八月份发布了其面向
AlphaServer Unix
服务器的最后一款处理器产品
——EV7z
。

SUN
：

1987
年，
SUN
和
TI
公司合作开发了
RISC
微处理器
——SPARC
。
Sun
公司以其性能优秀的工作站闻名，这些工作站的心脏全都是采用
Sun
公司自己研发的
Sparc
芯片。
SPARC
微处理器最突出的特点就是它的可扩展性，这是业界出现的第一款有可扩展×××的微处理。
SPARC
的推出为
SUN
赢得了高端微处理器市场的领先地位。

1999
年
6
月，
UltraSPARC III
首次亮相。它采用先进的
0.18
微米工艺制造，全部采用
64
位结构和
VIS
指令集，时钟频率从
600MHz
起，可用于高达
1000
个处理器协同工作的系统上。
UltraSPARC III
和
Solaris
操作系统的应用实现了百分之百的二进制兼容，完全支持客户的软件投资，得到众多的独立软件供应商的支持。

根据
Sun
公司未来的发展规划，在
64
位
UltraSparc
处理器方面，主要有
3
个系列，首先是可扩展式
s
系列，主要用于高性能、易扩展的多处理器系统。目前
UltraSparc
Ⅲ
s
的频率已经达到
750GHz
。将推出
UltraSparc
Ⅳ
s
和
UltraSparc
Ⅴ
s
等型号。其中
UltraSparc
Ⅳ
s
的频率为
1GHz
，
UltraSparc
Ⅴ
s
则为
1.5GHz
。其次是集成式
i
系列，它将多种系统功能集成在一个处理器上，为单处理器系统提供了更高的效益。已经推出的
UltraSparc
Ⅲ
i
的频率达到
700GHz
，未来的
UltraSparc
Ⅳ
i
的频率将达到
1GHz
。最后是嵌入式
e
系列，为用户提供理想的性能价格比，嵌入式应用包括瘦客户机、电缆调制解调器和网络接口等。
Sun
公司还将推出主频
300
、
400
、
500MHz
等版本的处理器

SGI
MIPS
技术公司是一家设计制造高性能、高档次及嵌入式
32
位和
64
位处理器的厂商，在
RISC
处理器方面占有重要地位。
1984
年，
MIPS
计算机公司成立。
1992
年，
SGI
收购了
MIPS
计算机公司。
1998
年，
MIPS
脱离
SGI
，成为
MIPS
技术公司。

MIPS
公司设计
RISC
处理器始于二十世纪八十年代初，
1986
年推出
R2000
处理器，
1988
年推
R3000
处理器，
1991
年推出第一款
64
位商用微处器
R4000
。之后又陆续推出
R8000
（于
1994
年）、
R10000
（于
1996
年）和
R12000
（于
1997
年）等型号。

随后，
MIPS
公司的战略发生变化，把重点放在嵌入式系统。
1999
年，
MIPS
公司发布
MIPS32
和
MIPS64
架构标准，为未来
MIPS
处理器的开发奠定了基础。新的架构集成了所有原来
NIPS
指令集，并且增加了许多更强大的功能。
MIPS
公司陆续开发了高性能、低功耗的
32
位处理器内核（
core
）
MIPS324Kc
与高性能
64
位处理器内核
MIPS64 5Kc
。
2000
年，
MIPS
公司发布了针对
MIPS32 4Kc
的版本以及
64
位
MIPS 64 20Kc
处理器内核。

MIPS
技术公司是一家设计制造高性能、高档次及嵌入式
32
位和
64
位处理器的厂商。
1986
年推出
R2000
处理器，
1988
年推出
R3000
处理器，
1991
年推出第一款
64
位商用微处理器
R4000
。之后，又陆续推出
R8000
（于
1994
年）、
R10000
（于
1996
年）和
R12000
（于
1997
年）等型号。
1999
年，
MIPS
公司发布
MIPS 32
和
MIPS 64
架构标准。
2000
年，
MIPS
公司发布了针对
MIPS 32 4Kc
的新版本以及未来
64
位
MIPS 64 20Kc
处理器内核。

二、参数篇

1.
主频

　　主频也叫时钟频率，单位是
MHz
，用来表示
CPU
的运算速度。
CPU
的主频＝外频
×
倍频系数。很多人认为主频就决定着
CPU
的运行速度，这不仅是个片面的，而且对于服务器来讲，这个认识也出现了偏差。至今，没有一条确定的公式能够实现主频和实际的运算速度两者之间的数值关系，即使是两大处理器厂家
Intel
和
AMD
，在这点上也存在着很大的争议，我们从
Intel
的产品的发展趋势，可以看出
Intel
很注重加强自身主频的发展。像其他的处理器厂家，有人曾经拿过一快
1G
的全美达来做比较，它的运行效率相当于
2G
的
Intel
处理器。

所以，
CPU
的主频与
CPU
实际的运算能力是没有直接关系的，主频表示在
CPU
内数字脉冲信号震荡的速度。在
Intel
的处理器产品中，我们也可以看到这样的例子：
1 GHz Itanium
芯片能够表现得差不多跟
2.66 GHz Xeon/Opteron
一样快，或是
1.5 GHz Itanium 2
大约跟
4 GHz Xeon/Opteron
一样快。
CPU
的运算速度还要看
CPU
的流水线的各方面的性能指标。

　　当然，主频和实际的运算速度是有关的，只能说主频仅仅是
CPU
性能表现的一个方面，而不代表
CPU
的整体性能。

2.
外频

　　外频是
CPU
的基准频率，单位也是
MHz
。
CPU
的外频决定着整块主板的运行速度。说白了，在台式机中，我们所说的超频，都是超
CPU
的外频（当然一般情况下，
CPU
的倍频都是被锁住的）相信这点是很好理解的。但对于服务器
CPU
来讲，超频是绝对不允许的。前面说到
CPU
决定着主板的运行速度，两者是同步运行的，如果把服务器
CPU
超频了，改变了外频，会产生异步运行，（台式机很多主板都支持异步运行）这样会造成整个服务器系统的不稳定。

目前的绝大部分电脑系统中外频也是内存与主板之间的同步运行的速度，在这种方式下，可以理解为
CPU
的外频直接与内存相连通，实现两者间的同步运行状态。外频与前端总线
(FSB)
频率很容易被混为一谈，下面的前端总线介绍我们谈谈两者的区别。

3.
前端总线
(FSB)
频率

　　前端总线
(FSB)
频率
(
即总线频率
)
是直接影响
CPU
与内存直接数据交换速度。有一条公式可以计算，即数据带宽＝
(
总线频率
×
数据带宽
)/8
，数据传输最大带宽取决于所有同时传输的数据的宽度和传输频率。比方，现在的支持
64
位的至强
Nocona
，前端总线是
800MHz
，按照公式，它的数据传输最大带宽是
6.4GB/
秒。

外频与前端总线
(FSB)
频率的区别：前端总线的速度指的是数据传输的速度，外频是
CPU
与主板之间同步运行的速度。也就是说，
100MHz
外频特指数字脉冲信号在每秒钟震荡一千万次；而
100MHz
前端总线指的是每秒钟
CPU
可接受的数据传输量是
100MHz×64bit÷8Byte/bit=800MB/s
。

其实现在
“HyperTransport”
构架的出现，让这种实际意义上的前端总线
(FSB)
频率发生了变化。之前我们知道
IA-32
架构必须有三大重要的构件：内存控制器
Hub (MCH) ,I/O
控制器
Hub
和
PCI Hub
，像
Intel
很典型的芯片组
Intel 7501
、
Intel7505
芯片组，为双至强处理器量身定做的，它们所包含的
MCH
为
CPU
提供了频率为
533MHz
的前端总线，配合
DDR
内存，前端总线带宽可达到
4.3GB/
秒。但随着处理器性能不断提高同时给系统架构带来了很多问题。而
“HyperTransport”
构架不但解决了问题，而且更有效地提高了总线带宽，比方
AMD Opteron
处理器，灵活的
HyperTransport I/O
总线体系结构让它整合了内存控制器，使处理器不通过系统总线传给芯片组而直接和内存交换数据。这样的话，前端总线
(FSB)
频率在
AMD Opteron
处理器就不知道从何谈起了。

4
、
CPU
的位和字长

　　位：在数字电路和电脑技术中采用二进制，代码只有
“0”
和
“1”
，其中无论是
“0”
或是
“1”
在
CPU
中都是

一
“
位
”
。

　　字长：电脑技术中对
CPU
在单位时间内
(
同一时间
)
能一次处理的二进制数的位数叫字长。所以能处理字长为
8
位数据的
CPU
通常就叫
8
位的
CPU
。同理
32
位的
CPU
就能在单位时间内处理字长为
32
位的二进制数据。

字节和字长的区别：由于常用的英文字符用
8
位二进制就可以表示，所以通常就将
8
位称为一个字节。字长的长度是不固定的，对于不同的
CPU
、字长的长度也不一样。
8
位的
CPU
一次只能处理一个字节，而
32
位的
CPU
一次就能处理
4
个字节，同理字长为
64
位的
CPU
一次可以处理
8
个字节。

5.
倍频系数

　　倍频系数是指
CPU
主频与外频之间的相对比例关系。在相同的外频下，倍频越高
CPU
的频率也越高。但实际上，在相同外频的前提下，高倍频的
CPU
本身意义并不大。这是因为
CPU
与系统之间数据传输速度是有限的，一味追求高倍频而得到高主频的
CPU
就会出现明显的
“
瓶颈
”
效应
—CPU
从系统中得到数据的极限速度不能够满足
CPU
运算的速度。一般除了工程样版的
Intel
的
CPU
都是锁了倍频的，而
AMD
之前都没有锁。

6.
缓存

　　缓存大小也是
CPU
的重要指标之一，而且缓存的结构和大小对
CPU
速度的影响非常大，
CPU
内缓存的运行频率极高，一般是和处理器同频运作，工作效率远远大于系统内存和硬盘。实际工作时，
CPU
往往需要重复读取同样的数据块，而缓存容量的增大，可以大幅度提升
CPU
内部读取数据的命中率，而不用再到内存或者硬盘上寻找，以此提高系统性能。但是由于
CPU
芯片面积和成本的因素来考虑，缓存都很小。

L1
　
Cache(
一级缓存
)
是
CPU
第一层高速缓存，分为数据缓存和指令缓存。内置的
L1
高速缓存的容量和结构对
CPU
的性能影响较大，不过高速缓冲存储器均由静态
RAM
组成，结构较复杂，在
CPU
管芯面积不能太大的情况下，
L1
级高速缓存的容量不可能做得太大。一般服务器
CPU
的
L1
缓存的容量通常在
32—256KB
。

　　
L2
　
Cache(
二级缓存
)
是
CPU
的第二层高速缓存，分内部和外部两种芯片。内部的芯片二级缓存运行速度与主频相同，而外部的二级缓存则只有主频的一半。
L2
高速缓存容量也会影响
CPU
的性能，原则是越大越好，现在家庭用
CPU
容量最大的是
512KB
，而服务器和工作站上用
CPU
的
L2
高速缓存更高达
256-1MB
，有的高达
2MB
或者
3MB
。

L3
　
Cache(
三级缓存
)
，分为两种，早期的是外置，现在的都是内置的。而它的实际作用即是，
L3
缓存的应用可以进一步降低内存延迟，同时提升大数据量计算时处理器的性能。降低内存延迟和提升大数据量计算能力对游戏都很有帮助。而在服务器领域增加
L3
缓存在性能方面仍然有显著的提升。比方具有较大
L3
缓存的配置利用物理内存会更有效，故它比较慢的磁盘
I/O
子系统可以处理更多的数据请求。具有较大
L3
缓存的处理器提供更有效的文件系统缓存行为及较短消息和处理器队列长度。

其实最早的
L3
缓存被应用在
AMD
发布的
K6-III
处理器上，当时的
L3
缓存受限于制造工艺，并没有被集成进芯片内部，而是集成在主板上。在只能够和系统总线频率同步的
L3
缓存同主内存其实差不了多少。后来使用
L3
缓存的是英特尔为服务器市场所推出的
Itanium
处理器。接着就是
P4EE
和至强
MP
。
Intel
还打算推出一款
9MB L3
缓存的
Itanium2
处理器，和以后
24MB L3
缓存的双核心
Itanium2
处理器。

但基本上
L3
缓存对处理器的性能提高显得不是很重要，比方配备
1MB L3
缓存的
Xeon MP
处理器却仍然不是
Opteron
的对手，由此可见前端总线的增加，要比缓存增加带来更有效的性能提升。

7.CPU
扩展指令集

　　
CPU
依靠指令来计算和控制系统，每款
CPU
在设计时就规定了一系列与其硬件电路相配合的指令系统。指令的强弱也是
CPU
的重要指标，指令集是提高微处理器效率的最有效工具之一。从现阶段的主流体系结构讲，指令集可分为复杂指令集和精简指令集两部分，而从具体运用看，如
Intel
的
MMX
（
Multi Media Extended
）、
SSE
、
SSE2
（
Streaming-Single instruction multiple data-Extensions 2
）、
SEE3
和
AMD
的
3DNow!
等都是
CPU
的扩展指令集，分别增强了
CPU
的多媒体、图形图象和
Internet
等的处理能力。我们通常会把
CPU
的扩展指令集称为
“CPU
的指令集
“
。
SSE3
指令集也是目前规模最小的指令集，此前
MMX
包含有
57
条命令，
SSE
包含有
50
条命令，
SSE2
包含有
144
条命令，
SSE3
包含有
13
条命令。目前
SSE3
也是最先进的指令集，英特尔
Prescott
处理器

已经支持
SSE3
指令集，
AMD
会在未来双核心处理器当中加入对
SSE3
指令集的支持，全美达的处理器也将支持这一指令集。

8.CPU
内核和
I/O
工作电压

　　从
586CPU
开始，
CPU
的工作电压分为内核电压和
I/O
电压两种，通常
CPU
的核心电压小于等于
I/O
电压。其中内核电压的大小是根据
CPU
的生产工艺而定，一般制作工艺越小，内核工作电压越低；
I/O
电压一般都在
1.6~5V
。低电压能解决耗电过大和发热过高的问题。

9.
制造工艺

　　制造工艺的微米是指
IC
内电路与电路之间的距离。制造工艺的趋势是向密集度愈高的方向发展。密度愈高的
IC
电路设计，意味着在同样大小面积的
IC
中，可以拥有密度更高、功能更复杂的电路设计。现在主要的
180nm
、
130nm
、
90nm
。最近官方已经表示有
65nm
的制造工艺了。

10.
指令集

（
1
）
CISC
指令集

　　
CISC
指令集，也称为复杂指令集，英文名是
CISC
，（
Complex Instruction Set Computer
的缩写）。在
CISC
微处理器中，程序的各条指令是按顺序串行执行的，每条指令中的各个操作也是按顺序串行执行的。顺序执行的优点是控制简单，但计算机各部分的利用率不高，执行速度慢。其实它是英特尔生产的
x86
系列（也就是
IA-32
架构）
CPU
及其兼容
CPU
，如
AMD
、
VIA
的。即使是现在新起的
X86-64
（也被成
AMD64
）都是属于
CISC
的范畴。

要知道什么是指令集还要从当今的
X86
架构的
CPU
说起。
X86
指令集是
Intel
为其第一块
16
位
CPU(i8086)
专门开发的，
IBM1981
年推出的世界第一台
PC
机中的
CPU—i8088(i8086
简化版
)
使用的也是
X86
指令，同时电脑中为提高浮点数据处理能力而增加了
X87
芯片，以后就将
X86
指令集和
X87
指令集统称为
X86
指令集。

　　虽然随着
CPU
技术的不断发展，
Intel
陆续研制出更新型的
i80386
、
i80486
直到过去的
PII
至强、
PIII
至强、
Pentium 3
，最后到今天的
Pentium 4
系列、至强（不包括至强
Nocona
），但为了保证电脑能继续运行以往开发的各类应用程序以保护和继承丰富的软件资源，所以
Intel
公司所生产的所有
CPU
仍然继续使用
X86
指令集，所以它的
CPU
仍属于
X86
系列。由于
Intel X86
系列及其兼容
CPU
（如
AMD Athlon MP
、）都使用
X86
指令集，所以就形成了今天庞大的
X86
系列及兼容
CPU
阵容。
x86CPU
目前主要有
intel
的服务器
CPU
和
AMD
的服务器
CPU
两类。

（
2
）
RISC
指令集

　　
RISC
是英文
“Reduced Instruction Set Computing ”
的缩写，中文意思是
“
精简指令集
”
。它是在
CISC
指令系统基础上发展起来的，有人对
CISC
机进行测试表明，各种指令的使用频度相当悬殊，最常使用的是一些比较简单的指令，它们仅占指令总数的
20
％，但在程序中出现的频度却占
80
％。复杂的指令系统必然增加微处理器的复杂性，使处理器的研制时间长，成本高。并且复杂指令需要复杂的操作，必然会降低计算机的速度。基于上述原因，
20
世纪
80
年代
RISC
型
CPU
诞生了，相对于
CISC
型
CPU ,RISC
型
CPU
不仅精简了指令系统，还采用了一种叫做
“
超标量和超流水线结构
”
，大大增加了并行处理能力。
RISC
指令集是高性能
CPU
的发展方向。它与传统的
CISC(
复杂指令集
)
相对。相比而言，
RISC
的指令格式统一，种类比较少，寻址方式也比复杂指令集少。当然处理速度就提高很多了。目前在中高档服务器中普遍采用这一指令系统的
CPU
，特别是高档服务器全都采用
RISC
指令系统的
CPU
。
RISC
指令系统更加适合高档服务器的操作系统
UNIX
，现在
Linux
也属于类似
UNIX
的操作系统。
RISC
型
CPU
与
Intel
和
AMD
的
CPU
在软件和硬件上都不兼容。

目前，在中高档服务器中采用
RISC
指令的
CPU
主要有以下几类：
PowerPC
处理器

、
SPARC
处理器、
PA-RISC
处理器、
MIPS
处理器、
Alpha
处理器。

（
3
）
IA-64

EPIC
（
Explicitly Parallel Instruction Computers
，精确并行指令计算机）是否是
RISC
和
CISC
体系的继承者的争论已经有很多，单以
EPIC
体系来说，它更像
Intel
的处理器迈向
RISC
体系的重要步骤。从理论上说，
EPIC
体系设计的
CPU
，在相同的主机配置下，处理
Windows
的应用软件比基于
Unix
下的应用软件要好得多。

Intel
采用
EPIC
技术的服务器
CPU
是安腾
Itanium
（开发代号即
Merced
）。它是
64
位处理器，也是
IA
－
64
系列中的第一款。微软也已开发了代号为
Win64
的操作系统，在软件上加以支持。在
Intel
采用了
X86
指令集之后，它又转而寻求更先进的
64-bit
微处理器，
Intel
这样做的原因是，它们想摆脱容量巨大的
x86
架构
,
从而引入精力充沛而又功能强大的指令集，于是采用
EPIC
指令集的
IA-64
架构便诞生了。
IA-64
在很多方面来说，都比
x86
有了长足的进步。突破了传统
IA32
架构的许多限制，在数据的处理能力，系统的稳定性、安全性、可用性、可观理性等方面获得了突破性的提高。

IA-64
微处理器最大的缺陷是它们缺乏与
x86
的兼容，而
Intel
为了
IA-64
处理器能够更好地运行两个朝代的软件，它在
IA-64
处理器上（
Itanium
、
Itanium2 ……)
引入了
x86-to-IA-64
的×××，这样就能够把
x86
指令翻译为
IA-64
指令。这个×××并不是最有效率的×××，也不是运行
x86
代码的最好途径（最好的途径是

直接在
x86
处理器上运行
x86
代码），因此
Itanium
和
Itanium2
在运行
x86
应用程序时候的性能非常糟糕。这也成为
X86-64
产生的根本原因。

（
4
）
X86-64
（
AMD64 / EM64T
）

AMD
公司设计，可以在同一时间内处理
64
位的整数运算，并兼容于
X86-32
架构。其中支持
64
位逻辑定址，同时提供转换为
32
位定址选项；但数据操作指令默认为
32
位和
8
位，提供转换成
64
位和
16
位的选项；支持常规用途寄存器，如果是
32
位运算操作，就要将结果扩展成完整的
64
位。这样，指令中有
“
直接执行
”
和
“
转换执行
”
的区别，其指令字段是
8
位或
32
位，可以避免字段过长。

x86-64
（也叫
AMD64
）的产生也并非空穴来风，
x86
处理器的
32bit
寻址空间限制在
4GB
内存，而
IA-64
的处理器又不能兼容
x86
。
AMD
充分考虑顾客的需求，加强
x86
指令集的功能，使这套指令集可同时支持
64
位的运算模式，因此
AMD
把它们的结构称之为
x86-64
。在技术上
AMD
在
x86-64
架构中为了进行
64
位运算，
AMD
为其引入了新增了
R8-R15
通用寄存器作为原有
X86
处理器寄存器的扩充，但在而在
32
位环境下并不完全使用到这些寄存器。原来的寄存器诸如
EAX
、
EBX
也由
32
位扩张至
64
位。在
SSE
单元中新加入了
8
个新寄存器以提供对
SSE2
的支持。寄存器数量的增加将带来性能的提升。与此同时，为了同时支持
32
和
64
位代码及寄存器，
x86-64
架构允许处理器工作在以下两种模式：
Long Mode(
长模式
)
和
Legacy Mode(
遗传模式
)
，
Long
模式又分为两种子模式
(64bit
模式和
Compatibility mode
兼容模式
)
。该标准已经被引进在
AMD
服务器处理器中的
Opteron
处理器。

而今年也推出了支持
64
位的
EM64T
技术，再还没被正式命为
EM64T
之前是
IA32E
，这是英特尔
64
位扩展技术的名字
,
用来区别
X86
指令集。
Intel
的
EM64T
支持
64
位
sub-mode
，和
AMD
的
X86-64
技术类似，采用
64
位的线性平面寻址，加入
8
个新的通用寄存器（
GPRs
），还增加
8
个寄存器支持
SSE
指令。与
AMD
相类似，
Intel
的
64
位技术将兼容
IA32
和
IA32E
，只有在运行
64
位操作系统下的时候，才将会采用
IA32E
。
IA32E
将由
2
个
sub-mode
组成：
64
位
sub-mode
和
32
位
sub-mode
，同
AMD64
一样是向下兼容的。
Intel
的
EM64T
将完全兼容
AMD
的
X86-64
技术。现在
Nocona
处理器已经加入了一些
64
位技术，
Intel
的
Pentium 4E
处理器也支持
64
位技术。

应该说，这两者都是兼容
x86
指令集的
64
位微处理器架构，但
EM64T
与
AMD64
还是有一些不一样的地方，
AMD64
处理器中的
NX
位在
Intel
的处理器中将没有提供。

11.
超流水线与超标量

　　在解释超流水线与超标量前，先了解流水线
(pipeline)
。流水线是
Intel
首次在
486
芯片中开始使用的。流水线的工作方式就象工业生产上的装配流水线。在
CPU
中由
5—6
个不同功能的电路单元组成一条指令处理流水线，然后将一条
X86
指令分成
5—6
步后再由这些电路单元分别执行，这样就能实现在一个
CPU
时钟周期完成一条指令，因此提高
CPU
的运算速度。经典奔腾每条整数流水线都分为四级流水，即指令预取、译码、执行、写回结果，浮点流水又分为八级流水。

超标量是通过内置多条流水线来同时执行多个处理器，其实质是以空间换取时间。而超流水线是通过细化流水、提高主频，使得在一个机器周期内完成一个甚至多个操作，其实质是以时间换取空间。例如
Pentium 4
的流水线就长达
20
级。将流水线设计的步
(
级
)
越长，其完成一条指令的速度越快，因此才能适应工作主频更高的
CPU
。但是流水线过长也带来了一定副作用，很可能会出现主频较高的
CPU
实际运算速度较低的现象，
Intel
的奔腾
4
就出现了这种情况，虽然它的主频可以高达
1.4G
以上，但其运算性能却远远比不上
AMD 1.2G
的速龙甚至奔腾
III
。

12.
封装形式

　　
CPU
封装是采用特定的材料将
CPU
芯片或
CPU
模块固化在其中以防损坏的保护措施，一般必须在封装后
CPU
才能交付用户使用。
CPU
的封装方式取决于
CPU
安装形式和器件集成设计，从大的分类来看通常采用
Socket
插座进行安装的
CPU
使用
PGA(
栅格阵列
)
方式封装，而采用
Slot x
槽安装的
CPU
则全部采用
SEC(
单边接插盒
)
的形式封装。现在还有
PLGA(Plastic Land Grid Array)
、
OLGA(Organic Land Grid Array)
等封装技术。由于市场竞争日益激烈，目前
CPU
封装技术的发展方向以节约成本为主。

三、技术篇

1
、多线程

同时多线程
Simultaneous multithreading
，简称
SMT
。
SMT
可通过复制处理器上的结构状态，让同一个处理器上的多个线程同步执行并共享处理器的执行资源，可最大限度地实现宽发射、乱序的超标量处理，提高处理器运算部件的利用率，缓和由于数据相关或
Cache
未命中带来的访问内存延时。当没有多个线程可用时，
SMT
处理器几乎和传统的宽发射超标量处理器一样。
SMT
最具吸引力的是只需小规模改变处理器核心的设计，几乎不用增加额外的成本就可以显著地提升效能。多线程技术则可以为高速的运算核心准备更多的待处理数据，减少运算核心的闲置时间。这对于桌面低端系统来说无疑十分具有吸引力。
Intel
从
3.06GHz Pentium 4
开始，所有处理器都将支持
SMT
技术。

2
、多核心

多核心，也指单芯片多处理器（
Chip multiprocessors
，简称
CMP
）。
CMP
是由美国斯坦福大学提出的，其思想是将大规模并行处理器中的
SMP
（对称多处理器）集成到同一芯片内，各个处理器并行执行不同的进程。与
CMP
比较，
SMT
处理器结构的灵活性比较突出。但是，当半导体工艺进入
0.18
微米以后，线延时已经超过了门延迟，要求微处理器的设计通过划分许多规模更小、局部性更好的基本单元结构来进行。相比之下，由于
CMP
结构已经被划分成多个处理器核来设计，每个核都比较简单，有利于优化设计，因此更有发展前途。目前，
IBM
的
Power 4
芯片和
Sun
的
MAJC5200
芯片都采用了
CMP
结构。多核处理器可以在处理器内部共享缓存，提高缓存利用率，同时简化多处理器系统设计的复杂度。

2005
年下半年，
Intel
和
AMD
的新型处理器也将融入
CMP
结构。新安腾处理器开发代码为
Montecito
，采用双核心设计，拥有最少
18MB
片内缓存，采取
90nm
工艺制造，它的设计绝对称得上是对当今芯片业的挑战。它的每个单独的核心都拥有独立的
L1
，
L2
和
L3 cache
，包含大约
10
亿支晶体管。

3
、
SMP

SMP
（
Symmetric Multi-Processing
），对称多处理结构的简称，是指在一个计算机上汇集了一组处理器
(
多
CPU),
各
CPU
之间共享内存子系统以及总线结构。在这种技术的支持下，一个服务器系统可以同时运行多个处理器，并共享内存和其他的主机资源。像双至强，也就是我们所说的二路，这是在对称处理器系统中最常见的一种（至强
MP
可以支持到四路，
AMD Opteron
可以支持
1-8
路）。也有少数是
16
路的。但是一般来讲，
SMP
结构的机器可扩展性较差，很难做到
100
个以上多处理器，常规的一般是
8
个到
16
个，不过这对于多数的用户来说已经够用了。在高性能服务器和工作站级主板架构中最为常见，像
UNIX
服务器可支持最多
256
个
CPU
的系统。

构建一套
SMP
系统的必要条件是：支持
SMP
的硬件包括主板和
CPU
；支持
SMP
的系统平台，再就是支持
SMP
的应用软件。

为了能够使得
SMP
系统发挥高效的性能，操作系统必须支持
SMP
系统，如
WINNT
、
LINUX
、以及
UNIX
等等
32
位操作系统。即能够进行多任务和多线程处理。多任务是指操作系统能够在同一时间让不同的
CPU
完成不同的任务；多线程是指操作系统能够使得不同的
CPU
并行的完成同一个任务。

要组建
SMP
系统，对所选的
CPU
有很高的要求，首先、
CPU
内部必须内置
APIC
（
Advanced Programmable Interrupt Controllers
）单元。
Intel
多处理规范的核心就是高级可编程中断控制器（
Advanced Programmable Interrupt Controllers–APICs
）的使用；再次，相同的产品型号，同样类型的
CPU
核心，完全相同的运行频率；最后，尽可能保持相同的产品序列编号，因为两个生产批次的
CPU
作为双处理器运行的时候，有可能会发生一颗
CPU
负担过高，而另一颗负担很少的情况，无法发挥最大性能，更糟糕的是可能导致死机。

4
、
NUMA
技术

NUMA
即非一致访问分布共享存储技术，它是由若干通过高速专用网络连接起来的独立节点构成的系统，各个节点可以是单个的
CPU
或是
SMP
系统。在
NUMA
中，
Cache
的一致性有多种解决方案，需要操作系统和特殊软件的支持。图
2
中是
Sequent
公司
NUMA
系统的例子。这里有
3
个
SMP
模块用高速专用网络联起来，组成一个节点，每个节点可以有
12
个
CPU
。像
Sequent
的系统最多可以达到
64
个
CPU
甚至
256
个
CPU
。显然，这是在
SMP
的基础上，再用
NUMA
的技术加以扩展，是这两种技术的结合。

5
、乱序执行技术

乱序执行（
out-of-orderexecution
），是指
CPU
允许将多条指令不按程序规定的顺序分开发送给各相应电路单元处理的技术。这样将根据个电路单元的状态和各指令能否提前执行的具体情况分析后，将能提前执行的指令立即发送给相应电路单元执行，在这期间不按规定顺序执行指令，然后由重新排列单元将各执行单元结果按指令顺序重新排列。采用乱序执行技术的目的是为了使
CPU
内部电路满负荷运转并相应提高了
CPU
的运行程序的速度。分枝技术：（
branch
）指令进行运算时需要等待结果，一般无条件分枝只需要按指令顺序执行，而条件分枝必须根据处理后的结果，再决定是否按原先顺序进行。

6
、
CPU
内部的内存控制器

许多应用程序拥有更为复杂的读取模式（几乎是随机地，特别是当
cache hit
不可预测的时候），并且没有有效地利用带宽。典型的这类应用程序就是业务处理软件，即使拥有如乱序执行（
out of order execution
）这样的
CPU
特性，也会受内存延迟的限制。这样
CPU
必须得等到运算所需数据被除数装载完成才能执行指令（无论这些数据来自
CPU cache
还是主内存系统）。当前低段系统的内存延迟大约是
120
－
150ns
，而
CPU
速度则达到了
3GHz
以上，一次单独的内存请求可能会浪费
200
－
300
次
CPU
循环。即使在缓存命中率（
cache hit rate
）达到
99
％的情况下，
CPU
也可能会花
50
％的时间来等待内存请求的结束－

比如因为内存延迟的缘故。

你可以看到
Opteron
整合的内存控制器，它的延迟，与芯片组支持双通道
DDR
内存控制器的延迟相比来说，是要低很多的。英特尔也按照计划的那样在处理器内部整合内存控制器，这样导致北桥芯片将变得不那么重要。但改变了处理器访问主存的方式，有助于提高带宽、降低内存延时和提升处理器性能。

四、厂商篇

Intel
公司简介

英特尔（
Intel
）公司自成立
1984
年
,
就开始着眼重于开发半导体存储等产品，目前已经成为是全球最大的芯片制造商及国际领先的个人电脑网络产品和通信产品的生产商。

经营理念公司坚信，计算机和
Internet
的出现将改变整个世界。英特尔（
Intel
）公司旨在通过开发这些产品建立更先进的计算机系统，为促进世界各地的计算机业的发展作出最大的贡献。

自一九八五年进入中国市场以来，英特尔公司已在中国设立了十二个办事机构，并在上海兴建了世界一流的制造工厂。为了与中国的计算机行业共同发展，在上海和北京分别成立了英特尔上海软件实验室和英特尔中国研究中心。

　　杰出的员工是英特尔成功的关键。英特尔公司以独特的企业文化，
“
业绩为本
“
的激励机制及每一位员工都能享受的股票期权计划，创造
“
良好的工作环境
“
，吸引最优秀的人才。我们身为高科技的先驱者，为您提供不可多得的工作机会。把握科技时代的脉搏，亲身体验探索尖端科技领域的乐趣，发掘具有创意的解决方案，在无止境的挑战中开拓人生的崭新境界，尽在英特尔世界。

AMD
公司简介

AMD
是一家业务遍及全球的集成电路供应商，专为电脑、通信及电子消费类市场供应各种芯片产品，其中包括用于通信及网络设备的微处理器、闪存以及基于硅片技术的解决方案等。

AMD
除了在世界各大城市设有办事处之外，还在美国、欧州、日本及亚洲等地设有生产中心。
AMD
创办于
1969
年，总公司设于美国硅谷，有超过
70%
的收入来自国际市场，是一家真正意义上的跨国公司。公司在美国纽约股票交易所上市，代号为
AMD
。

AMD
开发新产品时，力求产品能够满足客户的需要，不会单纯为创新而创新。
AMD
作出每一个决定时，都会考虑
“
以客户为中心进行创新
“
，并以此作为指导思想，让公司员工清晰知道产品的发展方向，也让公司能够在这个基础上与业务伙伴、客户以及用户建立更密切的合作关系。

AMD
深信公司文化对公司的未来发展非常重要，其重要性甚至不亚于所制造的产品。我们热爱工作，拥有锲而不舍的精神。在这样的高尚情操驱使下，我们一直积极寻找发展的机会，致力开发能适合客户需要的创新技术，并充分把握每一个市场商机，与广大的用户、业务伙伴与客户携手合作，帮助他们获益。
AMD
具有刚毅不屈的精神，致力在世界上竞争最激烈的行业内持续发展，这是
AMD
企业文化的独有特色。

全美达公司简介

全美达公司成立於
1995
年
,
致力於设计
,
发展和销售以软体为基础的高效率
x86
兼容微处理器。我们的微处理器有效的提供低电力消费、高性能、低成本和体积大小之间的平衡。在
2000
年
,
我们宣布了第一个
Crusoe™
处理器系列上市
,
并在
2003
年
10
月推出了新的
Efficeon
处理器系列。我们的产品为不同的计算的平台在要求节能、低热和
x86
软体兼容性等方面提供了无与伦比的价值。我们也开发先进的电能管理技术
,
为半导体和运算器件设备提供电能漏出的控制和增加电能的效率。

全美达是一家拥有
300
名员工小型规模的公司，员工主要位于加里福利亚也遍布世界各地。这就使得公司更具开创性，能迅速地把产品投向市场。为了适应世界范围内的市场需求，在美国，日本，台湾都有公司的销售和服务部门。

IBM
公司简介

美国国际商业机器公司（
International Business Machines Corporation
，简称
IBM
）已有
80
多年的历史。它是世界上最大的信息工业跨国公司，有遍布世界的
100
多家分公司，拥有
40
万员工，年营业额超过
1000
亿美元。因为
IBM
员工的上班制服是蓝色的，生产的计算机外壳也是蓝色的，所以美国人一直亲昵地称它为
“
蓝色巨人
”
。从汤姆斯
•
沃森创办
IBM
以来，
“
蓝色巨人
”
一直被视为卓越管理和先进技术的典范。多年来，它向市场推出的各种型号计算机称霸于世界。超级计算机
“
深蓝
”
（
DeeperBlue
）在与国际象棋世界冠军的世纪大战中最终获胜，使
IBM
更是妇孺皆知。
IBM
的四条处理器产品线
—— POWER
体系结构，
PowerPC
系列的处理器，
Star
系列，以及
IBM
大型机上所采用的芯片。