英特尔至强处理器技术简介
至强(Xeon)是英特尔针对服务器和工作站市场的处理器品牌,但也有某些超级计算机采用此处理器。Xeon采用x86架构和/或x86-64架构,和采用IA-64架构的Itanium不同。
至强处理器与常规桌面级CPU相采用同一套微结构(微内核),但更关注于核心数量而非时钟频率,并增加了针对服务器和工作站的高级功能,例如ECC内存,更多的内核数量,更大的RAM和高速缓存,提供企业级的可靠性,可用性和可维护性的Machine Check Architecture (MCA)异常处理机制等。此外,某些型号还支持QPI(快速通道互联)和UPI(超级通道互联)总线,从而将多个CPU连接在一起,从而提供2路、4路、8路等多路处理能力。。
至强(Xeon)处理器目前主要有6个系列:
此外,至强还包含至强融核系列处理器,目前最新的Xeon PHI处理器基于英特尔®集成众核架构(MIC 架构),能为要求最苛刻的高性能计算应用程序提供大规模并行处理和矢量化服务,最高支持72核,36M L2 Cache。
多路互联技术用于在单块主板上安装多块互相连接的处理器,主要包括:
众核(Manycore)处理器是专为高度并行处理而设计的专用多核处理器,不追求流水线深度、超线程等计数来提高单核性能,而是包含大量简单独立的处理器内核,因此具有更高的吞吐量或更低的功耗,但是具有更高的延迟和较低的单线程性能。
Cache一致性是限制多核处理器扩展的难点。众核处理器通过消息传递,暂存式内存,DMA,分区化的全局地址空间(Partitioned global address space,PGAS),只读/非一致性高速缓存等技巧绕过这个难点。GPU实际上可以认为是具有多个着色器处理单元的众核处理器。
多通道内存技术是一种可以提升内存数据发送性能的技术,通过在DRAM和内存控制器/芯片组之间,增加更多的并行通信通道以增加数据发送的带宽。理论上每增加一条通道,数据发送性能相较于单通道而言会增加一倍。通常情况下,多通道对内存的规格和插槽都有要求,只要满足要求才能使能多通道模式。
目前常见的多通道技术多为双通道的设置,例如两组64-bit DDR提供128位的DDR通道。支持四通道技术的处理器包括Intel/AMD的高端处理器、包含ARM CoreLink CCI-500技术的Cortex-A72等处理器,以及高通和三星的高端处理器等。支持八通道技术的有AMD EPYC、Cavium ThunderX2等服务器处理器。此外,英特尔2012年展示的Haswell-EX架构也支持八通道DDR4。
多线程技术包括同时多线程(SMT)和时间多线程:
时间多线程(Temporal multithreading)也称交叉多线程,即在一个时钟周期中发出一个指令,交错发出不同线程的多个指令。时间多线程目前仅在CDC 6000(1960s)、Tera MTA (1988) 、XMOS XCore XS1(2007)等Barrel(桶)处理器上出现。
Intel服务器处理器提供的硬件错误检测和报告机制,包括系统总线错误,ECC错误,奇偶校验错误,Cache错误、TLB错误等,包括一组用于设置MCA的MSR寄存器和记录硬件错误的附加MSR寄存器。
在ECC技术出现之前,内存中应用最多的另外一种错误检查技术,是奇偶校验位(Parity)技术,仅能发现错误而不能纠正错误。
ECC内存够实现错误检查和自动纠正技术的内存,可以自动检测和纠正最常见的内部数据损坏,使系统得以正常的操作,不致因错误而中断。通常情况下,ECC内存保持一个内存系统不受单一位错误的影响,即使用5位ECC码纠正8位数据中的1位错误。数据位每增加一倍,ECC只增加1位检验位,即数据位为16位时ECC位为6位,32位时ECC位为7位,数据位为64位时ECC位为8位,依此类推。
向量处理技术能够直接操作一维数组(向量),与一次只能处理一个数据的标量处理正好相反。向量处理技术可以在特定工作环境中极大地提升性能,尤其是在数值模拟或者相似领域。向量处理技术最早出现于20世纪70年代早期,并在70年代到90年代期间成为超级计算机设计的主导方向。由于常规处理器设计性价比的快速下降,基于向量处理的超级计算机在90年代末逐渐让出了主导地位。现在,绝大多数商业化CPU实现都能够提供某种形式的向量处理指令,用来处理多个向量化的数据集,也就是所谓的SIMD(单一指令多重数据)。此外,还有多重指令处理多重向量化数据集的MIMD(多重指令多重数据)技术。
Netburst微架构是P6微架构的后继者,第一个使用这架构的是Willamette核心,于2000年推出。Willamette是第一代奔腾IV处理器所用的核心,而全部的奔腾 IV处理器都是使用Netburst微架构。2001年推出的Foster(至强处理器)也是使用本架构,同时基于奔腾IV的赛扬、赛扬 D,以及双核心的奔腾 D、奔腾 Extreme Edition都是使用本架构。
立足于性能而设计的英特尔NetBurst微架构将频率提升超过了40%,虽然IPC值较低,但由于频率的增加弥补了不足(性能=频率×IPC),并且为最终用户提供了更高的整体性能。和P6微架构一样,英特尔NetBurst微架构凭借无序推测执行,尽管分支预测算法相当精确,但也不可能100%正确。
为了使由于分支误预测而引起的损失降到最低并使IPC均值最大化,采用扩展深度流水线技术的Intel NetBurst微架构极大地减小了分支预测错误的数量,并提供了从这些错误恢复的快速方法。为了能使误预测引起的损失最小,英特尔NetBurst微架构实现了高级动态执行引擎和一个执行跟踪缓存。
不过值得一提的是,英特尔NetBurst微架构中使用了超流水线技术,这使得流水线的深度相比P6微处理器体系结构的提高了一倍,不过在后来的实际应用中表明提高流水线长度之后会令执行效率大幅度降低,
能够弥补这个问题的办法只能是再次提高主频和增加二级缓存容量。
不过由于当时处理器工艺制成的限制,导致处理器的主频的可提升空间越来越小, 与此同时巨大的缓存容量也是一个负担,这不仅提高了成本,也令发热量骤升。这一点使得英特尔必须要及时地对处理器微架做出新的,根本性地调整。 由于NetBurst架构已经无法满足未来处理器发展的需要,所以英特尔于2006年推出了具有革新意义的Core微架构。
1.流水线效率大幅度提升
主频至上的处理器研发思路显然已经被淘汰。Core微架构的处理器将超流水线缩短到14级,这将大幅度提升整体效率。此外Core微架构采用了四组指令编译器,就是指能够在单一频率周期内编译四个x86指令。这四组指令编译器由三组简单编译器(Simple Decoder)与一组复杂编译器(Complex Decoder)组成。四组指令编译器中,仅有复杂编译器可处理最多由四个微指令所组成的复杂x86指令。如果不幸碰到非常复杂的指令,复杂编译器就必须呼叫微码循序器(Microcode Sequencer),以便取得微指令序列。
为了配合超宽的编译单元,Core微架构的指令读取单元在一个频率周期内,从第一阶指令快取中,抓取六个x86指令至指令编译缓冲区(Instruction Queue),判定是否有符合宏指令融合的配对,然后再将最多五个x86指令,交派给四组指令编译器。四组指令编译器在每个频率周期中,发给保留站(Reservation Station)四个编译后的微指令,保留站再将存放的微指令交派(dispatch)给五个执行单元。
因为x86指令集的指令长度、格式与定址模式都相当混乱,导致x86指令解码器的设计是非常困难的。但是如今的局面已经有所改变,一方面是高主频对于四组精简结构有着很大的依赖性,另一方面是其它辅助性技术也能很大程度上弥补解决定址模式混乱的难题。毫无疑问,英特尔的这一创举将是在处理器核心架构设计上具有里程碑意义的。
2.全新的整数与浮点单元
从P6到NetBurst架构,整数与浮点单元的变化还是相当明显,不过Core微架构的变化也同样不小,只是部分关键技术又改回P6架构时代的设计。Core具备了3个64bit的整数执行单元,每一个都可以单独完成的64位整数运算操作。
能够独立完成64bit整数运算对英特尔 x86处理器来说还是头一回,这也让Core得以走在了竞争对手的前列。此外,64bit的整数单元使用彼此独立的数据端口,因此Core能够在一个周期内同时完成3组64bit的整数运算。极强的整数运算单元使得Core在包括游戏、服务器项目、移动等方面都能够发挥广泛而强大的作用。
在以往的NetBurst架构中,浮点单元的性能很一般,Core构架针对这个问题进行了不小的改进。Core构架拥有2个浮点执行单元同时处理向量和标量的浮点运算,其中一个浮点单元执行负责加减等简单的处理,而另一个浮点单元则执行负责乘除等运算。尽管不能说Core构架令浮点性能有很大幅度的提升,但是其改进效果还是显而易见的。
3.数据预读机制与缓存结构
Core微架构的预读取机制还有更多新特性。数据预取单元经常需要在缓存中进行标签查找。为了避免标签查找可能带来的高延迟,数据预取单元使用存储接口进行标签查找。存储操作在大多数情况下并不是影响系统性能的关键,因为在数据开始写入时,处理器即可以马上开始进行下面的工作,而不必等待写入操作完成。缓存/内存子系统会负责数据的整个写入到缓存、复制到主内存的过程。
此外,Core架构使用了Smart Memory Access算法,这将帮助处理器在前端总线与内存传输之间实现更高的效率。
Core架构的缓存系统也令人印象深刻。双核心Core架构的二级缓存容量高达4MB,且两个核心共享,访问延迟仅12到14个时钟周期。每个核心还拥有32KB的一级指令缓存和一级数据缓存,访问延迟仅仅3个时钟周期。从 NetBurst架构开始引入的追踪式缓存(Trace Cache)在 Core架构中消失了。NetBurst 架构中的追踪式缓存的作用与常见的指令缓存相类似,是用来存放解码前的指令的,对NetBurst架构的长流水线结构非常有用,而Core架构回归相对较短的流水线之后,追踪式缓存也随之消失。 经历Core微架构的辉煌之后,英特尔再接再厉,于2008年末推出了新的Nehalem微架构, 它基本是建立在Core微架构的骨架上,外加增添了SMT、3层Cache、TLB和分支预测的等级化、IMC、QPI和支持DDR3等技术,比起从Pentium4的NetBurst架构到Core 微架构的较大变化来说,从Core微架构到Nehalem微架构的基本核心部分的变化则要小一些。
1QPI总线技术
Nehalem架构使用的QPI总线是基于数据包传输(packet-based)、高带宽、低延迟的点到点互连技术(point to point interconnect),速度达到64GT/s(每秒可以传输64G次数据)。每一条连接(link)是20bit位宽的接口,使用高速的差分信号(differential signaling)和专用的时钟通道(dedicated clock lane),这些时钟通道具有失效备援(failover)。QPI数据包是80bit的长度,发送需要用4个周期。尽管数据包是80bit,但只有64bit是用于数据,其它的数据位则是用于流量控制、CRC和其它一些目的。这样,每条连接就一次传输16bit(2Byte)的数据,其余的位宽则是用于CRC。由于QPI总线可以双向传输,那么一条QPI总线连接理论最大值就可以达到256GB/s(2×2B×64GT/s)的数据传送。单向则是128GB/s。(更详细资料参考“快速通道互联QPI”词条)
2IMC整合内存控制器
Nehalem架构的IMC(integrated memory controller,整合内存控制器),可以支持3通道的DDR3内存,运行在133GT/s(DDR3-1333),这样总共的峰值带宽就可以达到32GB/s。不过还并不支持FB-DIMM,要Nehalem EX(Beckton)才有可能会支持FB-DIMM(Fully Buffered-DIMM,全缓冲内存模组)。每通道的内存都能够独立操作,控制器需要乱序执行来降低(掩盖)延迟。(更详细资料参见整合内存控制器词条)
3SMT
同步多线程(Simultaneous Multi-Threading,SMT)技术又重新回归到了Nehalem架构,这最早出现在130纳米的奔腾IV上。对于打开了SMT的处理器来说,将会遭受到更多的命中失败,并需要使用更多的带宽。所以Nehalem比奔腾IV是更适合使用SMT的。
Nehalem的同步多线程(Simultaneous Multi-Threading,SMT)是2-way的,每核心可以同时执行2个线程。对于执行引擎来说,在多线程任务的情况下,就可以掩盖单个线程的延迟。SMT功能的好处是只需要消耗很小的核心面积代价,就可以在多任务的情况下提供显著的性能提升,比起完全再添加一个物理核心来说要划算得多。这个和以前P4的HT技术是一样的,但比较起来,Nehalem的优势是有更大的缓存和更大的内存带宽,这样就更能够有效的发挥。按照英特尔的说法,Nehalem的SMT可以在增加很少能耗的情况下,让性能提升20-30%。(更详细资料参见同步多线程技术词条)
4全新设计的缓存体系
Nehalem的每个核心有一个私有的通用型L2,是8路联合的256KB,访问速度相当快。Nehalem的L2相对于其L1D来说,既不是包含式(inclusive)也不是独占式(exclusive),可以在两个核心的私有缓存(L1D和L2)之间传递数据,尽管不能够达到全速。
与Core微架构相比,Nehalem新增加了一层L3缓存,这是为了多个核心共享数据的需要(Nehalem-EX具有8个核心),也因此这个L3的容量很大。从架构上看,Nehalem架构的处理器所配备的16路联合、8MB的L3对于前两级来说,是完全包含式的,并且由4个核心共享。(更详细资料参见新增缓存层级体系词条)
Intel第一块CPU 4004,4位主理器,主频108kHz,运算速度006MIPs(Million Instructions Per Second, 每秒百万条指令),集成晶体管2,300个,10微米制造工艺,最大寻址内存640 bytes,生产日期1971年11月
8008,8位主理器,主频200kHz,运算速度006MIPs,集成晶体管3,500个,10微米制造工艺,最大寻址内存16KB,生产日期1972年4月
8080,8位主理器,主频2M,运算速度064MIPs,集成晶体管6,000个,6微米制造工艺,最大寻址内存64KB,生产日期1974年4月
8085,8位主理器,主频5M,运算速度037MIPs,集成晶体管6,500个,3微米制造工艺,最大寻址内存64KB,生产日期1976年
8086,16位主理器,主频477/8/10MHZ,运算速度075MIPs,集成晶体管29,000个,3微米制造工艺,最大寻址内存1MB,生产日期1978年6月
8088,8位主理器,主频477/8MHZ,集成晶体管29,000个,3微米制造工艺,最大寻址内存1MB,生产日期1979年6月
80286,16位主理器,主频6/8/10/12~25MHZ,运算速度最高266MIPs,集成晶体管134,000个,3微米制造工艺,最大寻址内存16MB,生产日期1982年
80386DX,32位主理器,主频16/20/25/33MHZ,运算速度最高达10MIPs,集成晶体管275,000个,15微米制造工艺,最大寻址内存4GB,生产日期1985年10月
80386SX,16位主理器,主频MHZ,运算速度6MIPs,集成晶体管134,000个,3微米制造工艺,最大寻址内存16MB,生产日期1988年
80486DX,DX2,DX4,32位主理器,主频25/33/50/66/75/100MHZ,总线频率33/50/66MHZ,运算速度20~60MIPs,集成晶体管12M个,1微米制造工艺,168针PGA,最大寻址内存4GB,缓存8/16/32/64KB,生产日期1989年4月
Pentium,64位主理器,主频60/66/75/100/120MHZ(P54),133/150/166/200MHZ(P54C),总线频率60/66MHZ,运算速度90~240MIPs,集成晶体管31~35M个,1微米制造工艺,273或296针,最大寻址内存4GB,缓存16/256/512KB,生产日期1993年3月
Pentium MMX(MMX: Multi-Media Extensions,增加57条多媒体指令),64位主理器,主频150/150/166/200/233MHZ(P55C),总线频率66MHZ,运算速度达到435MIPs,集成晶体管41~45M个,1微米制造工艺,SOCKET7接口,最大寻址内存4GB,缓存16/256/512KB,生产日期1993年3月
Pentium Pro,64位主理器,主频133/150/166/180/200MHZ,总线频率66MHZ,运算速度达到300~440MIPs,集成晶体管55M个,1微米制造工艺,387针Socket8接口,最大寻址内存64GB,缓存16/256kB~1MB,生产日期1995年11月
Pentium II,64位主理器,主频200/233/266/300/333/350/400/450MHZ,总线频率66/100MHZ,运算速度达到560~770MIPs,集成晶体管75M个,1微米制造工艺,全新SLOT1接口,最大寻址内存64GB,L1缓存16kB,L2缓存512KB,生产日期1997年3月(233~333MHz, 28V Klamath核心, 66MHz FSB; 350~450MHz, 20V Deschutes核心, 100MHz FSB)
Pentium II Xeon(至强),64位主理器,主频400/450MHZ,总线频率100MHZ,全新SLOT2接口,最大寻址内存64GB,L1缓存16kB,L2缓存512KB~2MB,生产日期1998年
Celeron一代, 主频266/300MHZ(266/300MHz w/o L2 cache, Covington芯心 (Klamath based),300A/333/366/400/433/466/500/533MHz w/128kB L2 cache, Mendocino核心 (Deschutes-based), 总线频率66MHz,025微米制造工艺,生产日期1998年4月)
Pentium III,64位处理器,主频450/500MHZ(Katmai核心: 20V, 100MHz总线频率, 512kB L2 cache,slot1接口),533MHZ~113GHZ(Coppermine核心: 16V, 100/133MHz总线频率, 256kB L2 cache,Socket 370),025~018微米制造工艺,生产日期1999~2000年
Pentium III Xeon,分为早期的Tanner核心(025微米制造工艺,256KB缓存),后来的Cascades核心(总线频率133MHZ,L2缓存2MB,018微米制造工艺),生产日期1999年
Pentium III (Tulatin核心),主频113G~14G,总线频率133MHZ, L2缓存512K,Socket370接口, 013微米制造工艺,分为服务器版(S)和笔记本移动版(M),生产日期2001年
Celeron二代,主频533MHZ~1GHZ(Coppermine核心: 16V, 总线频率66/100MHZ, L2缓存128K,Socket 370),018微米制造工艺,生产日期2000年
Celeron三代(Tulatin,图拉丁核心),主频1GHZ~13GHZ,总线频率100MHZ,013微米制造工艺,Socket370接口,256k的二级缓存,绝对不怕压坏的核心,低功耗,发热量小等优势一改赛扬II的种种缺陷,超频性能绝佳, 2002年生产
Pentium 4 (Willamette核心,423针),主频13G~17G,FSB400MHZ,018微米制造工艺,Socket423接口, 二级缓存256K,生产日期2000年11月
Pentium 4 (478针),至今分为三种核心:Willamette核心(主频15G起,FSB400MHZ,018微米制造工艺),Northwood核心(主频16G~30G,FSB533MHZ,013微米制造工艺, 二级缓存512K),Prescott核心(主频28G起,FSB800MHZ,009微米制造工艺,1M二级缓存,13条全新指令集SSE3),生产日期2001年7月
相比x86,IBM的Power架构和Sun的SPARC架构都曾有着很明显的性能优势。但时至今日,已经接近40岁的x86架构占据了超过90%的服务器市场。根源来看,是由于封闭系统和企业属性不符,盲目的追求生态会让推第三方到竞争对手的怀抱。这也是更开放的x86架构如今枝繁叶茂的原因。
Power高处不胜寒
1980年,IBM创新的推出了全球第一台基于RISC(精简指令集)架构的原型机,RISC对于CISC(复杂指令集)在高性能领域优势明显。而1994年,IBM基于此推出PowerPC604处理器,其强大的性能在当时处于全球领先地位。
在高端领域,Power架构具备大规模SMP系统性能,其可以保障内存在访问任意一枚CPU时速度是一致的。而x86则是采用了NUMA结构,CPU和内存分区,这就意味着在访问自己部分的内存速度飞快,而其他部分内存速度要慢不少。也正是因此,4路以上的x86服务器相对较少。
硬件方面,Power系统在可靠性、可用性和可维护性的方面的出色表现使得 IBM从芯片到系统所设计的整机方案有着独有的优势。Power架构的处理器在超算、大型企业的UNIX服务器等多个方面应用也十分成功。
IBM的Power架构 强大却不亲民
在软件方面,其专用的AIX系统在稳定性、软件方案集成度和厂商技术支持能力方面都要更强。由于用户选一平台主要看软件需求,一般对数据保护和724小时不宕机等有所要求,power架构的稳定性和运维等方面相对更优。
但是,Power系列的问题也十分明显,那就是价格太不亲民,技术也赶不上环境的变化。
在云计算兴起后,随着分布式系统逐渐成熟,系统对小型机的依赖开始降低,改为依靠集群提供,性能也可实现分布式处理。而更为关键的是,IBM的全套服务尽管稳定性优秀,但却影响了Power架构对其他商家的吸引力。
Sparc:流水无情恋落花
除了Power外另一个在Unix系统中表现极为活跃的架构就是SPARC(Scalable Processor ARChitecture,可扩展处理器架构)。同样在是上世纪80年代,Sun公司首先提出了RISC处理器体系架构SPARC。并且在1989年,Sun将采用了该架构的SPARC处理器应用于高性能工作站及服务器上。该架构的开放性和risc体系的特点很快让其成为了国际流行的架构。
SPARC有意 市场无情
为了扩大SPARC的影响力并作出进一步优化,1989年“SPARC International”组织成立,帮助进行SPARC架构标准管理,而该组织的会员包括了很多全球知名的公司和机构,比如如欧空局、欧比特、摩托罗拉、东芝、富士通、Aeroflex Gaisler等,以及2009年收购了Sun的Oracle。
SPARC架构的成功和Sun旗下的Solaris系统有着分不开的关系。当计算机系统庞大、用户数量巨大增加时,基于Unix操作系统打造的 Solaris能更好地利用计算机资源,是所有商业版中最可靠最完善的版本。而依赖SPARC架构和Solaris系统的性能和可靠性,其占领了服务器高端市场。Sun的另一个更为知名的产品是Java,虽然在上世纪90年代为智能家电开发的Java并没有为其带来相应的回报,但已成为今天移动时代最重要的开发语言。
如此强大的实力本应统领服务器市场,但遗憾的是,在微软和英特尔组成Wintel联盟之后,两者凭借自身在各自市场的规模效应,使得采用Wintel产品的服务器厂商可以通过低廉的价格大肆抢占中低端市场。而当Sun醒悟过来,通过开源等方式想要挽回败局时为时已晚。
Solaris系统已经被Oracle裁撤
最终,市值曾超2000亿美元的Sun以74亿美元卖给了Oracle。表面上看,Oracle的各种软件和SPARC架构的完美兼容大可以让这一架构起死回生。可是事实并不尽如人意,Oracle在2010年放弃了开源项目OpenSolaris;去年年底,Oracle宣布Solaris操作系统将被裁撤,SPARC架构最大的优势仅剩下和Oracle软件的兼容性。
而且Sun旗下产品线众多,SPARC架构仅仅依靠Oracle根本无法走远,而能够不计竞争关系合作研发的企业少之又少,SPARC架构如今的局面就变得十分尴尬。
x86依靠生态称霸市场
与Power和SPARC在高性能领域的风生水起不同,x86架构是天生的小屌丝。1978年他出生的那年,英特尔还只是一个普通的科技公司。可是x86架构随同其cisc指令集却开启了一个新的时代。
x86架构在服务器领域本无优势
尽管在最初的几年,x86并没有引发太大的震动,但是三年后,x86架构得到IBM PC的应用,并很快成为了全球个人计算机的标准平台,成为史上最成功的CPU架构,Intel如今的地位很大程度上是借助x86架构帮助。
很快,x86架构处理器从桌面到笔记本、服务器、超级计算机和编写设备等多种平台得到发展,苹果在这期间就放弃了PowerPC专为使用x86架构。但是,X86 CPU采用的cisc指令集却有着自己的问题。
CISC指令集的固有问题在于CPU执行大多数是在访问存储器中的数据,这拖慢了整个系统的速度。而RISC系统则往往具有很多个通用寄存器,采用重叠寄存器窗口和寄存器堆等技术让寄存器资源充分利用。X86架构计算机利用效率低,执行速度慢的缺点在高性能领域暴露无遗。
再者,CISC指令采用顺序串行执行,每条指令中的操作也是按照顺序串行执行,其优点在于控制简单。问题在于如果遇到复杂的指令,那么整体运行速度较慢而且过程复杂。
CISC与RISC指令集对比
今天的x86 CPU中已融入了解码的功能,其将长度不定的x86指令转换为长度固定的类似于RISC指令,然后将其交给RISC内核进行处理。解码包括了硬件解码和微解码两种,简单的x86指令采用硬件解码速度较快,而复杂的指令则需要微解码,将其分成若干条简单指令后才进行执行。目前,x86架构的最大优势在于单条指令功能强大,指令数少速度较快;而由于指令数少,高频率运行时也不需要很大的宽带占用往CPU传输指令。
x86的成功是因为英特尔不做服务器
x86之所以可以赢得市场主要原因在于其是一个十分开放的架构。IBM和SUN当年都是从芯片到服务器到系统一手包办的公司。而英特尔则是一个十分纯粹的芯片厂商,其业务仅与AMD等少数芯片生产者存在竞争,这就使得服务器厂商不用忌惮与之发生竞争关系。
SOC不弱 只怪三星太强
就像今天的手机市场,尽管三星也有很强的芯片设计制造能力,但是除了魅族以外,没有一家手机商使用三星的SOC。英特尔与全球大多数的设备生产商的合作在保证了英特尔出货批量的同时,将良品率提升并降低成本从而进一步推高了x86架构在市场的占有率。
x86的成功是因为英特尔不做服务器
单从性能来看,无论Power还是SPARC架构都可以击溃x86,可是最终能够赢下来的却偏偏是"最弱"的x86架构。这并非劣币淘汰良币,而是市场竞争的选择,根源上讲,x86的成功在于英特尔根本不碰服务器。
IBM很强,这一点在英特尔还只是个普通小公司的时候就已经是事实了。可是强大的IBM大包大揽,无论大型机、小型机、芯片还是系统全都亲自上阵,这样做在安全和稳定性方面确实有自己的优势,而在金融领域也确实让大型机受益匪浅,可这么做无异于断了自己单个产品的生路。试问,小型机领域除了IBM有哪家服务器生产厂商愿意用Power架构芯片呢?那不就是相当于给竞争对手IBM的小型机送钱吗?
英特尔的成功在于知道什么不该碰
而研发了SPARC架构的Sun也是犯了这个错误,Sun在最辉煌的时候不仅有SPARC和java,服务器、工作站、个人计算机等多种设备至今依然占据部分市场。可是SPARC架构想要发展必须依托于设备生产商的认可,可谁会买竞争对手的账呢?
克己复礼,天下归仁
而英特尔的战术就非常的明确,专精于x86架构芯片,绝不碰设备生产。因此不论设备生产商、软件开发者或者系统开发者都可以与不存在利益竞争关系的英特尔合作。受益于此,x86架构的兼容性也越发强大,生态体系越发完善,这才成就了现如今市场占有率超过90%的一家独大局面,英特尔也借助x86架构一跃成为全球顶级的芯片提供商。
谷歌吃下了摩托罗拉 却赔的血本无归
其他领域,正面典型如高通,专注芯片研发甚至连生产厂都不建,依靠专利和技术就成为顶级科技企业;反面如一心想推安卓的谷歌,125亿美元收购摩托罗拉,三年后以29亿美元卖给联想;微软50亿美元收购诺基亚欲在移动端推广Windows系统,可如今无奈诺基亚改投安卓旗下。
克己复礼,天下归仁,孔子的话用在现如今的市场之中依然适用。Power和SPARC架构在战略上就已经决定了其必然会成为小众化的产物,而英特尔的x86架构战略则无比清晰,毕竟自己的产品永远不可能让竞争对手买单。
英特尔酷睿i系处理器第一代有Nehalem架构和Westmere架构都属于Nehalem架构;第二代是SandyBridge架构;第三代是IvyBridge架构也属于SandyBridge架构;第四代是Haswell架构;第五代是Broadwell架构;第六代是Skylake架构。
intel目前两个架构,
ia32,我们也叫做x86,i386,所有志强,酷睿,奔腾,赛扬,atom都是这个架构;
ia64,隶属于wliw架构,只有安腾系列,目前已经停止研发;
补充,我们所谓的64位,实际上是amd发明的,在x86的架构上扩展到64位,也叫做x86_64,或者amd64,
Intel Haswell是Intel目前正在研发的微处理器架构,由Intel的俄勒冈团队负责研发,用以取代目前的Intel Ivy Bridge和Intel Sandy Bridge。和Ivy Bridge一样,采用22纳米制程根据Intel的“Tick-Tock”策略和产品路线图,基于Intel Haswell微架构的处理器将于2013年3月至6月之间发布。Intel曾于2011年的IDF上展示出基于Haswell微架构的芯片。
沿袭自Intel Ivy Bridge/Intel Sandy Bridge的特性
14级管线(从Intel Core微架构开始一直沿用至今);
除了部分极致性能/服务器平台以外,所有处理器型号均融合Intel HD Graphics显示核心。
已确认的新特性
制作工艺/制程
更成熟的22纳米制程;
更成熟的3D-三栅极晶体管;
多核心
主流级处理器产品全线均为原生四核心;
高速缓存
每核心拥有独立的64KB的L1高速缓存(32KB数据高速缓存+32KB指令高速缓存);每核心拥有独立的256KB L2高速缓存;所有核心可共享最高32MB的L3高速缓存
新的处理器高速缓存设计;
指令集
AVX2指令集(或称Haswell新指令集,包括矢量聚集散射、比特处理以及对FMA3的支持)
改善AES-IN指令的运行性能;
输出输入总线、处理器插座、存储器界面、芯片组
处理器内部仍然使用QPI总线,单向数据传送性能有48GT/s、52GT/s、64GT/s乃至80GT/s等四种规格,较低级型号的处理器在芯片组和处理器之间仍然采用DMI总线,单向数据传送性能有25GT/s和50GT/s两种规格。
新处理器插座:桌面版本的是LGA 1150,流动版本的是rPGA 947和BGA 1364。]Intel明确表示Intel Haswell将不会向下兼容于现有的Intel处理器平台。
原生支持双通道DDR3-1600;企业级的Haswell-EP/EX核心还会支持八通道DDR4;
新的8系列芯片组:
支持USB30并最多提供6个连接端口;
支持SATA 60Gb/s并提供最多6个连接端口;
优化软盘数据传送性能,提高数据访问和响应能力,特别是固态硬盘;
优化Intel智能响应技术及其支持驱动程序;
为固态硬盘组建的磁盘阵列提供完整的TRIM支持;
Intel Lake Tiny技术改善固态硬盘和机械硬盘混合组合的传送性能;
采用32纳米制程;
将于2013年第二季度上市,而且Intel明确指出基于Intel Haswell微架构的处理器会像Intel Sandy Bridge微架构的一样,不会向下兼容于旧有的芯片组。
自带显示核心
集成显示核心将支持 DirectX 111以及 OpenGL 32。继续强化3D图形处理性能,支持HDMI、DisplayPort、DVI、VGA连接端口标准;支持三屏显示信号独立输出;
新的Intel HD Graphics有三种不同版本的显示核心,代号分别为GT1、GT2和GT3。GT1拥有6个运行单元以及1组纹理单元,定位入门级;GT2拥有20个运行单元和2组纹理单元,定位主流级;最高级的GT3拥有40个运行单元和4租纹理单元,但仅用于移动平台。而现任的Intel Ivy Bridge的集成显示核心最多只有16个运行单元,不过,显示核心的架构仍然是一样的,由于在架构、制程不变的情形下大幅提升显示核心的规模和规格,使自带显示核心的Intel Haswell微架构的处理器的发热量急升,桌面型版本可以突破100瓦,行动版本更达57瓦。
电源管理
处理器芯片将自带完整的电压调节模块,Intel又一次把主板上的组件集成至处理器上,[19]此举可令主板的供电设计变得简单,降低主板厂商的制造主板的制造成本。
新的高级电源管理技术;
流动版本的处理器将有热设计功耗为25瓦、37瓦、47瓦以及57瓦的型号[7];而桌面版本的则有热设计功耗为35瓦、45瓦、55瓦、65瓦、77瓦、95瓦以及极致性能(包括高级服务器平台的)高达100瓦以上TDP的型号,最高达到了Haswell-EP/EX的160瓦,最大通过电流190安培,不过有消息指出,由于增大的显示核心,主流级和性能级桌面版本处理器的热设计功耗有可能上扬至105瓦;除了移动平台、桌面平台以及服务器平台以外,Intel还专门为超极致笔电设计了TDP只有15W的版本,而且还将采用多芯片封装于同一芯片上,类似于Intel Westmere的设计,不同的是这次是将芯片组和处理器集成到一块处理器基板上。
其它
Intel Transactional Synchronization Extensions (TSX,交易同步扩展)。
0条评论