AMD二代霄龙实测:双路128核心256线程无情碾压

AMD二代霄龙实测:双路128核心256线程无情碾压,第1张

近日,AMD正式发布了第二代EPYC霄龙骁龙处理器,为数据中心市场奉上一道大餐,规格参数遥遥领先,生态建设也是欣欣向荣。那么实际性能到底如何呢?AnandTech有幸进行了一番实测,一起来瞻仰瞻仰。

二代霄龙的规格无疑是相当炫目的,也没有任何敌手:7nm全新工艺、Zen 2全新架构、Chiplet小芯片设计、最多64核心128线程、最大256MB三级缓存、首发支持PCIe 40并有128条通道、单路最大4TB DDR4-3200内存、18GT/s高速低延迟第二代Infinity Fabric互连总线、SME安全内存加密、SEV安全加密虚拟化……

AnandTech拿到的是 旗舰型号霄龙7742,64核心128线程,基准频率225GHz,最高加速340GHz,三级缓存256MB,热设计功耗225W,价格为6950美元。

Intel方面目前最顶级的是 至强铂金8280/8280M ,14nm工艺,28核心56线程,基准频率27GHz,最高加速40GHz,三级缓存385MB,热设计功耗205W,价格10009/13012美元。

其实,Intel也有56核心112线程的至强铂金9282,但采用了LGA封装,整合在主板上,热设计功耗高达400W,价格更是据说要五六万美元。

就在二代霄龙发布前,Intel刚刚宣布了56核心112线程的LGA独立封装新品,但尚未正式发布,具体规格也没有公布,而且即便如此核心数量上也仍处于劣势,价格怎么也得两三万美元。

二代霄龙双路产品线

二代霄龙VS二代可扩展至强

二代霄龙单路产品线

实际测试中用了两颗霄龙7742,组成双路共128核心256线程,搭配主板是一块参考设计板子,内存是美光的DDR4-3200 512GB(32GB×16),硬盘启动盘是三星MZ7LM240、数据盘是美光9300 384TB,电源1200W。

同时还有 初代霄龙旗舰7601 ,32核心64线程,最高频率22-32GHz,三级缓存64MB,热设计功耗180W,也搭配16条32GB内存。

Intel方面参战一个是刚才说的 至强铂金8280 ,另一个是初代可扩展 至强铂金8176 ,也是28核心56线程,频率21-38GHz,三级缓存385MB,热设计功耗165W,价格8725美元。

有时候还会加入 至强E5-2699 v4 ,Broadwell四代酷睿同架构,14nm工艺,22核心44线程,频率22-36GHz,三级缓存55MB,热设计功耗145W,价格4115美元。

由于服务器的测试项目都比较专业、复杂,我们这里不做过多展开,看看对比差异就好。

另外,霄龙的内存延迟问题由于比较复杂,后续将单独展开介绍。

SPEC CPU2006单线程测试中,霄龙7742、7601单个核心可以分别最高加速到规定的34GHz、32GHz,至强8176也能如约达到38GHz,但无法获得至强8280的数据,如果能达到4GHz则性能可比至强8176高出大约3-5%。

霄龙7742的单线程性能比前代霄龙7601几乎每个项目中都有明显提升,最多达到了36%,平均也有18%。如果排除一个不变、一个倒退1%,其他项目平均提升幅度达22%。

霄龙7742对比至强8176则是有高有低,最好的领先28%,最差的落后39%,平均落后7%,如果对比至强8280可能落后10%左右。

另外要注意,GCC编译器的版本非常重要,越新越好,GCC 83相比于GCC 74霄龙7742的性能略有提升,456hmmer甚至翻了一番。

SPEC CPU2006多线程测试中,霄龙7742相比霄龙7601核心数翻番、频率更高,领先幅度最高达到了恐怖的153%,平均也有109%,翻了一番还多。

霄龙7742对比至强8176更是碾压一般的存在,最多领先188%,最少领先36%,平均高达121%!即便是对至强8280也能领先超过110%。

在部分测试中比如libquantum,霄龙7742可以所有核心线程都跑到32GHz,而在另一些测试比如h264ref则都是25GHz。

7-Zip压缩测试中,霄龙7742领先霄龙7601 78%,领先至强8176 54% ,解压测试中分别领先127倍、 151倍

Java Max-jOPS测试中,霄龙7742领先霄龙7601 60%,领先至强8280 38-48%

如果每个节点四个Java虚拟机,官方数据提供的霄龙7742性能可领先联想系统实测的至强8280 73%。

Java Critical-jOPS测试中,大页(huge pages)的话霄龙7742领先至强8176 33% ,小页(small pages)则是可怕的 257倍

按照两家官方数据,如果为虚拟机配置更大内存,霄龙7742可领先 66%

NAMD高性能计算测试,至强8280终于扳回一局,但即便是开启AVX-512指令集,也只能领先霄龙7742 2%,否则的话霄龙7742就能领先 43% ,而对比霄龙7601则提升了71%。

虽然因为时间关系,本次测试并不全面深入,尤其是缺乏最高负载的测试,但是 很明显可以看出二代霄龙的强大优势,相比对手性能超出50-100%,而价格低了40%,无论性能、性价比、能耗比都无情碾压。

更何况,二代霄龙还有更新的工艺、更多的核心、更多的内存通道和容量、更多的PCIe通道和首发的PCIe 40。

这也难怪众多软硬件企业巨头都纷纷力捧AMD,也难怪AMD提出了数据中心市场份额要达到两位数的目标(目前为34%)。

AnandTech也是对二代霄龙赞不绝口,认为AMD达成了精彩绝伦(stellar)的成就,值得热烈鼓掌。

AMD后续还有Zen 3、Zen 4架构按期推进,Intel则会在明年推出10nm Ice Lake新工艺新架构的新至强,号称IPC提升18%,也支持八通道内存,核心数几乎肯定要多于56个,但不知道是否也会采用chiplet小芯片设计,频率和功耗又会如何。

深度学习起源于神经网络,但现在已超越了这个框架。至今已有数种深度学习框架,如深度神经网络、卷积神经网络和深度置信网络和递归神经网络等,已被应用计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度学习的动机在于建立可以模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像、文本和声音等。深度学习通过学习一种深层非线性网络结构,只需简单的网络结构即可实现复杂函数的逼近,并展现了强大的从大量无标注样本集中学习数据集本质特征的能力。深度学习能够获得可更好地表示数据的特征,同时由于模型的层次深(通常有5层、6层,甚至10多层的隐层节点,百度“深”的好处是可以控制隐层节点的数目为输入节点数目的多项式倍而非多达指数倍)、表达能力强,因此有能力表示大规模数据。

蓝海大脑作为深度学习服务器的专业厂商,建议您选择深度学习服务器时需要注意以下几点:

1深度学习需要大量的并行计算资源,而且动辄计算几天甚至数周,而英伟达NVIDIA、英特尔Intel、AMD 显卡(GPU)恰好适合这种工作,提供几十上百倍的加速,性能强劲的GPU能在几个小时内完成原本CPU需要数月完成的任务,所以目前深度学习乃至于机器学习领域已经全面转向GPU架构,使用GPU完成训练任务。

2如今即使使用GPU的深度学习服务器也要持续数天乃至数月(取决于数据规模和深度学习网络模型),需要使用单独的设备保障,保证训练任务能够7x24小时长期稳定运行。

3独立的深度学习工作站(服务器)可以方便实现实验室计算资源共享,多用户可以在个人电脑编写程序,远程访问到深度学习服务器上排队使用计算资源,减少购买设备的开支并且避免了在本地计算机配置复杂的软件环境。

蓝海大脑通过多年的努力,攻克了各项性能指标、外观结构设计和产业化生产等关键技术问题,成功研制出蓝海大脑深度学习水冷工作站 HD210 系列。该产品图形处理速度快,支持 GPU 卡热插拔,具有高性价比,低噪音等特点,外形美观,满足了人工智能企业对图形、视频等信息的强大计算处理技术的需求。更好地为深度学习训练服务。

型号 蓝海大脑深度学习服务器

英特尔

处理器 Intel Xeon Gold 6240R 24C/48T,24GHz,3575MB,DDR4 2933,Turbo,HT,165W1TB

Intel Xeon Gold 6258R 28C/56T,27GHz,3855MB,DDR4 2933,Turbo,HT,205W1TB

Intel Xeon W-3265 24C/48T 27GHz 33MB 205W DDR4 2933 1TB

Intel Xeon Platinum 8280 28C/56T 27GHz 385MB,DDR4 2933,Turbo,HT 205W 1TB

Intel Xeon Platinum 9242 48C/96T 38GHz 715MB L2,DDR4 3200,HT 350W 1TB

Intel Xeon Platinum 9282 56C/112T 38GHz 715MB L2,DDR4 3200,HT 400W 1TB

AMD

处理器 AMD锐龙Threadripper Pro 3945WX 40GHz/12核/64M/3200/280W

AMD锐龙Threadripper Pro 3955WX 39GHz/16核/64M/3200/280W

AMD锐龙Threadripper Pro 3975WX 35GHz/32核/128M/3200/280W

AMD锐龙Threadripper Pro 3995WX 27GHz/64核/256M/3200/280W

AMD锐龙Threadripper Pro 5945WX 41G 12核/64M/3200/280W

AMD锐龙Threadripper Pro 5955WX 40G 16核/64M/3200/280W

AMD锐龙Threadripper Pro 5965WX 38G 24核/128M/3200/280W

AMD锐龙Threadripper Pro 5975WX 36G 32核/128M/3200/280W

AMD锐龙Threadripper Pro 5995WX 27G 64核/256M/3200/280W

显卡 NVIDIA A100×4, NVIDIA GV100×4

NVIDIA RTX 3090×4, NVIDIA RTX 3090TI×4,

NVIDIA RTX 8000×4, NVIDIA RTX A6000×4,

NVIDIA Quadro P2000×4,NVIDIA Quadro P2200×4

硬盘 NVMe2 SSD: 512GB,1TB; M2 PCIe - Solid State Drive (SSD),

SATA SSD: 1024TB, 2048TB, 5120TB

SAS:10000rpm&15000rpm,600GB,12TGB,18TB

HDD : 1TB,2TB,4TB,6TB,10TB

外形规格 立式机箱

210尺寸mm(高深宽) : 726 x 616 x 266

210A尺寸mm(高深宽) : 666 x 626 x 290

210B尺寸mm(高深宽) : 697 x 692 x 306

声卡:71通道田声卡

机柜安装 : 前置机柜面板或倒轨(可选)

电源 功率 : 1300W×2; 2000W×1

软件环境 可预装 CUDA、Driver、Cudnn、NCCL、TensorRT、Python、Opencv 等底层加速库、选装 Tensorflow、Caffe、Pytorch、MXnet 等深度学习框架。

前置接口 USB32 GEN2 Type-C×4

指承灯电和硬盘LED

灵动扩展区 : 29合1读卡器,eSATA,1394,PCIe接口(可选)

读卡器 : 9合1SD读卡器(可选)

模拟音频 : 立体声、麦克风

后置接口 PS2接口 : 可选

串行接口 : 可选

USB32 GEN2 Type-C×2

网络接口 : 双万兆 (RJ45)

IEEE 1394 : 扩展卡口

模拟音频 : 集成声卡 3口

连接线 专用屏蔽电缆(信号电缆和电源电缆)

资料袋 使用手册、光盘1张、机械键盘、鼠标、装箱单、产品合格证等

EPYC 7371 解决了AMD最大的弱点:频率。此前Intel 都占据着频率优势,而AMD占据着核心数优势。而全核Turbo 36Ghz,8核 Turbo 达到38GHz的EPYC 7371 则达到或者超过了目前公开的所有Intel Xeon。

EPYC 7371的数据:16C/32T, 31GHz基础频率,全核加速36GHz,8核加速频率达到 38GHz。缓存为64MB,每核心4MB。TDP达到200W,是目前TDP最高的EPYC 7001系列CPU。

单路Lscpu:

很长时间以来Intel 都推出过低核心数高缓存容量的产品,比如Xeon Gold 6134/6144 这种高频八核有着8MB L2 + 2425MB L3,单路3225MB,双路一同645MB。

而EPYC 7371 每路都有8MB L2 + 64MB L3。Intel 一般会拿高缓存容量当做高频SKU的卖点,不过现在变成了AMD明显优势。

intel是半导体行业和计算创新领域的全球领先厂商,正转型为一家以数据为中心的公司。英特尔与合作伙伴一起,推动人工智能、5G、智能边缘等转折性技术的创新和应用突破,驱动智能互联世界。

1968年,英特尔公司创立,罗伯特·诺伊斯任首席执行官,戈登·摩尔任首席运营官,安迪·格鲁夫随后加入。1971年,英特尔推出世界上第一款商用计算机微处理器4004。1981年,英特尔8088处理器成就了世界上第一台个人计算设备。

2001年,英特尔首次针对数据中心推出至强处理器品牌,为数字世界奠定坚实基础。2003年,英特尔推出迅驰,开创无线移动计算时代。英特尔在2016年世界五百强中排在第51位。2016年4月,英特尔推出处理器至强7290F采用了多达72个处理器核心,成为英特尔核心数最多的处理器。

2019年2月,英特尔推出至强铂金9282,它有112个线程,是线程最多的处理器。2017年,英特尔确立以数据为中心的转型战略,开拓3000亿美元的广阔市场机遇。

2018年6月,英特尔宣布接受CEO科再奇(Brian Krzanich)的辞职,首席财务官司睿博(Bob Swan)被任命为临时首席执行官,他于2019年1月31日成为正式CEO。2021年1月,英特尔宣布帕特·基辛格(Pat Gelsinger)成为新一任首席执行官,该任命自2021年2月15日起生效。

所属系列:至强处理器E5系列。

接口类型:LGA 2011-3。

核心数量:十四核。

生产工艺:14nm。

主频:200GHz。

英特尔是半导体行业和计算创新领域的全球领先厂商 ,创始于1968年。如今,英特尔正转型为一家以数据为中心的公司  。英特尔与合作伙伴一起,推动人工智能、5G、智能边缘等转折性技术的创新和应用突破  ,驱动智能互联世界。

1968年,英特尔公司创立,罗伯特·诺伊斯任首席执行官(CEO),戈登·摩尔任首席运营官(COO),安迪·格鲁夫随后加入  。1971年,英特尔推出世界上第一款商用计算机微处理器4004   。1981年,英特尔8088处理器成就了世界上第一台个人计算设备 。2001年,英特尔首次针对数据中心推出至强处理器品牌,为数字世界奠定坚实基础  。

2003年,英特尔推出迅驰,开创无线移动计算时代  。英特尔在2016年世界五百强中排在第51位 。2016年4月,英特尔推出处理器至强7290F采用了多达72个处理器核心,成为英特尔核心数最多的处理器 。2019年2月,英特尔推出至强铂金9282,它有112个线程,是线程最多的处理器。

2017年,英特尔确立以数据为中心的转型战略,开拓3000亿美元的广阔市场机遇   。2018年6月,英特尔宣布接受CEO科再奇(Brian Krzanich)的辞职,首席财务官司睿博(Bob Swan)被任命为临时首席执行官,他于2019年1月31日成为正式CEO。2021年1月,英特尔宣布帕特·基辛格(Pat Gelsinger)成为新一任首席执行官,该任命自2021年2月15日起生效  。

姓名:吕红霞;学号:20011210203;学院:通信工程学院

转自https://mpweixinqqcom/s/rULXlihPLhZCjnGhbMbCMg

嵌牛导读 本文讲解了多核心CPU和SoC芯片及其工作原理

嵌牛鼻子 多核CPU,进程,线程

嵌牛提问 现在的CPU或SoC基本都是在单芯片中集成多个CPU核心,形成通常所说的4核、8核或更多核的CPU或SoC芯片。为什么要采用这种方式?多个CPU 核心在一起是如何工作的?CPU核心越多就一定越好吗?

嵌牛正文

要说明什么是多核心CPU或SoC芯片,首先要从CPU核心(Core)说起。我们知道,CPU是中央处理器(Central Processing Unit)的英文简称,它具有控制和信息处理的能力,是电脑和智能设备的控制中枢。如果把传统CPU芯片中的封装和辅助电路(例如引脚的接口电路、电源电路和时钟电路等)排除在外,只保留完成控制和信息处理功能的核心电路,这部分电路就是 CPU核心 ,也简称CPU核。一个CPU核心基本上是一个完全独立的处理器,它可以从内部存储器中读取指令,并执行指令指定的控制和计算任务。

如果把 一个 CPU核心和相关辅助电路封装在一个芯片中,这个芯片就是传统的 单核心CPU芯片 ,简称单核CPU。如果把 多个 CPU核心和相关辅助电路封装在一个芯片中,这个芯片就是 多核心CPU芯片 ,简称多核CPU。当然,多核心CPU芯片会包含更多的辅助电路,以解决多个CPU核心之间的通信和协调问题。

如果在多核心CPU芯片中再集成一些其它功能部件和接口电路,就形成了完整的系统,那么这个芯片就变成了 多核心SoC芯片 了,简称多核SoC。在不严格区分的情况下,SoC也可以称为CPU。

发展多核心CPU的初心源于“人多力量大”的简单道理。从这个意义上来看,当初芯片集成度不高的时候,Inteli8086 CPU和i8087协处理器应该算是多核心CPU的雏形,是 多芯片协作形成了一个处理核心 ,需要采取许多技术来解决CPU和协处理器之间的合作、协作问题。

今天芯片的集成度很高,单芯片中集成几个甚至几十个CPU核心已不在话下,但还是不能满足超级计算的需要,需要在超级计算机中使用成千上万块高性能CPU芯片一起合作、协作,这可以看作 芯片内 多核心、 芯片外 多芯片的多核心CPU集群。

CPU芯片从外观上看是一块芯片,但打开封装来看,内部可能只有一块裸片(die),也可能是多块裸片封装在一起,称为 多芯片模组 (Multichip Module,简称 MCM ),如图2b所示。但从软件角度来看,封装形式无关紧要,无论是芯片内还是芯片外,CPU核心多少才是最重要的,它们决定着系统的并行运算和处理能力,它们的主频频率和核心之间通信方式决定了系统的处理速度。

另外,今天的桌面计算机CPU、手机SoC中还集成了许多图形处理器(GPU)核心、人工智能处理器(APU)核心等,这些是否也应该算作多核心CPU和SoC中的“核心”呢?我觉得从广义角度上应该算吧。

因此,要回顾多核心CPU的发展,大致可以分为 1 雏形期; 2 单芯片单核心; 3 单芯片多核心; 4 单核心多芯片; 5 多核心多芯片几种情形。这些发展阶段不一定按照这个前后顺序,可能有交叉时期,也可能有前后颠倒的情形。第2和第3种情形一般是应用在桌面计算机、智能手机等移动终端上的CPU芯片,第4和第5种是应用在服务器和超级计算机上的CPU芯片。本文限于篇幅和主题集中的需要,主要探讨第3种 单芯片多核心 的情况,这种情况下的CPU是 单芯片多处理器 (Chip Multi Processors,简称 CMP )模式。

1971 ~2004年,单核心CPU一路独行 。Intel公司1971年推出全球首款CPU芯片i4004,直到2004年推出超线程的Pentium 4 CPU系列,期间共33年时间。在这期间,CPU芯片很好地沿着摩尔定律预示的规律发展,沿着集成度不断翻倍、主频不断提升、晶体管数量快速增加的道路前进,这是一条单核心CPU不断迭代升级的发展之路。

但是,当晶体管数量大幅增加导致功耗急剧增长,CPU芯片发热让人难以接受,CPU芯片可靠性也受到很大影响的时候,单核心CPU发展似乎到了穷途末路。摩尔定律的提出者 戈登摩尔 也依稀觉得“尺寸不断缩小”、“主频为王”这条路子即将走到尽头。2005年4月他曾公开表示,引领芯片行业接近40年的摩尔定律将在10~20年内失效。

其实,早在上世纪90年代末,就有许多业界人士呼吁用CMP技术实现的多核心CPU替代单线程单核心CPU。IBM、惠普、Sun等高端服务器厂商,更是相继推出了多核心服务器CPU。但是,由于服务器CPU芯片价格太高、应用面较窄,并未引起大众广泛关注。

2005年初AMD抢先推出了64位CPU芯片,并率先Intel发表声明保证其64位CPU的稳定性和兼容性,Intel才想起了利用“多核心”这一武器进行“帝国反击战”。2005年4月,Intel仓促推出简单封装的2核心Pentium D和Pentium4至尊版840。之后不久,AMD也发布了双核心皓龙(Opteron)和速龙(Athlon)CPU芯片[9]。

2006 年被认为是多核心CPU的元年 。这年7月23日,Intel基于酷睿(Core)架构的CPU发布。11月,Intel又推出了面向服务器、工作站和高端PC机的至强(Xeon)5300和酷睿2双核心和4核心至尊版系列CPU。与上一代台式机CPU相比,酷睿2双核心CPU在性能方面提高40%,功耗反而降低40%。

作为对Intel的回应,7月24日,AMD宣布对双核Athlon64 X2处理器进行大降价。两大CPU巨头在宣传多核心CPU时,都会强调其节能效果。Intel发布的低电压版4核心至强CPU功耗仅为50瓦。而AMD的“Barcelona”4核心CPU的功耗也没超过95瓦。在Intel高级副总裁Pat Gelsinger看来,摩尔定律还是有生命力的,因为“CPU从单核心到双核心,再到多核心的发展,可能是摩尔定律问世以来,CPU芯片性能提升最快的时期” [9]。

CPU 技术发展要比软件技术发展更快 ,软件对多核心CPU的支持相对滞后。如果没有操作系统的支持,多核心CPU的性能提升优势不能发挥出来。同样运行Win7的情况下,4核心CPU和8核心CPU所带来的差异化体验并不明显,导致这种情况的原因是Win7根本没有对8核心CPU进行相应的优化。而在Win10出来后,8核心CPU所带来的体验速度就明显要比4核心处理器快很多,这源于微软在Win10上对多核心CPU的支持做了优化。而且微软还将在Win10上针对多核心CPU做进一步适配优化。

目前 核心最多的服务器CPU 有Intel至强铂金9282,56核心112线程,引线焊球多达5903个,估计售价约4万美元;AMD霄龙 7H12,64核心128线程,散热设计功耗280W。这两款CPU都需要采用液冷散热。 核心最多的台式机CPU 有Intel酷睿i97980XE至尊版,18核心36线程,散热设计功耗165W,售价1999美元;AMD的Ryzen9 5950X,16核心32线程,散热设计功耗105W,售价6049元。 核心最多的手机SoC 有Apple M1、麒麟9000、高通骁龙 888等。多核心CPU或者多核心SoC似乎成为一种潮流,但是不是核心越多CPU就越好呢?在不考虑其它因素影响,单从技术和集成度考虑的话,有人甚至预测到2050年,人们可能会用上1024个核心的CPU芯片。

我们先从任务处理的角度来看这个问题。如果把CPU处理的事情叫做任务的话,以前的CPU只有一个核心,CPU只会“一心一用”地处理一个任务,干完一件事再接着干下一件事。专业上称之为 串行单任务处理 。这在DOS操作系统的时代是合适的,这个时期对CPU的追求只有一条,那就是处理速度要尽可能地快。在Windows操作系统出现后,出现了多任务的处理需求,要求CPU可以“一心多用”,同时干多件事情。专业上称之为 分时多任务处理 。这个时期对CPU的追求 一是 处理速度要尽可能地快, 二是 同时可处理的任务尽可能地多。其实这种“一心多用”的处理方法是把时间分配给了多个任务,从宏观上看CPU处理的任务多了,但从某项任务来看CPU对该项任务的处理速度变慢了。

要实现CPU处理的任务更多、处理速度更快,人们自然想到了在芯片中集成多个CPU核心,采用“多心多用”的方式处理事务,因而就出现了多核心CPU的需求,而这种需求在服务器CPU应用方面显得尤为迫切。

我们再从提高CPU时钟频率,加快处理速度的角度来看这个问题。无论是“一心一用”、“一心多用”、还是“多心多用”,只要提高了CPU的时钟频率,CPU的处理速度都会加快。如论是单任务还是多任务,就会在更短时间完成任务。因此,CPU发展的历史就是随着芯片技术的进步,CPU的时钟频率不断提升的历史,从早期的MHz级别不断提升到目前的GHz级别,大约提升了1000倍左右。无论是单核心还是多核心,CPU时钟频率是人们选用CPU芯片的重要指标。

过去很长一段时间里,随着Intel和AMD CPU速度越来越快,x86操作系统上的软件的性能和速度自然会不断提高,系统整机厂家只要对现有软件作轻微设置就能坐享电脑系统整体性能提升的好处。

但是随着芯片工艺沿着摩尔定律发展,CPU集成度提高、晶体管密度加大,时钟频率提升,直接导致CPU芯片的功率不断增大,散热问题成为一个无法逾越的障碍。据测算,CPU主频每增加1GHz,功耗将上升25瓦,而在芯片功耗超过150瓦后,现有的风冷散热将无法满足要求。2003年前后Intel推出的主频为34GHz的Pentium4至尊版CPU芯片,最高功耗已达135瓦,有人给它送了一个“电炉”的绰号,更有好事者用它来玩煎蛋的游戏。现在的服务器CPU芯片Xeon W-3175标称功耗为255W,默认频率实测能达到380W,超频的话甚至会突破500W,必须采用高端水冷系统来降温。

所以,功耗极限制约着CPU频率的提升。下图是CPU功率密度随时间的变化趋势图,IntelPentium之后的CPU芯片,由于晶体管密度和时钟频率提升,CPU芯片的功率密度陡然上升,CPU产生的热量将会超过太阳表面。

综上所述,追求多任务处理功能,追求处理速度提升是CPU芯片设计的两大目标。以提升CPU时钟频率而加快处理速度又受到CPU功耗极限的制约,多核心CPU芯片成为解决上述矛盾的必由之路。目前,多核心CPU和SoC已成为处理器芯片发展的主流。

与单核心CPU相比,多核心CPU在体系结构、软件、功耗和安全性设计等方面面临着巨大的挑战,但也蕴含着巨大的潜能。本文参考了后附的参考资料1,对多核心CPU用到的技术作如下简单介绍。

1 超线程技术

一个传统CPU核心只有一个运算处理单元(Processing Unit,简称PU)和一个架构状态单元(Architectual State,简称AS),在同一时间只能处理一个软件线程(Thread)。采用了 超线程 (Hyper-Threading,简称 HT )技术的CPU核心中包含一个PU和两个AS,两个AS共用这个PU。软件在CPU核心上运行时,AS与软件线程对接,并把线程的任务分配到PU中的相关单元中。所以,两个AS就可以处理两个软件线程。

用生产车间打个比方,PU是生产部门,有几台机床用于生产;AS是跟单员,他同时只能跟一个任务订单;软件线程好比是任务订单。如果生产车间只有一个AS时,这个车间同时只能处理一个任务订单,PU的有些机床有事干,有些机床可能无事干而闲置。如果有两个AS时,就能处理两个任务订单,并把任务分配到不同的机床上去完成。

所以,具有超线程的CPU核心的集成度增加量不大,但有两个AS后使它看起来像两个逻辑的CPU核心,就可以同时处理两个软件线程,大约可以提高40%的处理能力。所以,我们经常可以看到CPU芯片广告,说某多核心CPU芯片是N个核心,2×N个线程,就是采用了超线程带来的好处。否则,如果没有采用超线程技术的话,多核心CPU芯片参数就只能写成N个核心,N个线程。下图给出了2核心CPU无超线程和有超线程的示意图。

2 核心结构研究

多核心CPU的结构分成 同构 (homogeneous)多核和 异构 (heterogeneous)多核两类,同构多核是指芯片内多个CPU核心的结构是相同的,而异构多核是指芯片内多个CPU核心的结构各不相同。面对不同的应用场景,研究核心结构的实现方式对CPU整体性能至关重要。核心本身的结构,关系到整个芯片的面积、功耗和性能。怎样继承和发展传统CPU的成果,也直接影响多核的性能和实现周期。同时,核心所用的指令系统对系统的实现也是很重要的,多核心采用相同的指令系统还是不同的指令系统,能否运行操作系统等,也是设计者要研究的重要问题。

3Cache 设计技术

CPU和主存储器之间的速度差距对多核心CPU来说是个突出的矛盾,因此必须使用多级Cache来缓解。可分为共享一级Cache、共享二级Cache和共享主存三种方式。多核心CPU一般采用共享二级Cache的结构,即每个CPU核心拥有私有的一级Cache,并且所有CPU核心共享二级Cache。

Cache本身的体系结构设计直接关系到系统整体性能。但是在多核心CPU中,共享Cache或独有Cache孰优孰劣、是否在片上建立多级Cache、以及建立几级Cache等,对整个芯片尺寸、功耗、布局、性能以及运行效率等都有很大的影响,需要认真研究和慎重对待。同时还要考虑多级Cache引发的一致性问题。

4 核心间通信技术

多核心CPU的各核心同时执行程序,有时需要在核心之间进行数据共享与同步,因此硬件结构必须支持CPU核心间的通信。高效通信机制是多核心CPU高性能的重要保障,比较主流的片上高效通信机制有两种, 一种 是基于总线共享的Cache结构,另 一种 是基于片上的互连结构。

总线共享Cache结构 是指每个CPU核心拥有共享的二级或三级Cache,用于保存比较常用的数据,并通过核心间的连接总线进行通信。它的优点是结构简单,通信速度高,缺点是基于总线的结构可扩展性较差。

片上互连的结构 是指每个CPU核心具有独立的处理单元和Cache,各个CPU核心通过交叉开关电路或片上网络等方式连接在一起。各个CPU核心间通过消息进行通信。这种结构的优点是可扩展性好,数据带宽有保证,缺点是硬件结构复杂,且软件改动较大。

5 总线设计技术

传统CPU中,Cache不命中或访问存储器事件都会对CPU的执行效率产生负面影响,而总线接口单元(BIU)的工作效率会决定此影响的程度。在多核心CPU中,当多个CPU核心同时要求访问内存,或多个CPU核心内私有Cache同时出现Cache不命中事件时,BIU对这些访问请求的仲裁机制效率,以及对外存储访问的转换机制的效率决定了多核心CPU系统的整体性能。

6 针对多核心的操作系统

对于多核心CPU,优化操作系统的 任务调度 是提升执行效率的关键。任务调度算法有 全局 队列调度和 局部 队列调度之分。前者是指操作系统维护一个全局的任务等待队列,当系统中有一个CPU核心空闲时,操作系统就从全局任务等待队列中选取就绪任务开始在此核心上执行。其优点是CPU核心利用率较高。后者是指操作系统为每个CPU核心维持一个局部的任务等待队列,当系统中有一个CPU核心空闲时,便从该核心的任务等待队列中选取就绪任务来执行。其优点是有利于提高CPU核心局部Cache命中率。大多数的多核心CPU操作系统采用的是基于全局队列的任务调度算法。

多核心CPU的中断处理和单核CPU有很大不同。CPU核心之间需要通过中断方式进行通信和协调,所以,CPU核心的本地中断控制器和仲裁各CPU核心之间中断的全局中断控制器需要封装在芯片内部。

另外,多核心CPU操作系统是一个多任务系统。由于不同任务会竞争共享资源,因此需要系统提供同步与互斥机制。而传统的用于单核心CPU的解决机制并不能满足多核心的情况,需要利用硬件提供的“读-修改-写”的原始操作或其他同步互斥机制来进行保证。

7 低功耗设计技术

每两三年CPU晶体管密度和功耗密度都会翻倍。低功耗和热优化设计已经成为多核心CPU设计的重点。需要同时在操作系统级、算法级、结构级、电路级等多个层次上考虑。每个层次上实现的效果不同,抽象层次越高,功耗和温度降低的效果越明显。

8 可靠性及安全性设计技术

在今天的信息社会,CPU的应用无处不在,对CPU的可靠性和安全性提出了更高要求。一方面多核心CPU复杂性提高,低电压、高主频、高温度对维持芯片安全运行带来挑战。另一方面,来自外界恶意攻击越来越多,手段越来越先进,高可靠、安全性设计技术越来越受到重视。

要弄明白多核心CPU是如何工作,要从应用程序、操作系统和CPU核心一起来分析。Windows操作系统作为任务调度者,按照 进程 (Process)和 线程 (Thread)为应用程序(Program)分配程序执行的硬件资源——CPU核心。一个进程对应一个应用程序,但是一个应用程序可以同时对应多个进程,通过多个进程来完成这个程序的执行。

应用程序未执行的时候是“静态”的,程序一旦被用户启动执行,就被操作系统接管变成“动态”的了。操作系统按照一个一个的 进程 管理着一批被用户启动了的程序。所以一个 进程 可以看作是一个“执行中的程序”,进程中包括了由操作系统分配给这个程序的基本资源。

一个进程又被细分为多个 线程 ,只有 线程 才能通过操作系统获得CPU核心的使用权限来让自己运行。只包含一个线程的进程可以叫做 单线程 程序,如果包含多个线程的进程,就可以叫做 多线程 程序了。

程序的线程要想获得CPU时间,必须进入操作系统的线程队列排队,经过操作系统调度之后,获得某个CPU核心的执行时间。操作系统对CPU核心的分派是非常复杂的过程,谁也无法用简短的文字说清楚具体详细的过程。以下按单核心CPU和4核心CPU两种情况来示意说明,程序进程的一个个线程,是如何分派到CPU核心上进行执行的[7]。

如果CPU是单核心的话,而且没有采取超线程技术,线程队列就只有1个,线程的选择也只有1个。如果采取了超线程技术,单核心就扩展成2个逻辑核心,线程队列就有2个,线程的选择就有2个。

如果站在多核心CPU角度看,每个CPU核心不断从操作系统收到要执行的软件线程,按照程序指令去完成规定任务,它可能要使用存储器、运算器、输入输出等部件,还要与其它CPU核心进行通信和传递数据,完成任务后还要报告。这些过程可看成一个一个的事件,都要通过事件中断处理部件来协调。多核心CPU的硬件调度处理模式大致有三种[8][18]。

1 对称多处理 (Symmetric Multi-Processing,简称 SMP )是目前使用最多的模式。在SMP模式下,一个操作系统同等地管理着各个CPU核心,并为各个核心分配工作负载。目前,大多数的操作系统都支持SMP模式,例如Linux,Windows,Vxworks等。另外,这种模式通常用在同构多核CPU上,因为异构多核CPU的结构不同,实现SMP比较复杂。

2 非对称多处理 (Asymmetric Multi-Processing,简称 AMP )是指多个核心相对独立地运行着不同的任务,每个核心可能运行不同的操作系统或裸机程序,或者不同版本的操作系统,但是有一个 主导 的CPU核心,用来控制其它 从属 的CPU核心以及整个系统。这种模式大多情况是异构多核心CPU。例如MCU + DSP,MCU +FPGA等。当然,同构多核心CPU也可以用。

3 边界多处理 (Bound Multi-processing,简称 BMP )与SMP基本相同,唯一区别是开发者可以定义某个任务仅在某个CPU核心上执行。

以上只是原理性的简单介绍,如果要了解多核心CPU的硬件调度原理和实现细节,恐怕只能打进Intel或AMD公司内部,才能了解更多技术详情。

多核心CPU中的核心是否越多越好,多CPU系统中的CPU芯片是否也越多越好?同样条件下是否具有超线程就比不具有超线程的好?回答是仁者见仁,智者见智。主要是要分清用在哪些场合,不能一概而论。

首先,多核心CPU或者多CPU之间需要同步和调度,这是以时间开销和算力损耗为代价的。如果CPU核心数或者CPU芯片数增加对系统处理能力提升是加分项的话,同步和调度带来的时间开销和算力损耗就是减分项。如果加分大于减分,而且成本增加可接受的话,则方案是可行的,否则就是不值当的方案。系统方案的评判除了要考虑CPU核心数量以外,还要考虑操作系统的差异、调度算法的不同,应用和驱动程序特点等因素,它们共同影响着系统的处理速度。以下是一些文章的讨论观点。

1 CPU核心越多,执行速度不一定越快。这里说的是“不一定”,因为一个线程可能要等待其它线程或进程完成后,才能轮到它继续执行。在它等待别的线程或进程的时候,即便排队队列轮到了它,它也只能放弃运行权利而继续等待,让队列后续线程超过它在CPU上执行。对它这个线程的程序来说是变慢了,但对系统来说,它起码它让开了位置让其它线程继续运行。多核心CPU肯定可以加速批量进程的执行,但对某个进程或者某类型的程序来说,未必是最快的。

2 智能手机要向用户提供优秀的使用体验,不仅仅是靠CPU性能一个方面。除了CPU核心数这个因素以外,还应包括决定通信质量的基带芯片的性能,再加上GPU的性能、游戏和VR应用性能等。系统综合性能好才是真的好。

3 联发科2015年推出10核心、3重架构等手机SoC芯片技术,后来又开发了10核心、4重架构helio X30,通过多重架构的方式来降低功耗。虽然联发科在多核心SoC方面的技术优势是毋庸置疑,但是高通在2015年底推出了仅有四个核心的骁龙820芯片,苹果手机较早使用的SoC芯片也不过是双核心而已。这些都表明,对于智能手机而言,多核心CPU或SoC的意义到底大不大,不可绝对断言,需要从系统角度分析才能得出正确结论。

结语 :多核心CPU和SoC是为了满足整机系统对处理能力和处理速度不断提升的需求,在单核心CPU沿着摩尔定律向前发展,受到了芯片功率极限阻碍时,人们不得不选择的一种突破路线。多核心CPU推动着操作系统的更新和升级,操作系统又决定了多核心CPU效能的发挥。多核心CPU技术的难点是多核心之间的信息传递、数据同步和任务调度等。系统性能优劣不能只考虑CPU核心数量,还要考虑操作系统、调度算法、应用和驱动程序等。多核心CPU技术和FinFET等3D芯片技术可以看作是延续摩尔定律生命的两大关键技术。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » AMD二代霄龙实测:双路128核心256线程无情碾压

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情