不了解服务器?一文教你告别小白
无论是当前的信息化 社会 还是即将到来的数字化 社会 ,互联网技术的发展颠覆了人们工作生活的方方面面,其给我们带来的便利也毋庸置疑。
另一方面,在日常工作生活中,我们也经常听到服务器这个词,但这个熟悉的名词却像个陌生人一样,从未在视野中出现过,这也使得不少朋友疑惑道,服务器究竟是什么东东?它又起到什么作用?
对此,本文也将以科普形式,向各位读者阐述服务器的基本概念、结构组成及市场现状,达到去”小白“目的。
服务器基本概念
按照解释,所谓服务器 ,指的是一种管理资源并为用户提供服务的计算机设备。从广义上来讲,服务器是指网络中能为其它机器提供某些服务的计算机系统;从狭义上来说,服务器特指某些高性能计算机,通过网络对外提供服务。
可能这个说法过于官方,简单来说,服务器就是在我们在上网时,对用户的每一次搜索、访问分析处理后,再回传给用户的这样一个平台。所以说,整个互联网,最离不开的,就是服务器。
同时,我们之所以不常见到服务器,是因为服务器大多在专门的机房或者数据中心托管,有严格的使用和散热规范。
在分类上,若按照体系架构来分的话,服务器主要可分为x86服务器和非x86服务器。其中,x86服务器凭借价格、扩展优势,成为中小企业和大型企业非核心应用的主要选择,同时,x86服务器也是当前市面的主流服务器。
非x86服务器指的是采用RISC或EPIC架构,采用UNIX和其它专用操作系统的服务器,其代表产品便是IBM的大型机、小型机,该类型服务器性能强劲、稳定性好,同时较封闭,是金融、电信等大行业核心系统的首选。
从形态上,服务器可分为塔式服务器、机架式服务器和刀片服务器。其中,塔式服务器个头与电脑主机接近,但比电脑主机稍大;机架式服务器采用统一标准生产,形态与交换机接近,刀片服务器形态则如其名字一样,可像刀子一样“插”入标准高度的服务器机箱内,每个机箱可以接入多个刀片单元。
服务器组成
若还觉得服务器比较抽象的话,可将其理解为超强的电脑。之所以这样比喻,是因为在硬件上,服务器的各组成部件与电脑几乎相同,都需要处理模块、内存模块、存储模块及网络模块。
不同于普通电脑,服务器的这几个模块的性能都远远高于电脑。以处理器为例,服务器所使用的处理器主要为英特尔的至强及至强可拓展系列,同时和AMD的EPYC系列,对应的电脑处理器则为酷睿、锐龙等。简单对比性能的话,从其核心数和售价便可大致感受下,以英特尔的处理器为例,电脑所用的酷睿X系列,最高达到18核心,而服务器所用的二代至强可拓展,核心数可达到56个,售价嘛,可自行对比。
同样,在内存上,配备32GB、64GB DDR4内存的电脑已经可以算是佼佼者,而服务器,动辄128GB、256GB起步,同时支持24个、48个DIMM插槽扩展,最大支持几个T的内存容量。
服务器市场现状
如同智能手机市场存在苹果、三星、华为、小米、OPPO、VIVO几个巨头一样,服务器市场也诞生了几个巨头。
根据IDC研究报告,全球服务器出货量前几的厂商分别为戴尔易安信、HPE/新华三,浪潮/浪潮商用机器、华为、联想、曙光及ODM厂商。
其中,戴尔易安信的PowerEdge系列服务器无论从出货量还是销售额上,都长期处于服务器市场前列;而HPE(惠普企业)的服务器主要由紫光与惠普子公司华三成立的合资公司新华三来运营。
浪潮/浪潮商用集团中,浪潮负责x86服务器的运营,其GPU服务器在中国市场占据半壁江山,浪潮商用集团为浪潮与IBM成立的合资公司,以研发、生产、销售支持POWER处理器、安腾处理器的浪潮K1高端UNIX服务器系统和基于开放Power技术的Linux服务器为主要业务;华为、联想则以基于x86架构的塔式、机架式服务器销售为主,曙光则聚焦于高性能计算领域。
在笔者看来,由于服务器为全网提供着计算资源,是整个IT的核心基础设施,未来,随着大数据、云计算、人工智能等技术发展,服务器市场仍大有可为。
目前相信很多小伙伴对联想ThinkSystem SR665服务器评测了解不多。然后下面小编也搜集了相关资料。希望大家看完能有所帮助。
联想ThinkSystem SR665是AMD EPYC第二代双插槽2U服务器,功能丰富,支持端到端PCIe Gen4支持。与其较小的1U兄弟SR635一样,它也支持多种存储配置选项,包括第4代U2 NVMe固态硬盘。作为AMD EPYC服务器,它有很多优势,包括更高的性能,更快的内存,更多的内存和PCIe第四代支持。该服务器非常适合推理、虚拟化、虚拟数据接口、高性能计算和超融合基础架构。AMD EPYC 7002为其竞争对手带来了许多优势。很快,它们往往会有更多的内核和线程,并带来更高的性能。它们支持更快、更多的DRAM,并支持PCIe第四代技术(本例中为端到端),这反过来又能带来巨大的性能提升。大量的内核也有助于节省某些许可模式的成本,从而提高单CPU双插槽系统或双CPU四插槽平台的性能。SR665充分利用了上述所有功能。具体来说,联想ThinkSystem SR665最高支持64核128线程CPU,核心速度高达37GHz,内存方面,SR665最高支持32个TruDDR4内存DIMM,8个内存通道,每个通道2个DIMM。每个通道安装1个DIMM(共8个DIMM),内存运行速度为3200 MHz。每个通道有2个内存(总共32个内存),内存运行速度为2933兆赫。服务器可以支持高达4TB的动态随机存取存储器。关于GPU,SR665最多可支持3个双宽或8个单宽GPU。
1、第一将SATA模式改成RAID模式;服务器电脑开机之后,我们反复按下“DEL”键,进入主板BIOS界面中,切换至“Advanced”。
2、将configureSATAas的选项更改为“RAID”。
3、主板SATA口有两个芯片,分别是SATA和sSATA,如果您硬盘是接到SATA接口上的,将SATA/sSATARAIDBootSelect的选项更改为“SATAController”,调整好之后按F4保存设置。
4、一般接两个硬盘就进入如下界面,我们按“CTRL+I”组合键,即可进入“RAID”设置界面。
5、选择1createRAIDVolume可以创建RAID磁盘阵列。
6、name是命名,可以默认,将RAIDLEVEL选项,比方说我们组建RAID1就将选项选择RAID1,如果要组建RAID0,就选择RAID0,最后选择CreateVolume,即可创建磁盘阵列。
EPYC 7371 解决了AMD最大的弱点:频率。此前Intel 都占据着频率优势,而AMD占据着核心数优势。而全核Turbo 36Ghz,8核 Turbo 达到38GHz的EPYC 7371 则达到或者超过了目前公开的所有Intel Xeon。
EPYC 7371的数据:16C/32T, 31GHz基础频率,全核加速36GHz,8核加速频率达到 38GHz。缓存为64MB,每核心4MB。TDP达到200W,是目前TDP最高的EPYC 7001系列CPU。
单路Lscpu:
很长时间以来Intel 都推出过低核心数高缓存容量的产品,比如Xeon Gold 6134/6144 这种高频八核有着8MB L2 + 2425MB L3,单路3225MB,双路一同645MB。
而EPYC 7371 每路都有8MB L2 + 64MB L3。Intel 一般会拿高缓存容量当做高频SKU的卖点,不过现在变成了AMD明显优势。
看起来似乎有强行把芯片设计和数据中心建设拉到一起尬聊的感觉,但世间也没有那么多的一见如故,一些有意义的讨论未尝不是从尬聊开始的。
就我个人而言,今年已经多次在关于数据中心的文章和(线上)分享中提到AMD:“从1月29日开始到2月6日,腾讯会议每天都在进行资源扩容,日均扩容云主机接近15万台,8天总共扩容超过10万台云主机,共涉及超百万核的计算资源投入,全部由腾讯云自研的服务器星星海提供支撑。”这款服务器基于AMD去年8月发布的代号Rome(罗马)的第二代EPYC处理器,最大的特点就是核多——双路配置再算上超线程,一台采用腾讯云定制版EPYC处理器的星星海服务器可以为云服务器提供多达180个核——也就是说,这100万核服务器资源,“只”需要不到6000台该款自研服务器即可满足。
腾讯云星星海SA2服务器采用2U高度结合类似远程散热片(remote heat-sink)的设计,配合6个60mm风扇,据称可以支持2个300W级别的CPU(AMD第二代EPYC处理器公开版本最高TDP为280W)
实际上,官方名称为AMD EPYC 7002系列的第二代EPYC处理器最多能提供64个核芯、128个线程,腾讯云定制版本选择了48核芯(96线程)而已。至少在CPU的核数(core count)上,AMD给Intel(英特尔,昵称“大英”)造成了很大的压力。上个月英特尔发布了代号为Cooper Lake的第三代至强可扩展处理器(Xeon Scalable Processor,XSP),主打四路和八路市场,四路配置可提供112核芯224线程,核数上堪与双路EPYC 7002系列抗衡,为10nm制程的Ice Lake争取时间。
摩尔定律难以延续的后果就是CPU的功耗持续攀升,第一代至强可扩展处理器(公开版)里TDP最高的205W,到第三代已是寻常,250W算是克制——毕竟要考虑四路的散热需求
话说上一次AMD搞得大英如此狼狈,还要追溯到本世纪初的64位路线之争。众所周知,英特尔是x86及其生态(特别是软件生态)的缔造者,属于“亲妈”级别,AMD充其量是个“后妈”。但是,x86几十年的发展史证明,“亲妈”未必就比“后妈”更了解孩子的发展潜力。也可以前一阵大火的剧集《隐秘的角落》为例,看完就会发现,对于朱朝阳的隐藏能力,后妈的认知似乎先于亲妈。
Cooper Lake:你看我还有机会吗?
简单的说,Intel建立发展x86生态,AMD坚定捍卫x86路线——不断改造作为生态核心的x86处理器,焕颜新生
盛衰无常:架构与制程的双簧
虽然已经在过去十年中逐渐沦为爱好者口中的“牙膏厂”,但在历史上,英特尔一直不乏创新精神。对待x86的态度可以算是这种精神的一个体现,起码在进入64位时代之前,英特尔其实不太瞧得上x86,总觉得这个娃太low——可能是亲妈更了解孕育过程中的种种先天不足吧——几次三番地在重大的转折点,想要“与时俱进”,重起炉灶,带给用户“船新体验”。反而是AMD屡屡在关键时刻出来捍卫x86,通过翻新加盖来维持其生命力。
64位是关键的转折点。上世纪九十年代末,还是32位的x86刚“插足”服务器市场不久,英特尔选择与惠普(HP)联手开发基于IA-64架构的Itanium(安腾)作为接班人,与已经64位了的RISC阵营大佬们对抗。然而,AMD认为x86还可以抢救一下,决定通过64位扩展来“续命”,并在2003年4月发布首款64位x86处理器Opteron,两年后又把x86(-64)带入多核时代。
此时,英特尔已经在IA-64的路上走了十多年。时过境迁,当初设定的目标并没有实现,而x86扩展到64位和多核之后,不仅软件和应用的生态系统得到了完整的继承,性能也完全可以一战。用户用脚投票,大英不得不从。
第二代EPYC处理器发布会上,Google出示2008年7月9日上线的其第100万台服务器的照片,追诉与AMD的革命友情……还是台四路服务器
英特尔痛定思痛,决定用架构和制程构筑双保险,在2007年提出了Tick-Tock(取自于时钟的“嘀-嗒”周期)量产模式,即先通过制程升级将芯片面积缩小,是为Tick;再基于操练纯熟的制程改用新的微架构,是为Tock。当时的英特尔工厂在技术和产能上都占据明显优势,只要架构上回到正轨,左右手组合拳一出,产量受限的AMD哪里支撑得住?在2008年推出Nehalem微架构之后,英特尔终于夺回主动权。
在英特尔施加的强大压力下,AMD在处理器架构上也犯了错误,2011年推出的Bulldozer(推土机)架构采用了即使现在看来也过于激进的模块化设计。随着2012年英特尔开启至强E5时代,AMD在节节失利后不得不退出服务器市场,上一个巅峰期彻底结束。
有道是:福兮祸所依,祸兮福所伏。先贤曾经曰过:纵有架构、制程双保险,奈何CEO是单点。2016年英特尔推出最后一代至强E5/E7(v4),这是英特尔首批采用14nm制程的服务器CPU,同时也宣告了Tick-Tock模式的终结,改用Process–Architecture–Optimization (制程-架构-优化)的三步走模式。
在这个可以简称为PAO的模式里,虽然仍是先制程、后架构的节奏,但新加入的优化不管是针对两者中的哪一个还是兼而有之,都起到了拉长制程换代周期的效果。第三代至强可扩展处理器已经是第四波采用14nm制程的服务器CPU,14nm后面的“+”都数不清楚有几个了——还好预计年底发布的Ice Lake将终止这个“土拨鼠之日”式的制程循环。
架构层面上,从代号Skylake的初代至强可扩展处理器开始,由环形总线改为6×6的2D-mesh,然后持续“优化”。在架构的角度,Mesh和环形总线都属于所谓传统的单片(Monolithic)式架构,优点是整体性好,涉及到I/O的性能比较有保证;缺点是对制程不太友好,随着规模的扩大,譬如核数和Cache的增加,良率上的挑战很大,高端产品的成本下不来,这对于追求高核数的云计算服务提供商显然不是个好消息。
至强E5/E7 v4的四环(2组双向环形总线)与至强SP的6×6 Mesh架构
关键时刻,又是沉寂多年的AMD挺身而出,接盘Tick-Tock,以自己的方式“维护”摩尔定律。
这个方式,就是模块化。
MCM:同构对等模块化的利与弊
先简单回顾一下AMD之前的模块化设计为什么会失败。 Bulldozer架构的模块化设计,建立在AMD对未来应用趋势的不靠谱假设上,即整数(Integer,INT)运算将占据绝对主导地位,结论是增加整数运算单元,减少浮点(Floating Point,FP)运算单元。 于是,Bulldozer架构很“鸡贼”的采用了两个(具有完整整数运算单元的)核芯共用一个浮点运算单元的模块化设计,两个模块就可以提供4个核芯(但只有2个浮点运算单元),6核以此类推。
模块化本身并没有错,Intel Nehalem的模块化设计就很成功。Bulldozer错在“拆东墙补西墙”,结果连补强都算不上
不用放马后炮,这也是一个妄揣用意(用户意志)的行为。即使是在AI大行其道的今天,第二代英特尔至强可扩展处理器已经支持INT8加速推理运算,也不能和通常意义上CPU的整数运算划等号。贸然押宝,错了当然怪不得别人。
不难看出,Bulldozer的模块化,与之前Intel Nehalem架构的模块化设计,只限于架构层面,并不是为制程考虑——CPU不论几个模块多少核,都是作为一个整体(die)来制造的,毕竟十年前制程还没到瓶颈。
然而,到了AMD以代号Naples的(第一代)EPYC处理器重返服务器市场的2017年,摩尔定律放缓的迹象已很明显。同样的14nm(可能还没有英特尔的先进)制程,AMD如何以更低的成本提供更多的核芯?
EPYC系列处理器基于AMD的Zen系列架构,从Zen、Zen+到Zen 2,以及规划中的Zen 3的发展路线,有点像前面提到的Tick-Tock:开发一个良好的基础然后交替演进,不断优化。
与先辈们不同,Zen系列的模块化明显侧重于解决制程面对的挑战,即芯片在物理上被切割为多个die(比较小的芯片更容易制造,良率有保证,有利于降低成本),通过Infinity Fabric(IF)互连为一个整体,所以每个die就是一个模块,但不一定是模块化设计的最小单位。
第一代EPYC处理器的4个die及Infinity Fabric示意
还是从初代EPYC处理器所采用的Zen架构说起。Zen确立了该系列计算单元模块化的最小单位CCX(Core Complex,核芯复合体),每个CCX包括4个Zen核芯(Core),以及8 MiB共享L3 Cache,每核芯2 MiB。
从AMD公开的示意图来看,各片(Slice)L3 Cache之间的连接方式像是full-mesh(全网状,即每两个点之间都有直接连接,无需跳转),CCX内部的跨核芯L3 Cache访问是一致的
Zen的CCD里除了2个CCX,还有2个DDR内存控制器(各对应1个内存通道),用于片上(die之间)互连的Infinity Fabric(IF On-Package,IFOP),而CPU之间互连的Infinity Fabric(IF Inter-Socket,IFIS)与对外的PCIe通道是复用的——这个知识点在后面会用到。
芯片层面的模块是CCD(Core Complex Die),包括2个CCX,共8个Core、4 MiB L2 Cache、16 MiB L3 Cache。官方名称为AMD EPYC 7001系列的第一代EPYC处理器只有CCD这一种(die层面的)模块,所以每个CCD除了2个CCX,还有大量I/O接口器件,包括DDR、Infinity Fabric/PCIe控制器,CCX占CCD面积的比例只比一半略多(56%)。
这个多芯片模块(multi-chip module,MCM)架构的代号为Zeppelin(齐柏林),四个这样的“复合型”CCD构成完整的第一代EPYC处理器,最多能提供32核芯、64 MiB L3 Cache,直接减少CCD的数量就会得到面向PC市场的高端(2×CCD)和主流产品(单CCD)。
按照AMD提供的数据:每个die的面积为213mm²(平方毫米),4个die的MCM封装总面积为852mm²,如果要用大型单一芯片来实现,面积可以缩小到777mm²,大约节省10%,但是制造和测试成本要提高约40%,完全32核的收益下降约17%、成本提高约70%。投入产出比当然非常划算,也变相的说出了大英的苦衷——可是,后者为什么还在坚持单片路线呢?
MCM这种完全对称的模块化方案,如果套用到数据中心领域,相当于一个园区,几栋建筑结构和功能完全一样,都包含了机房、变配电、柴发、冷站、办公和接待区域等。好处当然是彼此之间没有硬性依赖,每栋建筑都可以独立作为数据中心使用,照此复制就可成倍扩大规模;缺点是没有其他类型的建筑,而有些功能还是需要专门的建筑集中和分区管理的,譬如人员办公和统一接待……
如果一个数据中心园区只有黄框里这一种建筑(模块)……实际上,加上左边的66KV变电站,这里也只是整个园区的一角
况且,与绝大多数的数据中心园区不同,CPU对各模块之间的耦合度要求高得多,否则无法作为一个整体来运作,分工合作快速完成数据处理等任务。而这,正是MCM方案的局限性所在。
第一代EPYC的每个CCD都有“自己的”内存和I/O(主要是PCIe)通道,加上CCD之间的互连,每个CCD的外部I/O都很“重度”
多芯片(对称)设计、全“分布式”架构的特点是内存和I/O扩展能力与CCD数量同步,随着核芯数量的增加,内存和I/O的总“容量”(包括带宽)会增加,这当然是优点,但缺点也随之而来:
首先是局部性(locality)会降低I/O的性能,主要是跨CCD的内存访问时延(latency)明显上升。因为每组(2个)CCX都有自己的本地内存,如果要访问其他CCD上连接的内存,要额外花费很多时间,即所谓的NUMA(Non-Uniform Memory Access,非一致性内存访问)。虽然Zen的CCD上有足够多的IFOP,让4个CCD之间能组成全连接(full-mesh),无需经其他CCD跳转(类似于CCX内4个核芯之间的状况),但I/O路径毕竟变长了;如果要访问其他CPU(插槽)连接的内存,还要经过IFIS,时延会进一步上升。
CCD里的两个CCX也通过Infinity Fabric连接,同样会增加跨CCX的Cache访问时延
根据AMD提供的数据,不同内存访问的时延水平大致如下:
随着访问路径变长和复杂,时延以大约一半的比例增加,这个幅度还是很明显的。
同一个CCD里的内存访问没有明显差异,而跨CCD的内存访问,时延增加就很明显了
然后是PCIe,前面已经有图说明,Zen用于CPU之间互连的IFIS与PCIe通道是复用的,即单路(单CPU)的情况下全都用于PCIe通道,共有128个;双路(双CPU)的情况下每个CPU都要拿出一半来作为(两者之间的)IFIS,所以(对外的)PCIe通道数量仍然是128个,没有随着CPU数量的增加而增长。
简单归纳一下,Zen架构的问题是:核数越多,内存访问的一致性越差;CPU数量增加,外部I/O的扩展能力不变——NUMA引发的跨CPU访问时延增长问题还更严重。
单CPU就能提供128个PCIe 30通道原本是第一代EPYC处理器的一大优势,但双CPU仍然是这么多,就略显尴尬了
核数进一步增加的困难很大,不论是增加每个CCD的核数,还是增加CCD的数量,都要面临互连的复杂度问题,也会进一步恶化一致性。
说得更直白一些,就是Zen架构的扩展能力比较有限,难以支持更大的规模。
既然双路配置有利有弊,AMD又是时隔多年重返服务器市场,单路一度被认为是EPYC的突破口,譬如戴尔(Dell)在2018年初推出三款基于第一代EPYC的PowerEdge服务器,其中就有两款是单路。
1U的R6415和2U的R7415都是单路服务器
类似的情况在通常用不到那么多核及I/O扩展能力的PC市场体现得更为明显,在只需要一到两个CCD即可的情况下,消费者更多感受到的是低成本带来的高性价比,所以“AMD Yes!”的鼓噪主要来自个人用户,服务器市场在等待EPYC的进一步成熟。
只有1个die的Ryzen将Zen架构的缺点最小化,获得个人用户的喜爱也就不足为奇了
Chiplet:异构混合模块化的是与非
时隔两年之后,AMD推出基于Zen 2架构的第二代EPYC处理器,通过架构与制程一体优化,达到最高64核、256 MiB L3 Cache,分别是第一代EPYC的2倍和4倍,内存访问一致性和双路的扩展性也有不同程度的改善,终于获得了一众云服务提供商(CSP)的青睐。
Zen 2的整体设计思维是Zen的延续,但做了很多明显的改进,配合制程(部分)升级到7nm,突破了Zen和Zen+在规模扩展上的限制。
首先,Zen2架构延续了Zen/Zen+架构每个CCD有2个CCX、每个CCX有4个核芯共享L3 Cache的布局,但是每个核芯的L3 Cache增大一倍,来到4MiB,每个CCX有16 MiB L3 Cache,是Zen/Zen+架构的两倍。
CCD层面的主要变化是把DDR内存、对外的Infinity Fabric(IFOP/IFIS)和PCIe控制器等I/O器件剥离,以便于升级到7nm制程。AMD表示,第一代EPYC中,上述I/O器件占CCD芯片面积的比例达到44%,从制程提高到7nm中获益很小;而第二代EPYC的7nm CCD中,CPU和L3 Cache这些核心计算、存储器件的占比,高达86%,具有很好的经济性。
被从CCD中拿出来的DDR内存控制器、Infinity Fabric和PCIe控制器等I/O器件,组成了一个单独的I/O芯片,即I/O Die,简称IOD,仍然采用成熟的14nm工艺。
自左至右,分别是传统单片式、第一代EPYC的MCM、第二代EPYC的Chiplet三种架构的示意图
一个IOD居中,最多8个CCD围绕着它,AMD把这种做法称为Chiplet(小芯片)。
如果继续拿数据中心的模块化来强行类比,相当于把整个园区内的变电站、柴发、冷站、办公和接待区域都整合到一个建筑里,位于园区中央,周围是构造完全相同的一座座机房楼……你说,这样一个所有机房楼都离不开的建筑,该有多重要?
仅从布局看,和第二代EPYC处理器有点像的数据中心,但变电站在园区外,制冷也是分布式的(与4个机房模块在一起),中间的建筑并没有上面设想的那么重要
第一代EPYC处理器(Naples)与第二代EPYC处理器(Rome)的片上布局对比,后者是1个IOD + 8个CCD,共9个小芯片组成的混合多die设计
因为CCD的数量增加一倍,所以Rome的核数可以达到Naples的两倍;因为每个CCX/CPU核芯的L3 Cache容量也增加了一倍,所以Rome的L3 Cache总容量可以达到Naples的四倍。
14nm IOD + 7nm CCD的组合——因为不是全部升级到7nm,所以我更愿意称之为制程的“优化”——体现了更高的扩展性和灵活性,使第二代EPYC能够以较低的制造成本提供更丰富的产品组合,提高了市场竞争力。但是,事情并没有看起来这么简单,要了解产品的具体构成和预期的性能表现,您还需要继续往下看。
2019年8月,第二代EPYC正式发布后不久,AMD在Hot Chips大会上介绍了Zen 2产品的Chiplet设计。可能是之前有Zen+架构采用12nm制程的缘故吧,IOD的制程被写成了12nm,其他场合的官方材料都是14nm,所以我们还是以后者为准
今年2月IEEE的ISSCC(International Solid-State Circuits Conference,国际固态电路峰会)2020上,AMD更详细的介绍了Zen 2这一代产品的设计。结合前一幅图可以看到,第二代EPYC的IOD具有834亿晶体管,数量与同样采用14nm制程的英特尔Skylake/Cascade Lake相当——虽然两者的晶体管类型构成有很大差别,但可以作为一个参照,说明这个IOD自身的规模和复杂度。
从红框中的选项来看,EPYC 7302 CPU有4个CCD,每个CCX有2个核芯,可以选择各启用1个
IOD集中所有I/O器件的一个好处是,CPU能提供的内存通道数量与CCD的数量无关。E企实验室前一阵测试了基于第二代EPYC处理器的Dell PowerEdge R7525服务器,送测配置包括2个AMD EPYC 7302处理器,从PowerEdge R7525的BIOS设置中可以看到,这款16核的CPU有4个CCD(而不是8个),应该对应下图中右二的情形:
上方柱状图是AMD列出7+14nm Chiplet方案与假设的单片7nm方案相比,成本优势可以达到一半以上(64核没有假设,可能是指单片式很难制造);下方从左至右依次是8、6、4、2个CCD的布局,原则是尽可能的对称
虽然7302在EPYC 7002系列产品中定位偏低端,只有16个核芯,用4个CCX就能满足,但是它拥有128MiB的L3 Cache,这又需要8个CCX才可以。因此,7302的每个CCX只有2个核芯,享受原本属于4个核芯的16 MiB L3 Cache。
从EPYC 7002系列的配置表中可以看出,7302下面72开头的产品才是真正的低端,譬如同样是16核的7282,不仅L3 Cache容量只有7302的一半(倒是符合每核4 MiB的“标配”),而且仅支持4个内存通道,也是7302等产品的一半——说明其CCD数量是2个,就像前一幅图右下方所示的情况——4个内存通道配置的运行频率也低,只有DDR4-2667,与标准的8通道DDR4-3200相比,理论内存带宽仅为40%多
Dell PowerEdge R7525用户手册里对内存条的安装位置有很详细的说明,毕竟插满8个内存通道和只用4个内存通道,性能差距太大
IOD集中所有I/O对性能也有好处,因为内存控制器集中在一个芯片上,有助于降低内存访问的局部性(NUMA)。不过,AMD在很多场合放出的示意图很有误导性,容易让人以为,对Rome(下图右侧)来说,同一个CPU上的内存访问是不存在NUMA的。
从上面的数据来看,第二代EPYC处理器的“本地”内存访问时延有所增长,毕竟内存控制器和CCX不在一个die上了;收益是跨CPU内存访问的时延有所下降,总体更为平均
好在,稍微详细一点的架构示意图表明,一个EPYC 7002系列CPU内部的内存访问仍然会有“远近”之分:
Dell PowerEdge R7525的BIOS配置中,可以在L3 Cache的NUMA设置为Enabled之后,看到每个CPU内部其实还是可以像EPYC 7001系列一样,分成4个不同的NUMA区域
这时学术性会议的价值就体现出来。AMD在ISSCC 2020上的演讲表明,完整版的Server IOD要承载的功能太多,已经有太多的晶体管,中间都被Infinity Fabric和PCIe相关的I/O所占据,内存控制器只能两两一组布置在IOD的四角,每2个CCD就近共享2个内存控制器。由于中间已经没有走线空间,只能构成一个没有对角线连接的2D-mesh拓扑——仅从拓扑角度而论,还不如EPYC 7001系列4个CCD的full-mesh连接方式。所以,临近的访问有长短边造成的延迟差异,对角线的内存访问因为要走过一长一短两条边,没有捷径可走,自然要更慢一些。
注意放大看IOD布局示意图和右侧1~4的不同等级时延注解,可以理解为每个CPU内部仍然分为4个NUMA区域:本地、短边、长边、(拐个弯才能抵达的)对角线
Hot Chips大会上的这张示意图突出了不同功能的Infinity Fabric导致的IOD中部拥挤,和DDR内存控制器都被挤到边角上的感觉。结合前一张图,不难理解,像EPYC 7282这样只有2个CCD对角线布置的低端SKU,另一条对角线上的4个DDR内存控制器主要起增加内存容量的作用,不如只保留CCD就近的4个内存通道
总之,不管是EPYC 7001系列的MCM,还是EPYC 7002系列的Chiplet,随着芯片数量的增长,性能肯定会受到越来越明显的影响(而不是近乎线性的同步提升),只是好的架构会延缓总体性能增长的衰减速度。
这里我们可以回过头来看看同样基于Zen 2架构的第三代AMD Ryzen处理器,主流PC产品没有那么多核数要求,只用2个CCD即可满足,所以其配套的Client IOD(cIOD)正好是Server IOD的四分之一,从前面图中晶体管数量的对比(209亿 vs 834亿)也可以看出来。
代号“Matisse”的第三代Ryzen,仍然可以看到两个DDR4内存控制器偏居一隅的“遗存”,但对两个CCD已经公平了很多,基本不存在NUMA问题。也就难怪“AMD真香”党在消费类用户中比例要大得多
尽管CCD升级到了7nm,但更多核芯、更大得多的L3 Cache,意味着整体功耗的上升,譬如同样16核的7302和7282,前者Cache大一倍,频率略有提高,默认TDP就来到了155W,Dell为送测的R7525配备了180W的散热器——而EPYC 7282的TDP则“只有”120/150W。当然,CCD应用7nm的效果还是比较明显的,同样16核、L3 Cache只有7302四分之一,运行频率还低500MHz的7301,TDP也有150/170W,基本与7302相当。
为了满足云计算、高性能计算(HPC)和虚拟化等场景的用户需求,AMD又向EPYC 7002系列CPU中增加了大量多核大(L3) Cache以及核数虽少但频率很高的型号(如今年初发布的7Fx2系列),导致全系列产品中TDP在200W以上的SKU占比很高,也给服务器的散热设计带来了更高的挑战。
200W+的CPU将越来越常见
EPYC 7002系列的另一大改进是PCIe从30升级到40,单路仍然是128个通道,但双路可以支持多达160个通道(譬如Dell PowerEdge R7525的特定配置)——在主板支持的情况下。第一代EPYC处理器推出时的一个卖点是,为其设计的主板也可以支持第二代EPYC处理器。没有广而告之的是,要支持PCIe 40,主板需要重新设计。用老主板可以更快的把第二代EPYC处理器推向市场,却不能充分发挥新CPU的全部能力。
不过,PCIe 40本身就是一个很大的话题,留待以后(有机会的话)专文讨论。
为什么有人说服务器CPU垃圾?
我觉得说服务器CPU垃圾的原因有两点
第一:主频低, 游戏 体验差点被当成垃圾什么是服务器CPU,就是用来给服务器使用的,服务器正常24小运行,对待CPU稳定性有很高的要求。另外要同时处理多个请求,但是每个请求并不是那么的复杂,为了满足条件服务器CPU就有了以下几个特点。
正是因为稳定,主频低才合适做服务器CPU,但是当我们把这类CPU拿来家用时,尤其是拿来运行大型的单机 游戏 ,这类对单核频率有要求的 游戏 来说,可能服务器CPU的表现就不那么的出色,自然很多使用过这类CPU的 游戏 发烧级玩家会觉得此类CPU很垃圾。
准确的说,可能没有没有认识到此类CPU的针对领域吧,杀牛用羊刀,自然不是那么顺手。
第二:配对主板少,山寨居多,易出问题被当做垃圾
服务器CPU绝大部分都是国外一些服务器拆机然后送到国内的,俗称“大船靠岸”,很多“自称垃圾佬的图吧大佬”喜欢研究的东西。
因为此类CPU的主板很难买到新的,因为生产这些的都去卖服务器了。市场上流通的都是一些拆机主板,大家熟知的华南,科脑、美可可等品牌,也是佩服他们。能魔改成适配的,当然质量上就大打折扣了。很多不懂的小白上车,可能用不了多久主板坏了。城门失火殃及池鱼,怪主板差的同时,CPU也被顺带看做垃圾了。
并且适配的主板如果是一线厂家生产的话价格很高,已经超出了同级别的家用电脑,主板贵,没人买,COU自然便宜,便宜了自然有人认为是垃圾。
我觉得服务器CPU并不是垃圾
看每个人怎么使用了,我个人还在使用者E3处理器,很好用,也不存在什么大的问题。关键看怎么选配,怎么去使用,合适自己的才是最重要的,而不是一味的认为服务器的CPU就是垃圾。
以上是我对这个问题的解答和观点,纯手打,实属不易,也仅表达个人观点,希望能给读者很好的参考,若是觉得写的还可以就给个赞吧。
服务器CPU好比大拖头,桌面CPU好比小轿车。你要拿大拖头来飙车显然飙不过小轿车。但你拿来拉重活试试。高清视频剪辑,3D建模渲染,多任务工作,那服务器CPU哪怕是上代的性能也是杠杠的,而且不用担心工作一半突然给你定住要你重启,倒是你拿来 游戏 ,那么显然不怎么样了。一个是赚钱的工具一个是拿来玩乐。怎么比?
我是很懒的,我才不自己买主板一堆东西自己配。直接买个淘汰下来的品牌工作站主机,除开机自检时间比较久,启动系统后就非常爽了。
很多人的印象中都觉得服务器CPU不值得购买,然而市面上很多服务器CPU都卖的很火,比如英特尔志强E5系列,动辄8核心、10核心的至强CPU只卖不到一千元,然而英特尔和AMD最新款的消费级10核心以上的CPU至少都在3000元以上,从核心数量来看,很多人就是冲着E5这类服务器CPU便宜量又足来的。
当然,对于主流应用和 游戏 来说,市面上大部分的服务器CPU都不太合适,一方面是因为这些CPU都是老旧服务器淘汰下来的,虽说核心数量多,但是架构较老,频率也不高,真要比玩 游戏 的话,这些动辄10核心以上的服务器CPU可能还不如酷睿I3效果好。另外,大部分的日常应用对多核心CPU的支持不佳,服务器CPU核心数量虽多,但是反倒派不上用场。
不过即使如此,像至强E5 2000系列的CPU仍然非常热销,工作室买来可以加速视频渲染和3D渲染,提高内容创作效率,还有的 游戏 工作室专门买这类CPU 游戏 多开,毕竟核心越多,越能承受多个 游戏 同时运行的压力,这是那些普通消费级CPU难以相比的。
有的人可能担心这类CPU的保修问题,确实这类服务器CPU基本都属于二手货,没法考虑保修问题,但是CPU正常使用中就很难损坏,唯一值得担心的反倒是主板,这从一定程度上就要看运气了,不过好歹这类平台的价格都不贵,如果是用个两三年坏了也算是用值了。
说服务器cpu垃圾的都是一些不思进取整天呆在家里打 游戏 的人
不是服务器CPU垃圾,而是人的认知没有到位,觉得对自己用处不大的东西就垃圾,实际上去看看服务器CPU的价格和家用CPU的价格,就知道服务器的CPU到底垃圾不垃圾,当然这里的价格是指一手的价格,不要拿那些洋垃圾的价格来说事情。服务器CPU和家用CPU相比,往往有以下特点,主频低,核心多3,IO性能更强,更注重稳定性。
所以对于普通用户而言,服务器CPU并不是很适合,其中影响最大的还是主频,在桌面处理器已经突破5GHz的情况下,服务器CPU的频率往往还在4GHz徘徊,而且核心数量越多的型号,其频率更低,譬如最新的AMD EPYC系列产品里面,我们可以看到频率最高的是8核16线程的产品,其主频也才41GHz,而桌面的8核16线程早就是47GHz的水平了,而最高端的EPYC产品,核心数量达到了64核,但是主频最高只有3675GHz。
而频率对于单线程的性能影响是很关键的,在 游戏 等项目上面,高主频的CPU往往具有更好的性能表现,这也导致了在 游戏 等方面的表现中,服务器CPU往往不如桌面CPU,而这个也是服务器CPU垃圾的主要原因,此外我们以AMD EPYC产品的价格为例,我们可以看到服务器的CPU价格远超桌面的产品,所以更加让人觉得服务CPU垃圾。
不过这些钱并不能说是白花了,服务器CPU在IO部分的表现是可以秒杀桌面处理器的,目前的桌面处理器往往也就是支持双通道内存,而服务器CPU直接支持8通道内存了,此外在PCI-E通道数量上面,服务器CPU的数量也远超普通桌面CPU,可以看到EPYC服务器CPU支持高达128个PCI-E通道,而桌面的往往也就是20条左右。
此外在主板的选择上面,服务器CPU往往也不会有很多选择,而且其考虑的也不是家用环境,所以对于普通玩家而言,其周边的配置往往也不合意,而且价格也往往很贵,这进一步让服务器CPU没有那么香了。
当然如果是洋垃圾的话,成本会便宜很多,整体成本可以做得比家用更低,但是主频低的问题依旧无解,主板的话,这个里面的水就比较深了,二手服务器主板,山寨板,HEDT平台的新主板都有,这也导致了搭配出来的平台良莠不一,出点问题就满天飞,给大家带来不好的印象。
总的来说,服务器CPU在今天对于个人用户早就没有必要了,桌面上面的8核16线程也算是很常见的配置了,16核32线程的产品也有了,已经不是当年最高4核8核心的时代了,服务器CPU早就没有那么香了,如果不是玩家的话,就不要去玩服务器CPU了。
服务器CPU垃圾——洋垃圾。
其实这应该分两方面说
在锐龙出现之前,一直是英特尔霸占着CPU市场,无论是双核、四核普通桌面级,还是六核、八核旗舰级,甚至连十核、十二核的服务器CPU也进入了不少家庭。
而多核心低主频的服务器CPU是从哪里来的,这成了他们洋垃圾称号的起源——新型号的太贵用不起,走进家庭的服务器CPU都是些便宜货,是从淘汰的服务器上扒拉下来的。
这样的CPU不好吗?没有什么不好,主频低、发热高而已,并没有太多缺点,性能来说,多核心给多任务、多线程软件提供了很多便利。
但是,这样的CPU需要搭配相应特殊的主板才可以使用,这才是真正有风险、被说成垃圾的地方。
像X58、X79这种主板,市面上很少买的到大厂产品,毕竟是卖服务器的。想要好主板只能买到拆机板。而这时候,科脑、华南、美可可等品牌的X58X79主板就应运而生了。而其做工、质量,都不可能跟技嘉华硕微星比较,但是售价也不低,四五百一张,而且豪华版的卖八百多。没办法,想用多核撑场面,就得靠这种主板,毕竟是新的,有售后。
随着锐龙一代上市,六核、八核的桌面级CPU才有机会走进千家万户,二代锐龙上市,进一步拉低了六核十二线程、八核十六线程CPU的售价,三代锐龙上市,一代二代锐龙价格更低,八核十六线程才一千多点,而且可以搭配质量过硬的大厂主板,还可以使用最新的技术——RGB、M2、XFR等。这时E5、E7才算是真正到了尴尬的时候——可玩性不高,就像是一头忠实的老牛,只能低头干活,没有任何趣味,而且主板随时翻车。
这就使原本自嘲的洋垃圾真正变成垃圾了——多核多线程的优势在锐龙面前不堪一击,主频没锐龙高,主板质量差。
虽然如此,这并不能说CPU如何如何,毕竟在英特尔挤牙膏的那些年,E5E7填补了多核多线程的空白,而且错不在CPU在主板。要用发展眼光看待它们,它们只是跟不上这两年的 科技 步伐了。如果手里还用着E5的用户,请善待它们,它们很老了,但是依然勤勤恳恳。如果新用户装机,买新不买旧就是说给你们听的,感受 科技 的魅力吧。
服务器CPU一点儿也不垃圾。
华南X79主板烈焰战神,CPU是 E5-2680V2,32G服务器内存,性能杠杠的!
要是追求单核频率高些,2643V2很划算,主频35G,六核心十二线程。2667v2,2673v2都很好。
玩 游戏 也不差,配个好点儿的显卡就行了。
x99先进些,2678v3很流行,实际体验没多大差异。
主板要用大板,两个或三个显卡插槽。要有m2接口,快很多。四个内存插槽,方便组成双通道。
不 服务区cpu并不垃圾 反而性价比还很高 我做视频剪辑 用的就是工包主板x79加至强E5的服务区CPU还用了ECC服务区内存 价格低 性能好 其实适用才是王道 如果你玩大型 游戏 的话 主频高的普通版本的cpu很适合 但是如果你好做视频 图形图像处理的话 服务器的cpu 你可以考虑一下啊 不会让你失望的
因为这些人基本就是没玩过这类CPU,另一方面主要是支持这类CPU的主板太少,而大部分支持这类CPU的主板都是小厂,其实服务器U类别很多,其中不乏有一些最贴近普通PC的单路U,比方说当年的E3 1230,这些CPU都是核心数不高但是主频还是非常不错的,一般都是用来做高性能工作站使用的,这种一般就是I7类型的服务器版。
还有现在的多路服务器CPU的中高端产品,核心数量都是可以动态调整的,比如说AMD的宵龙,动态调整核心,其玩 游戏 也是非常厉害的。
其实我们很多时候概念还是停留在过去的思想里面里面,其实现在我们的 游戏 已经对多核做过很好地优化了,虽然服务器版的主频很低,但是你会发现 游戏 帧速率并没有拉到多地,这说明服务器版的CPU在 游戏 方面还是可以完全胜任的。
另外很多人喜欢搞服务器CPU主要是因为服务器CPU便宜,U便宜,内存也非常便宜,随便上个64GB的内存也花不了多少钱,最重要的是现在很多经典的服务器CPU也有高主频的,即使在玩 游戏 方面也十分充足。
另外造成一个最大的误解,就是很多人说服务器CPU垃圾,其实真正的原因是你不会选择,有些CPU天生下来就是为了稳定性,比如一些文件服务器用的2450/2650,其核心主频是非常低的,但是核心数多,其主要目的就是为了保证稳定性,你说你要是用这种服务器CPU玩 游戏 那就太难为他们了,因为时钟频率太低了。因为低功耗问题这类服务器CPU阉割了大量的ALU单元,其逻辑运算单元完全无法保证复杂的大量逻辑运算,玩 游戏 当然卡不说帧数还上不去。
你可以淘那些从提供服务器虚拟化那种的CPU,其主频高ALU单元多,虽然在寿命方有损耗但是不影响你玩 游戏 。总之服务器CPU要看你会不会选择,并且有更好的主板支持的话,我觉得在很多方面吊打消费级CPU是没有任何问题的,尤其是性价比方面。
专业专用
有一说一,一个东西设计成什么样的,大家最好就按照什么样的用法来用。
相信很多朋友没买过云服务器,所以我先讲讲怎么玩云服务器。首先你要挑一个看着顺眼的厂商,然后花钱买(其实应该叫租)一定时长的服务器资源,然后厂商就会给你分配一个虚拟机,这个虚拟机就等于是你自己的了,可以随便怎么玩,比如打个小网站、挂个下载器当网盘之类的都可以。而这些厂商会为大量用户提供这种服务,那么大家应该也可以想到,这些厂商使用的服务器CPU应该具有一下特征: 主频低,核心多,可以同时支持大量并发。
但是这些特性,和我们家用用户基本完全没什么关系。一般的 游戏 和应用对多核的优化不是那么完善,多核特性用处不是很大。主频低会导致很多需要单核性能的应用和 游戏 卡顿。综合起来,你说使用体验能好吗?
英特尔挤牙膏很多人用服务器CPU的很大一个原因,其实是因为当年英特尔没啥对手,家用CPU性价比不高。当年我混迹显卡吧的时候,看到很多人装机用的都是服务器的那款E3V2, 当时的家用酷睿系列的处理器价格高,但是单核性能对比服务器CPU来说拉不开差距,结果就是性价比被完爆。
不过这种情况现在应该是不存在了,AMD自从出了锐龙系列处理器,英特尔有了竞争对手,再也不敢挤牙膏了。所以现在这个时段,家用装机,正常挑选一款家用CPU就可以了,没必要在迷信当年的经验去用服务器CPU。如果你还要头硬去用的话,很可能会因为主频低,运行 游戏 卡,而发出类似本问题的抱怨: “为什么服务器CPU这么垃圾”
在上周一系列坏消息之后,AMD投资者将迎来一些好消息。该公司准备推出最受期待的7纳米(纳米)第二代EPYC Rome服务器CPU(中央处理器)。
AMD准备推出EPYC Rome
在7月30日的第二季度财报电话会议上,AMD首席执行官苏丽萨讨论了EPYC Rome。她强调,尽管需求疲软,但EPYC Rome与一些云计算和OEM(原始设备制造商)客户的预装发布是成功的。
7月7日,当AMD推出其7nm Ryzen PC CPU和Navi GPU(图形处理单元)时,其股票在三天内上涨了73%。我们预计,在EPYC Rome上市后,该股周三将上涨5%至10%左右。为什么我们对罗马更乐观首先,我们将讨论为什么服务器cpu对AMD很重要。我们还将讨论在财报电话会议上的评论。
服务器cpu对AMD很重要
服务器cpu价格高,采用周期长。该公司必须确保设计获胜。服务器CPU市场长期由Intel (INTC)控制,市场份额超过99%。AMD上一次拥有具有竞争力的服务器CPU Opteron是在2006年。然而,由于技术落后,AMD的市场份额开始输给英特尔。11年后,AMD凭借具有竞争力的服务器CPU重新进入这一领域。该公司的第一代EPYC Rome那不勒斯服务器CPU花了更长的时间赢得客户的信心,并获得了一些市场份额。
AMD第二季度业绩反映了EPYC Rome的销售业绩。尽管收入下降118%,但该公司的企业、嵌入式和半定制运营收入同比增长29%。由于EPYC Rome服务器cpu的更高组合,运营收入有所增加。与此同时,由于半定制销售弱于预期,营收出现下滑。财报显示,服务器cpu对AMD的盈利能力非常重要。
AMD的服务器CPU销量上升,英特尔第二季度销量同比下降10%。英特尔数据中心业务受到国际市场和整体市场需求疲软的影响。这些因素也影响了AMD,但它的服务器CPU销售上升。值得注意的是,AMD从英特尔那里获得了一些市场份额。
AMD银行对EPYC Rome获得服务器CPU市场份额
EPYC Rome的正收益和市场份额的结果在客户和投资者之间建立了对EPYC Rome的热情。7nm EPYC Rome服务器CPU更相关。服务器CPU将使AMD在工艺技术领域领先于英特尔。英特尔与AMD竞争的10nm服务器cpu还要一年左右才会上市,这让AMD在技术上处于领先地位。这一年对于AMD从英特尔手中夺取服务器CPU市场份额至关重要。
AMD股价上一次突破40美元大关是在2006年,当时Opteron从英特尔手中获得了超过20%的服务器CPU市场份额。我们将不得不看看EPYC Rome是否可以重复 历史 ,并把AMD在相同的位置,在2006年的市场份额和股票价格。EPYC Rome的初步应用前景看好。
Su怎么评价EPYC Rome
AMD早在8月7日推出EPYC Rome之前,就开始向一些领先的云计算和OEM客户发货。在财报电话会议上,苏表示,第一批罗马出货量推动了该公司服务器CPU收入在第二季度。她把罗马比作那不勒斯。苏说:
罗马"拥有超过两倍的平台在开发中与更多的合作伙伴。"
EPYC Rome 拥有"在启动之前积极参与部署的企业和云客户数的四倍多"。
EPYC Rome正在"为大量云计算和企业工作负载提供领导性能和TCO(总拥有成本)。"
苏表示,AMD从云计算、高性能计算和企业客户那里获得了一些设计上的胜利。她没有提供定价细节。不过,她表示,价格将具有竞争力。
早些时候,Su的目标是在EPYC Rome 的帮助下,到2020年年中获得两位数的市场份额。由于目前数据中心领域的发展,她还没有更新她的目标。她将更新目标后,看到EPYC Rome的初步销售。目前,苏认为她之前的目标似乎是可以实现的。
0条评论