英伟达CPU问世:ARM架构,对比x86实现十倍性能提升
机器之心报道
机器之心编辑部
「只需一张 GeForce 显卡,每个学生都可以拥有一台超级计算机,这正是 Alex Krizhevsky、Ilya 和 Hinton 当年训练 AI 模型 AlexNet 的方式。通过搭载在超级计算机中的 GPU,我们现在能让科学家们在 youxian 的一生之中追逐无尽的科学事业,」英伟达创始人兼首席执行官黄仁勋说道。
4 月 12 日晚,英伟达 GTC 2021 大会在线上开始了。或许是因为长期远程办公不用出门,人们惊讶地看到在自家厨房讲 Keynote 的黄老板居然留了一头摇滚范的长发:
如果你只是对他的黑色皮衣印象深刻,先对比一下 2019、2020 和 2021 的 GTC,老黄气质越来越摇滚。如此气质,黄仁勋今天推出的新产品肯定将会与众不同。
「这是世界第一款为 terabyte 级别计算设计的 CPU,」在 GTC 大会上,黄仁勋祭出了英伟达的首款中央处理器 Grace,其面向超大型 AI 模型的和高性能计算。
英伟达也要做 CPU 了
Grace 使用相对能耗较低的 Arm 核心,但它又可以为训练超大 AI 模型的系统提供 10 倍左右的性能提升。英伟达表示,它是超过一万名工程人员历经几年的研发成果,旨在满足当前世界最先进应用程序的计算需求,其具备的计算性能和吞吐速率是以往任何架构所无法比拟的。
「结合 GPU 和 DPU,Grace 为我们提供了第三种基础计算能力,并具备重新定义数据中心架构,推进 AI 前进的能力,」黄仁勋说道。
Grace 的名字来自于计算机科学家、世界最早一批的程序员,也是最早的女性程序员之一的格蕾丝 · 赫柏(Grace Hopper)。她创造了现代第一个编译器 A-0 系统,以及第一个高级商用计算机程序语言「COBOL」。计算机术语「Debug」(调试)便是她在受到从电脑中驱除蛾子的启发而开始使用的,于是她也被冠以「Debug 之母」的称号。
英伟达的 Grace 芯片利用 Arm 架构的灵活性,是专为加速计算而设计的 CPU 和服务器架构,可用于训练具有超过 1 万亿参数的下一代深度学习预训练模型。在与英伟达的 GPU 结合使用时,整套系统可以提供相比当今基于 x86 CPU 的最新 NVIDIA DGX 快 10 倍的性能。
目前英伟达自家的 DGX,使用的是 AMD 7 纳米制程的 Rome 架构 CPU。
据介绍,Grace 采用了更为先进的 5nm 制程,在内部通信能力上,它使用了英伟达第四代 NVIDIA NVLink,在 CPU 和 GPU 之间提供高达 900 GB/s 的双向带宽,相比之前的产品提升了八倍。Grace 还是第一个通过错误校正代码(ECC)等机制利用 LPDDR5x 内存系统提供服务器级可靠性的 CPU,同时提供 2 倍的内存带宽和高达 10 倍的能源效率。在架构上,它使用下一代 Arm Neoverse 内核,以高能效的设计提供高性能。
基于这款 CPU 和仍未发布的下一代 GPU,瑞士国家超级计算中心、苏黎世联邦理工大学将构建一台名为「阿尔卑斯」的超级计算机,算力 20Exaflops(目前全球第一超算「富岳」的算力约为 0537Exaflops),将实现两天训练一次 GPT-3 模型的能力,比目前基于英伟达 GPU 打造的 Selene 超级计算机快 7 倍。
美国能源部下属的洛斯阿拉莫斯国家实验室也将在 2023 年推出一台基于 Grace 的超级计算机。
GPU+CPU+DPU,三管齐下
「简单说来,目前市场上每年交付的 3000 万台数据中心服务器中,有 1/3 用于运行软件定义的数据中心堆栈,其负载的增长速度远远快于摩尔定律。除非我们找到加速的办法,否则用于运行应用的算力将会越来越少,」黄仁勋说道。「新时代的计算机需要新的芯片、新的系统架构、新的网络、新的软件和工具。」
除了造 CPU 的大新闻以外,英伟达还在一个半小时的 Keynote 里陆续发布了大量重要软硬件产品,覆盖了 AI、 汽车 、机器人、5G、实时图形、云端协作和数据中心等领域的最新进展。英伟达的技术,为我们描绘出了一幅令人神往的未来愿景。
黄仁勋表示,英伟达全新的数据中心路线图已包括 CPU、GPU 和 DPU 三类芯片,而 Grace 和 BlueField 是其中必不可少的关键组成部分。投身 Arm 架构的 CPU,并不意味着英伟达会放弃原有的 x86、Power 等架构,黄仁勋将英伟达重新定义为「三芯片」公司,覆盖 CPU、GPU 和 DPU。
对于未来的发展节奏,黄仁勋表示:「我们的发展将覆盖三个产品线——CPU、GPU 和 DPU,以每两年一次更新的节奏进行,第一年更新 x86,第二年就更新 Arm。」
最后是自动驾驶。「对于 汽车 而言,更高的算力意味着更加智能化,开发者们也能让产品更快迭代。TOPS 就是新的马力,」黄仁勋说道。
英伟达将于 2022 年投产的 NVIDIA 自动驾驶 汽车 计算系统级芯片——NVIDIA DRIVE Orin,旨在成为覆盖自动驾驶和智能车机的 汽车 中央电脑。搭载 Orin 的量产车现在还没法买到,但英伟达已经在为下一代,超过 L5 驾驶能力的计算系统作出计划了。
Atlan 是这家公司为 汽车 行业设计的下一代 SoC,其将采用 Grace 下一代 CPU 和下一代安培架构 GPU,同时也集成数据处理单元 (DPU)。如此一来,Atlan 可以达到每秒超过 1000 万亿次(TOPS)运算次数。如果一切顺利的话,2025 年新生产的车型将会搭载 Atlan 芯片。
与此同时,英伟达还展示了 Hyperion 8 自动驾驶 汽车 平台,业内算力最强的自动驾驶 汽车 模板——搭载了 3 套 Orin 中心计算机。
不知这些更强的芯片和系统,能否应付未来几年里人们对于算力无穷无尽的需求。在 GTC 2021 上,英伟达对于深度学习模型的指数增长图又更新了。「三年间,大规模预训练模型的参数量增加了 3000 倍。我们估计在 2023 年会出现 100 万亿参数的模型。」黄仁勋说道。
英伟达今天发布的一系列产品,让这家公司在几乎所有行业和领域都能为你提供最强大的机器学习算力。在黄仁勋的 Keynote 发表时,这家公司的股票一度突破了 600 美元大关。
「20 年前,这一切都只是科幻小说的情节;10 年前,它们只是梦想;今天,我们正在实现这些愿景。
英伟达每年在 GTC 大会上发布的新产品,已经成为了行业发展的风向。不知在 Grace 推出之后,未来我们的服务器和电脑是否会快速进入 Arm 时代。
近日,AMD首席财务官Devinder Kumar在一场会议上表示,AMD随时准备在需要的情况下生产Arm芯片,并透露有客户希望与AMD合作开发基于Arm的解决方案。
目前,在数据中心市场中,Arm正在受到越来越多的超大规模数据中心企业的青睐。比如亚马逊正在使用自研的Graviton Arm服务器芯片,微软、甲骨文、腾讯、百度等在使用Ampere Computing的Altra系列Arm架构芯片。
在被问到Arm架构与x86架构在服务器市场的竞争格局时,Kumar认为无论是x86还是Arm,甚至是其他领域,这些都是AMD专注的投资领域。与此同时,Kumar表示AMD依然相信x86是AMD在服务器领域的优势,但对于AMD而言,最终目的都是向客户提供高性能的计算解决方案。“我们与Arm也有非常好的关系,我们了解到,一些客户希望与我们合作使用非x86架构的解决方案,尽管我们认为AMD的x86架构在服务器领域有优势,但我们愿意与客户合作,交付他们所需的解决方案。”
值得一提的是,AMD其实早已获得Arm IP授权,并且在Arm架构方面也有一定的经验。在2012年,AMD宣布了一个“违背祖宗的决定”,表示“将会设计基于64-bit ARM架构的处理器,首先从云和数据中心服务器领域开始。”
很快,2014年AMD就发布了第一款Arm处理器Opteron A1100系列,基于64-bit ARM Cortex-A57架构,构型为4核或8核可选,频率超过2GHz。
在这一年,AMD还雄心勃勃地提出了史无前例的“Project Skybridge”工程,希望实现x86、Arm两种架构的针脚兼容。AMD首席架构师Jim Keller大神也在2014年着手开发自主设计的64位ARMv8架构核心——K12项目,AMD希望将其应用于高密度服务器、嵌入式、半定制、超低功耗等领域。
不过,伴随着Jim Keller离职出走特斯拉,2016年Opteron A1100系列平台开发板开售之后,除了据称K12架构被用在安全用途的嵌入式MCU,但未进入市场之外,AMD的Arm架构项目就没有其他更多消息了。
从目前Arm架构的应用以及AMD业务范围上猜测,如果AMD决定投入到Arm架构芯片中,一是提供现成的标准数据中心或桌面高性能处理器解决方案,二是通过定制业务,让客户根据需求定制Arm芯片。
对于服务器处理器而言,定制化确实是目前的一个趋势,最显著的例子就是亚马逊。因为数据中心可以通过定制ASIC来提高完成特定任务的效率,在全球数据中心需求不断增长的如今,也越来越多超大规模数据中心企业采用定制的ASIC来取代以往的通用处理器,以提高运行效率。
而AMD的竞争对手英伟达已经在Grace服务器CPU中使用Arm架构,甚至已经着手收购Arm,只待各国监管部门通过;英特尔也正在为Arm架构芯片提供代工业务。
另一方面,Arm处理器在PC端的份额已经创下 历史 记录,并在不断增长中。不过相比于数据中心处理器,PC端使用Arm架构似乎未有展现出太大的必要性。作为Arm架构的领军者,苹果M1芯片相比AMD最新的移动端x86芯片依然存在一定差距,对于AMD而言,在PC端继续追赶英特尔的x86处理器市场份额才是他们的首要任务。
随着半导体行业获得政府和资本的青睐,全国各省正在掀起一场“造芯”运动,2020年上半年,已有21个省份落地的半导体项目超过140个,总投资额最少超过3070亿元。在2020年8月,就有近万家企业计划投身芯片行业,江苏、浙江、陕西、天津、辽宁、重庆、江西转产半导体企业数量分别增长了19694%、54737%、61825%、46531%、38776%、42273%和41212%。截至2020年9月1日,中国已新设半导体企业7021间,2019年新设半导体企业也超过10000间。
在全国半导体项目遍地开花的表象下,潜藏了以下几点隐忧。
一是投资人动机不纯,芯片变“芯骗”。近年来,一些利用地方政府急于求成的心理,套取国有资金扶持,结果钱没少花,芯片项目却没有多少进展,使地方政府蒙受巨额损失。这方面,武汉弘芯和济南泉芯是典型代表。武汉弘芯号称投资1280亿元,但实际到位资金却非常有限,从始至终大股东缺乏投资诚意,时至今日实缴资本依然为零,在武汉政府投入的真金白银烧光之后项目就陷入休克状态。同样的手法在济南泉芯再度上演,在2020年2月,济南泉芯实际到位资金约51亿元,实际出资仍是地方政府实际控制的国有企业,这与武汉弘芯如出一辙。
二是诱发官商勾结,带来腐败和权力寻租。当下,政府对半导体技术的投资是不遗余力的,海量国有资金涌向半导体行业。不少人就以不正当方式打通关节,获取高额国有资金大肆挥霍,这方面最典型的例子就是德淮半导体。德科码创始人利用在美国、日本求学、工作的背景,在南京、宁波、淮安三地开始公司,并套取海量国有资金。最终,号称投资30亿美元的南京德科码在2020年5月申请破产,宁波承兴半导体在获得700万政府资金后就没有后续了,德淮半导体烧钱46亿元之后无疾而终,地方政府为此背负了巨额债务。在整个过程中,腐败问题丛生。
三是技术引进贪大求洋,陪了夫人又折兵。当下,一些官员不善于培育本土企业,反而非常热衷于招商引资,寄希望于请“洋和尚”来念经,仿佛洋和尚念几句咒语,一个产业就能凭空变出来。面对一些跨国公司,瞬间就被迷花了眼,不惜血本高额投资,结果不仅没能引进技术,反而陪人夫人又折兵,这方面最典型的案例就是成都格芯和贵州华芯通。2017年,格罗方德与成都政府共同投资90亿美元建设一条12寸晶圆代工线。然而,巨额投资并没有起到多少效果,成都格芯早已名存实亡,一直在寻找接盘者,只不过没人敢当白衣骑士。目前,晶圆厂里价值百亿元的设备只能放在那里积灰尘。贵州华芯通则是又一个惨烈的案例。2016年1月,贵州政府与高通合资成立华芯通,总投资185亿元,虽然华芯通高调标榜自主,但实际上,这款ARM服务器CPU就是高通ARM服务器CPU的马甲。由于ARM服务器CPU在商业市场上根本没有市场,众多曾经押宝ARM的厂商也难以为继,高通决定放弃ARM服务器CPU,在高通放弃ARM服务器CPU之后,华芯通就变成无根之木,自然而然也就关门了。
四是罔顾外部风险盲目投资害人害己。随着信创市场已经成为风口,为了进入信创市场和斩获更多市场份额,一些ARM阵营厂商不是以产品和服务为卖点,而是以政商关系为突破口,将“洋人地基上造房子”的技术包装成自主技术,在全国各地大肆搞圈地运动,向地方政府要政策和市场,搞单一来源采购。目前,C公司全国设立16家公司,H公司则与北京、天津、福州、厦门、成都、绵阳、重庆、上海、郑州、许昌、青岛、济南、合肥、西安、九江、南京、广州、深圳、东莞、南宁、太原、杭州、宁波、桐乡、武汉、长沙、醴陵、哈尔滨、沈阳、长春等城市签订协议,建立KP产业基地,从公司经营的角度看,C公司和KP在短时间内高频率的设立全资子公司和建设产业基地是不太符合商业逻辑的。因为这些子公司和产业基地大部分功能雷同,业务重叠,而且整机制造压根就不是高 科技 ,机关单位市场规模有限,这种规模的投产会带来严重的产能过剩问题。前不久,随着外部环境越发严峻,H公司已经失去ARM芯片流片渠道,全国的KP产业基地面临缺芯的困局,生产能力和交付能力受到严重影响,很多地方政府重金投资的整机厂几乎处于半休克状态。原本可以用来弥补芯片制造、设备、原材料等短板的资金,就这样被浪费在整机厂生产线上。
芯片产业是需要以十年磨一剑的方式细细打磨的,并非短期打鸡血就能够做成的。
目前,国内掀起的“造芯”运动是非理性的,很多投身“造芯”的企业不仅在技术积累上少的可怜,还存在动机不存的问题。
从产业发展的角度看,芯片是高投资、长周期的项目,需要的是集中资源重点发展,如今,全国各省发展半导体产业,只会把有限的力量分散,白白浪费了海量国有资金和时间。
从全球来看,美国半导体企业主要集中在硅谷,日本半导体产业集群位于九州硅岛,韩国半导体产业集群位于京畿道和忠清道,我国台湾省的半导体企业高度集中于新竹科学园区,都不存在全国各地遍地开花的情况。
技术发展必须遵循客观规定,必须循序渐进,地方政府不要妄图短期用政策和国有资本一口气吃成胖子,不要妄图短期用行政资源砸出一个产业,方式方法不对,投入的资源越多,最终也只会鸡飞蛋打,南辕北辙。
当下,顶层应当加强对半导体产业的统筹,以十年磨一剑的态度规划和发展产业。在产业政策制定中,要根据各地实际情况和现有的产业特点进行布局,使设计、制造、设备、原材料、封装全产业链齐头并进。在国有资金的使用上,要抑制地方政府的非理性投资,对于半导体产业扶持资金的发放进行严格审核。要发挥集中力量办大事的制度优势,把资金和时间用于扶持本土厂商中的“绩优股”和“潜力股”。
0条评论