人工智能产业发展深度报告:格局、潜力与展望
人
工智能(Artificial Intelligence,AI)是利用机器学习和数据分析方法赋予机器模拟、延伸
近年来, 在大数据、算法和计算机能力三大要素的共同驱动下,人工智能进入高速发展阶段。
人工智能市场格局
人工智能赋能实体经济,为生产和生活带来革命性的转变。 人工智能作为新一轮产业变革 的核心力量,将重塑生产、分配、交换和消费等经济活动各环节,催生新业务、新模式和 新产品。从衣食住行到医疗教育,人工智能技术在 社会 经济各个领域深度融合和落地应用。同时,人工智能具有强大的经济辐射效益,为经济发展提供强劲的引擎。据埃森哲预测, 2035 年,人工智能将推动中国劳动生产率提高 27%,经济总增加值提升 71 万亿美元。
多角度人工智能产业比较
战略部署:大国角逐,布局各有侧重
全球范围内,中美“双雄并立”构成人工智能第一梯队,日本、英国、以色列和法国等发 达国家乘胜追击,构成第二梯队。同时,在顶层设计上,多数国家强化人工智能战略布局, 并将人工智能上升至国家战略,从政策、资本、需求三大方面为人工智能落地保驾护。后起之秀的中国,局部领域有所突破。中国人工智能起步较晚,发展之路几经沉浮。自 2015 年以来,政府密集出台系列扶植政策,人工智能发展势头迅猛。由于初期我国政策 侧重互联网领域,资金投向偏向终端市场。因此,相比美国产业布局,中国技术层(计算 机视觉和语音识别)和应用层走在世界前端,但基础层核心领域(算法和硬件算力)比较 薄弱,呈“头重脚轻”的态势。当前我国人工智能在国家战略层面上强调系统、综合布局。
美国引领人工智能前沿研究,布局慢热而强势。 美国政府稍显迟缓,2019 年人工智能国 家级战略(《美国人工智能倡议》)才姗姗来迟。但由于美国具有天时(5G 时代)地利(硅 谷)人和(人才)的天然优势,其在人工智能的竞争中已处于全方位领先状态。总体来看, 美国重点领域布局前沿而全面,尤其是在算法和芯片脑科学等领域布局超前。此外,美国聚焦人工智能对国家安全和 社会 稳定的影响和变革,并对数据、网络和系统安全十分重视。
伦理价值观引领,欧洲国家抢占规范制定的制高点。 2018 年,欧洲 28 个成员国(含英国) 签署了《人工智能合作宣言》,在人工智能领域形成合力。从国家层面来看,受限于文化和语言差异阻碍大数据集合的形成,欧洲各国在人工智能产业上不具备先发优势,但欧洲 国家在全球 AI 伦理体系建设和规范的制定上抢占了“先机”。欧盟注重探讨人工智能的社 会伦理和标准,在技术监管方面占据全球领先地位。
日本寻求人工智能解决 社会 问题。 日本以人工智能构建“超智能 社会 ”为引领,将 2017 年确定为人工智能元年。由于日本的数据、技术和商业需求较为分散,难以系统地发展人 工智能技术和产业。因此,日本政府在机器人、医疗 健康 和自动驾驶三大具有相对优势的 领域重点布局,并着力解决本国在养老、教育和商业领域的国家难题。
基础层面:技术薄弱,芯片之路任重道远
基础层由于创新难度大、技术和资金壁垒高等特点,底层基础技术和高端产品市场主要被欧美日韩等少数国际巨头垄断。 受限于技术积累与研发投入的不足,国内在基础层领域相 对薄弱。具体而言,在 AI 芯片领域,国际 科技 巨头芯片已基本构建产业生态,而中国尚 未掌握核心技术,芯片布局难以与巨头抗衡;在云计算领域,服务器虚拟化、网络技术 (SDN)、 开发语音等核心技术被掌握在亚马逊、微软等少数国外 科技 巨头手中。虽国内 阿里、华为等 科技 公司也开始大力投入研发,但核心技术积累尚不足以主导产业链发展;在智能传感器领域,欧洲(BOSCH,ABB)、美国(霍尼韦尔)等国家或地区全面布局传 感器多种产品类型,而在中国也涌现了诸如汇顶 科技 的指纹传感器等产品,但整体产业布 局单一,呈现出明显的短板。在数据领域,中国具有的得天独厚的数据体量优势,海量数 据助推算法算力升级和产业落地,但我们也应当意识到,中国在数据公开力度、国际数据 交换、统一标准的数据生态系统构建等方面还有很长的路要走。
“无芯片不 AI”,以 AI 芯片为载体的计算力是人工智能发展水平的重要衡量标准,我们 将对 AI 芯片作详细剖析,以期对中国在人工智能基础层的竞争力更细致、准确的把握。
依据部署位置,AI 芯片可划分为云端(如数据中心等服务器端)和终端(应用场景涵盖手 机、 汽车 、安防摄像头等电子终端产品)芯片;依据承担的功能,AI 芯片可划分为训练和 推断芯片。训练端参数的形成涉及到海量数据和大规模计算,对算法、精度、处理能力要 求非常高,仅适合在云端部署。目前,GPU(通用型)、FPGA(半定制化)、ASIC(全定制化)成为 AI 芯片行业的主流技术路线。不同类型芯片各具优势,在不同领域呈现多 技术路径并行发展态势。我们将从三种技术路线分别剖析中国 AI 芯片在全球的竞争力。
GPU(Graphics Processing Unit)的设计和生产均已成熟,占领 AI 芯片的主要市场份 额。GPU 擅长大规模并行运算,可平行处理海量信息,仍是 AI 芯片的首选。据 IDC 预测, 2019 年 GPU 在云端训练市场占比高达 75%。在全球范围内,英伟达和 AMD 形成双寡头 垄断,尤其是英伟达占 GPU 市场份额的 70%-80%。英伟达在云端训练和云端推理市场推 出的 GPU Tesla V100 和 Tesla T4 产品具有极高性能和强大竞争力,其垄断地位也在不断 强化。目前中国尚未“入局”云端训练市场。由于国外 GPU 巨头具有丰富的芯片设计经 验和技术沉淀,同时又具有强大的资金实力,中国短期内无法撼动 GPU 芯片的市场格局。
FPGA(Field Programmable Gate Array)芯片具有可硬件编程、配置高灵活性和低能耗等优点。FPGA 技术壁垒高,市场呈双寡头垄断:赛灵思(Xilinx)和英特尔(Intel)合计 占市场份额近 90%,其中赛灵思的市场份额超过 50%,始终保持着全球 FPGA 霸主地位。 国内百度、阿里、京微齐力也在部署 FPGA 领域,但尚处于起步阶段,技术差距较大。
ASIC(Application Specific Integrated Circuits)是面向特定用户需求设计的定制芯片, 可满足多种终端运用。尽管 ASIC 需要大量的物理设计、时间、资金及验证,但在量产后, 其性能、能耗、成本和可靠性都优于 GPU 和 FPGA。与 GPU 与 FPGA 形成确定产品不 同,ASIC 仅是一种技术路线或方案,着力解决各应用领域突出问题及管理需求。目前, ASIC 芯片市场竞争格局稳定且分散。我国的 ASIC 技术与世界领先水平差距较小,部分领域处于世界前列。在海外,谷歌 TPU 是主导者;国内初创芯片企业(如寒武纪、比特大陆和地平线),互联网巨头(如百度、华为和阿里)在细分领域也有所建树。
总体来看 ,欧美日韩基本垄断中高端云端芯片,国内布局主要集中在终端 ASIC 芯片,部分领域处于世界前列,但多以初创企业为主,且尚未形成有影响力的“芯片−平台−应用” 的生态,不具备与传统芯片巨头(如英伟达、赛灵思)抗衡的实力;而在 GPU 和 FPGA 领域,中国尚处于追赶状态,高端芯片依赖海外进口。
技术层面:乘胜追击,国内头部企业各领风骚
技术层是基于基础理论和数据之上,面向细分应用开发的技术。 中游技术类企业具有技术 生态圈、资金和人才三重壁垒,是人工智能产业的核心。相比较绝大多数上游和下游企业聚焦某一细分领域、技术层向产业链上下游扩展较为容易。该层面包括算法理论(机器学 习)、开发平台(开源框架)和应用技术(计算机视觉、智能语音、生物特征识别、自然 语言处理)。众多国际 科技 巨头和独角兽均在该层级开展广泛布局。近年来,我国技术层 围绕垂直领域重点研发,在计算机视觉、语音识别等领域技术成熟,国内头部企业脱颖而 出,竞争优势明显。但算法理论和开发平台的核心技术仍有所欠缺。
具体来看,在算法理论和开发平台领域,国内尚缺乏经验,发展较为缓慢。 机器学习算法是人工智能的热点,开源框架成为国际 科技 巨头和独角兽布局的重点。开源深度学习平台 是允许公众使用、复制和修改的源代码,是人工智能应用技术发展的核心推动力。目前, 国际上广泛使用的开源框架包括谷歌的 TensorFlow、脸书的 Torchnet 和微软的 DMTK等, 美国仍是该领域发展水平最高的国家。我国基础理论体系尚不成熟,百度的 PaddlePaddle、 腾讯的 Angle 等国内企业的算法框架尚无法与国际主流产品竞争。
在应用技术的部分领域,中国实力与欧美比肩。 计算机视觉、智能语音、自然语言处理是三大主要技术方向,也是中国市场规模最大的三大商业化技术领域。受益于互联网产业发 达,积累大量用户数据,国内计算机视觉、语音识别领先全球。自然语言处理当前市场竞 争尚未成型,但国内技术积累与国外相比存在一定差距。
作为落地最为成熟的技术之一,计算机视觉应用场景广泛。 计算机视觉是利用计算机模拟 人眼的识别、跟踪和测量功能。其应用场景广泛,涵盖了安防(人脸识别)、医疗(影像诊断)、移动互联网(视频监管)等。计算机视觉是中国人工智能市场最大的组成部分。据艾瑞咨询数据显示,2017 年,计算机视觉行业市场规模分别为 80 亿元,占国内 AI 市 场的 37%。由于政府市场干预、算法模型成熟度、数据可获得性等因素的影响,计算机视觉技术落地情况产生分化。我国计算机视觉技术输出主要在安防、金融和移动互联网领域。而美国计算机视觉下游主要集中在消费、机器人和智能驾驶领域。
计算机视觉技术竞争格局稳定,国内头部企业脱颖而出。 随着终端市场工业检测与测量逐 渐趋于饱和,新的应用场景尚在 探索 ,当前全球技术层市场进入平稳的增长期,市场竞争格局逐步稳定,头部企业技术差距逐渐缩小。中国在该领域技术积累丰富,技术应用和产 品的结合走在国际前列。2018 年,在全球最权威的人脸识别算法测试(FRVT)中,国内 企业和研究院包揽前五名,中国技术世界领先。国内计算机视觉行业集中度高,头部企业 脱颖而出。据 IDC 统计,2017 年,商汤 科技 、依图 科技 、旷视 科技 、云从 科技 四家企业 占国内市场份额的 694%,其中商汤市场份额 206%排名第一。
应用层面:群雄逐鹿,格局未定
应用场景市场空间广阔,全球市场格局未定。 受益于全球开源社区,应用层进入门槛相对较低。目前,应用层是人工智能产业链中市场规模最大的层级。据中国电子学会统计,2019 年,全球应用层产业规模将达到3605 亿元,约是技术层的167 倍,基础层的253 倍。 在全球范围内,人工智能仍处在产业化和市场化的 探索 阶段,落地场景的丰富度、用户需 求和解决方案的市场渗透率均有待提高。目前,国际上尚未出现拥有绝对主导权的垄断企 业,在很多细分领域的市场竞争格局尚未定型。
中国侧重应用层产业布局,市场发展潜力大。 欧洲、美国等发达国家和地区的人工智能产 业商业落地期较早,以谷歌、亚马逊等企业为首的 科技 巨头注重打造于从芯片、操作系统 到应用技术研发再到细分场景运用的垂直生态,市场整体发展相对成熟;而应用层是我国 人工智能市场最为活跃的领域,其市场规模和企业数量也在国内 AI 分布层级占比最大。据艾瑞咨询统计,2019 年,国内77%的人工智能企业分布在应用层。得益于广阔市场空间以及大规模的用户基础,中国市场发展潜力较大,且在产业化应用上已有部分企业居于 世界前列。例如,中国 AI+安防技术、产品和解决方案引领全球产业发展,海康威视和大 华股份分别占据全球智能安防企业的第一名和第四名。
整体来看 ,国内人工智能完整产业链已初步形成,但仍存在结构性问题。从产业生态来看, 我国偏重于技术层和应用层,尤其是终端产品落地应用丰富,技术商业化程度比肩欧美。 但与美国等发达国家相比,我国在基础层缺乏突破性、标志性的研究成果,底层技术和基 础理论方面尚显薄弱。初期国内政策偏重互联网领域,行业发展追求速度,资金投向追捧 易于变现的终端应用。人工智能产业发展较为“浮躁”,导致研发周期长、资金投入大、 见效慢的基础层创新被市场忽略。“头重脚轻”的发展态势导致我国依赖国外开发工具、 基础器件等问题,不利于我国人工智能生态的布局和产业的长期发展。短期来看,应用终 端领域投资产出明显,但其难以成为引导未来经济变革的核心驱动力。中长期来看,人工智能发展根源于基础层(算法、芯片等)研究有所突破。
透析人工智能发展潜力
基于人工智能产业发展现状,我们将从智能产业基础、学术生态和创新环境三个维度,对 中国、美国和欧洲 28 国人工智能发展潜力进行评估,并使用熵值法确定各指标相应权重 后,利用理想值法(TOPSIS 法)构建了一个代表人工智能发展潜力整体情况的综合指标。
从智能产业基础的角度
产业化程度:增长强劲,产业规模仅次美国
中国人工智能尚在产业化初期,但市场发展潜力较大。 产业化程度是判断人工智能发展活 力的综合指标,从市场规模角度,据 IDC 数据,2019 年,美国、西欧和中国的人工智能 市场规模分别是 213、7125 和 45 亿美元,占全球市场份额依次为 57%、19%和 12%。中国与美国的市场规模存在较大差异,但近年来国内 AI 技术的快速发展带动市场规模高速增长,2019 年增速高达 64%,远高于美国(26%)和西欧(41%)。从企业数量角度, 据清华大学 科技 政策研究中心,截至 2018 年 6 月,中国(1011 家)和美国(2028 家) 人工智能企业数全球遥遥领先,第三位英国(392 家)不及中国企业数的 40%。从企业布局角度,据腾讯研究院,中国 46%和 22%的人工智能企业分布在语音识别和计算机视觉 领域。横向来看,美国在基础层和技术层企业数量领先中国,尤其是在自然语言处理、机器学习和技术平台领域。而在应用层面(智能机器人、智能无人机),中美差距略小。展 望未来,在政策扶持、资本热捧和数据规模先天优势下,中国人工智能产业将保持强劲的 增长态势,发展潜力较大。
技术创新能力:专利多而不优,海外布局仍有欠缺
专利申请量是衡量人工智能技术创新能力和发展潜质的核心要素。在全球范围内,人工智 能专利申请主要来源于中国、美国和日本。2000 年至 2018 年间,中美日三国 AI 专利申 请量占全球总申请量的 7395%。中国虽在 AI 领域起步较晚,但自 2010 年起,专利产出 量首超美国,并长期雄踞申请量首位。
从专利申请领域来看, 深度学习、语音识别、人脸识别和机器人等热门领域均成为各国重 点布局领域。其中,美国几乎全领域领跑,而中国在语音识别(中文语音识别正确率世界 第一)、文本挖掘、云计算领域优势明显。具体来看,多数国内专利于 AI 科技 热潮兴起后 申请,并集中在应用端(如智能搜索、智能推荐),而 AI 芯片、基础算法等关键领域和前 沿领域专利技术主要仍被美国掌握。由此反映出中国 AI 发展存在基础不牢,存在表面繁 荣的结构性不均衡问题。
中国 AI 专利质量参差不齐,海外市场布局仍有欠缺。 尽管中国专利申请量远超美国,但技术“多而不强,专而不优”问题亟待调整。其一,中国 AI 专利国内为主,高质量 PCT 数量较少。PCT(Patent Cooperation Treaty)是由 WIPO 进行管理,在全球范围内保护 专利发明者的条约。PCT 通常被为是具有较高的技术价值。据中国专利保护协会统计,美国 PCT 申请量占全球的 41%,国际应用广泛。而中国 PCT 数量(2568 件)相对较少, 仅为美国 PCT 申请量的 1/4。目前,我国 AI 技术尚未形成规模性技术输出,国际市场布 局欠缺;其二,中国实用新型专利占比高,专利废弃比例大。我国专利类别包括发明、实 用新型专利和外观设计三类,技术难度依次降低。中国拥有 AI 专利中较多为门槛低的实 用新型专利,如 2017 年,发明专利仅占申请总量的 23%。此外,据剑桥大学报告显示, 受高昂专利维护费用影响,我国 61%的 AI 实用新型和 95%的外观设计将于 5 年后失效, 而美国 856%的专利仍能得到有效保留。
人才储备:供需失衡,顶尖人才缺口大
人才的数量与质量直接决定了人工智能的发展水平和潜力。目前,全球人工智能人才分布 不均且短缺。据清华大学统计,截至 2017 年,人才储备排名前 10 的国家占全球总量的 618%。欧洲 28 国拥有 43064 名人工智能人才,位居全球第一,占全球总量的 211%。美国和中国分别以 28536、18232 列席第二、第三位。其中,中国基础人才储备尤显薄弱。根据腾讯研究院,美国 AI 技术层人才是中国 226 倍,基础层人才数是中国的 138 倍。
我国人工智能人才供需严重失衡,杰出人才缺口大。 据 BOSS 直聘测算,2017 年国内人 工智能人才仅能满足企业 60%的需求,保守估计人才缺口已超过 100 万。而在部分核心领域(语音识别、图像识别等), AI 人才供给甚至不足市场需求的 40%,且这种趋势随 AI 企业的增加而愈发严重。在人工智能技术和应用的摸索阶段,杰出人才对产业发展起着 至关重要的作用,甚至影响技术路线的发展。美国(5158 人)、欧盟(5787 人)依托雄 厚的科研创新能力和发展机会聚集了大量精英,其杰出人才数在全球遥遥领先,而中国杰 出人才(977 人)比例仍明显偏低,不足欧美的 1/5。
人才流入率和流出率可以衡量一国生态体系对外来人才吸引和留住本国人才的能力。 根据 Element AI 企业的划分标准,中国、美国等国家属于 AI 人才流入与流出率均较低的锚定 国(Anchored Countries),尤其是美国的人工智能人才总量保持相对稳定。具体来看, 国内人工智能培育仍以本土为主,海外人才回流中国的 AI 人才数量仅占国内人才总量的 9%,其中,美国是国内 AI人才回流的第一大来源大国,占所有回流中国人才比重的 439%。 可见国内政策、技术、环境的发展对海外人才的吸引力仍有待加强。
从学术生态的角度
技术创新能力:科研产出表现强劲,产学融合尚待加强
科研能力是人工智能产业发展的驱动力。从论文产出数量来看,1998-2018 年,欧盟、中国、美国位列前三,合计发文量全球占比 6964%。近些年,中国积极开展前瞻性 科技 布 局, AI发展势头强劲,从1998年占全球人工智能论文比例的89%增长至2018年的282%, CAGR1794%。2018 年,中国以 24929 篇 AI 论文居世界首位。中国研究活动的活跃从 侧面体现在人工智能发展潜力较大。
我国论文影响力仍待提高,但与欧美差距逐年缩小。 FWCI(Field-Weighted Citation Impact, 加权引用影响力)指标是目前国际公认的定量评价科研论文质量的最优方法,我们利用 FWCI 表征标准化1后的论文影响力。当 FWCI≥1 时,代表被考论文质量达到或超过了世 界平均水平。近 20 年,美国的 AI 论文加权引用影响力“独领风骚”,2018 年,FWCI 高 于全球平均水平的 3678%;欧洲保持相对平稳,与全球平均水平相当;中国 AI 领域论文 影响力增幅明显,2018 年,中国 FWCI 为 080,较 2010 年增长 4423%,但论文影响力仍低于世界平均水平的 20%。从高被引前 1%论文数量来看,美国和中国高质量论文产出 为于全球第一、第二位,超出第三位英国论文产出量近 4 倍。综合来看,中国顶尖高质量 论文产出与美国不分伯仲,但整体来看,AI 论文影响力与美国、欧美仍有差距。
从发文主体来看,科研机构和高校是目前中国人工智能知识生产的绝对力量,反映出科研成 果转化的短板。 而美国、欧盟和日本则呈现企业、政府机构和高校联合参与的态势。据Scopus 数据显示,2018 年,美国企业署名 AI 论文比例是中国的 736 倍,欧盟的 192 倍。2012 年 至 2018 年,美国企业署名 AI 论文比例增长 43pct,同期中国企业署名 AI 论文仅增长 18pct。 此外,人工智能与市场应用关联密切,校企合作论文普遍存在。而我国校-企合作论文比例仅为 245%,与以色列(1006%)、美国(953%)、日本(647%)差别较大。从产学结合的角度, 中国人工智能研究以学术界为驱动,企业在科研中参与程度较低,或难以实现以市场为导向。
中国人工智能高校数量实位于第二梯队,实力比肩美国。高校是人工智能人才供给和论文 产出的核心载体。 据腾讯研究院统计,全球共 367 所高校设置人工智能相关学科,其中, 美国(168 所)独占鳌头,占据全球的 457%。中国拥有 20 所高校与英国并列第三,数 量上稍显逊色。此外,中国高校实力普遍上升,表现强劲。据麻省理工学院 2019 年发布的AI 高校实力 Top20 榜单中,中国清华大学、北京大学包揽前两名,较 2018 年分别上 升 1 个和 3 个名次。
从创新环境的角度
研发投入:中美研发投入差距收窄
中国研发高投入高强度,在全球研发表现中占据重要地位。 从研发投入的角度,美国、中国、日本和德国始终是全球研发投入的主力军。据 IDC 统计显示,2018 年四国的研发投 入总和占全球总量的比例已达 6077%。其中,美国凭借其强大的研发实力连续多年位居 全球研发投入的榜首。近年来,中国研发投入呈现一路猛增的强进势头,据 Statista 统计, 国内 2019 年研发投入额为 5192 亿美元,仅次于美国。且趋势上与美国差距不断缩小, 2000 年至 2019 年,CAGR 高达 1443%,同期美国 CAGR 仅 299%。由于经济疲软等 诸多原因,欧盟与日本则呈现较为缓慢的上升趋势。据研发投入与强度增长的趋势推测, 中国或在 1-2 年内取代美国的全球研发领先地位。从研发强度的角度,中国研发强度总体 上呈逐步攀升的趋势,且涨幅较大。但对创新活动投入强度的重视程度仍与美国和日本存 在差距。2018 年中国研发强度 197%,低于日本和美国 153、087 个百分点。
资本投入:资金多而项目缺,资本投向侧重终端市场
中美是全球人工智能“融资高地”。 人工智能开发成本高,资本投入成为推动技术开发的主力。在全球范围内,美国是人工智能新增企投融资领先者,据 CAPIQ 数据显示,2010 年至 2019 年 10 月,美国 AI 企业累计融资 773 亿美元,领先中国 320 亿美元,占全球总 融资额的 507%。尤其是特朗普政府以来,人工智能投资力度逐步加码。中国作为全球第 二大融资体,融资总额占全球 355%。考虑到已有格局和近期变化,其他国家和地区难以 从规模上撼动中美两国。从人工智能新增企业数量来看,美国仍处于全球领先地位。2010 至 2018 年,美国累计新增企业数量 7022 家,较约是中国的 8 倍(870 家)。中国每年新 增人工智能企业在 2016 年达到 179 家高点后逐渐下降,近两年分别是 179 家( 2017 年), 151 家(2018 年),表明中国资本市场对 AI 投资也日趋成熟和理性。整体来看,中国人 工智能新增企业增势缓慢,但融资总额涨幅迅猛。这一“资金多而项目缺”的态势或是行 业泡沫即将出现的预警。
相比较美国,中国资本投向侧重易落地的终端市场。 从融资层面来看,中国各领域发展较 为均衡,应用层是突出领域,如自动驾驶、计算机学习与图像、语音识别和无人机技术领 域的新增融资额均超过美国。而美国市场注重底层技术的发展。据腾讯研究院数据显示, 芯片和处理器是美国融资最多的领域,占总融资额的 31%。当前中国对人工智能芯片市场 高度重视,但受限于技术壁垒和投资门槛高,国内芯片融资处于弱势。
基于信息熵的 TOPSIS 法:综合指标评估
数据结果显示,美国综合指标及三大项目指标评分绝对领先,中国第二,欧洲 28 国暂且落后。 具体来看,美国在人工智能人才储备、创新产出、融资规模方面优势明显。中国作为后起之秀,尽管有所赶超,但总体水平与美国相比仍有差距,尤其是杰出人才资源、高 质量专利申请上存在明显的缺陷和短板。但在论文数量和影响力、研发投入等指标上,中国正快速发展,与美国差距收窄。从各指标具体分析来看,我国人工智能研究主要分布在 高校和科研机构,企业参与度较低,产出成果较多呈现条块化、碎片化现象,缺乏与市场 的系统性融合,这将不利于中国人工智能技术的发展和产业优势的发挥。此外,我国科研 产出、企业数量和融资领域集中于产业链中下游,上游核心技术仍受制于国外企业。未来, 若国内底层技术领域仍未能实现突破,势必导致人工智能产业发展面临瓶颈。
展望
转自丨 信息化协同创新专委会
在“新基建”浪潮下,人工智能正成为经济增长的新引擎,各行各业开启智能化升级转型。算力在其中扮演了重要角色,是国家未来竞争力的集中体现。但事实是,在发展的过程中,高速增长的海量数据与更加复杂的模型,正在为算力带来更大的挑战,主要体现为算力不足,效率不高。
算力诚可贵:数据、算法需要更多算力支撑
众所周知,在人工智能发展的三要素中,无论是数据还是算法,都离不开算力的支撑,算力已成为人工智能发展的关键要素。
IDC发布的《数据时代2025》报告显示,2018年全球产生的数据量为33ZB (1ZB=1万亿GB),到2025年将增长到175ZB,其中,中国将在2025年以486ZB的数据量及278%的占比成为全球最大的数据汇集地。
另据赛迪顾问数据显示,到2030年数据原生产业规模量占整体经济总量的15%,中国数据总量将超过4YB,占全球数据量30%。数据资源已成为关键生产要素,更多的产业通过利用物联网、工业互联网、电商等结构或非结构化数据资源来提取有价值信息,而海量数据的处理与分析对于算力的需求将十分庞大。
算法上,先进模型的参数量和复杂程度正呈现指数级的增长趋势。此前 Open AI 发表的一项研究就显示,每三到四个月,训练这些大型模型所需的计算资源就会翻一番(相比之下,摩尔定律有 18 个月的倍增周期)。2012 至 2018 年间,深度学习前沿研究所需的计算资源更是增加了 30 万倍。
到2020年,深度学习模型对算力的需求达到了每天百亿亿次的计算需求。2020年2月,微软发布了最新的智能感知计算模型Turing-NLG,参数量高达到175亿,使用125POPS AI计算力完成单次训练就需要一天以上。随后,OpenAI又提出了GPT-3模型,参数量更达到1750亿,对算力的消耗达到3640 PetaFLOPS/s-day。而距离GPT-3问世不到一年,更大更复杂的语言模型,即超过一万亿参数的语言模型SwitchTransformer即已问世。
由此可见,高速增长的海量数据与更加复杂的模型,正在给算力带来更大的挑战。如果算力不能快速增长,我们将不得不面临一个糟糕的局面:当规模庞大的数据用于人工智能的训练学习时,数据量将超出内存和处理器的承载上限,整个深度学习训练过程将变得无比漫长,甚至完全无法实现最基本的人工智能。
效率价更高:环境与实际成本高企,提升效率迫在眉睫
在计算工业行业,有个假设是“数字处理会变得越来越便宜”。但斯坦福人工智能研究所副所长克里斯托弗•曼宁表示,对于现有的AI应用来说却不是这样,特别是因为不断增加的研究复杂性和竞争性,使得最前沿模型的训练成本还在不断上升。
根据马萨诸塞大学阿默斯特校区研究人员公布的研究论文显示,以常见的几种大型 AI 模型的训练周期为例,发现该过程可排放超过 626000 磅二氧化碳,几乎是普通 汽车 寿命周期排放量的五倍(其中包括 汽车 本身的制造过程)。
例如自然语言处理中,研究人员研究了该领域中性能取得最大进步的四种模型:Transformer、ELMo、BERT和 GPT-2。研究人员在单个 GPU 上训练了至少一天,以测量其功耗。然后,使用模型原始论文中列出的几项指标来计算整个过程消耗的总能量。
结果显示,训练的计算环境成本与模型大小成正比,然后在使用附加的调整步骤以提高模型的最终精度时呈爆炸式增长,尤其是调整神经网络体系结构以尽可能完成详尽的试验,并优化模型的过程,相关成本非常高,几乎没有性能收益。BERT 模型的碳足迹约为1400 磅二氧化碳,这与一个人来回坐飞机穿越美洲的排放量相当。
此外,研究人员指出,这些数字仅仅是基础,因为培训单一模型所需要的工作还是比较少的,大部分研究人员实践中会从头开发新模型或者为现有模型更改数据集,这都需要更多时间培训和调整,换言之,这会产生更高的能耗。根据测算,构建和测试最终具有价值的模型至少需要在六个月的时间内训练 4789 个模型,换算成碳排放量,超过 78000 磅。而随着 AI 算力的提升,这一问题会更加严重。
另据 Synced 最近的一份报告,华盛顿大学的 Grover 专门用于生成和检测虚假新闻,训练较大的Grover Mega模型的总费用为25万美元;OpenAI 花费了1200万美元来训练它的 GPT-3语言模型;谷歌花费了大约6912美元来训练 BERT,而Facebook针对当前最大的模型进行一轮训练光是电费可能就耗费数百万美元。
对此,Facebook人工智能副总裁杰罗姆•佩森蒂在接受《连线》杂志采访时认为,AI科研成本的持续上涨,或导致我们在该领域的研究碰壁,现在已经到了一个需要从成本效益等方面考虑的地步,我们需要清楚如何从现有的计算力中获得最大的收益。
在我们看来,AI计算系统正在面临计算平台优化设计、复杂异构环境下计算效率、计算框架的高度并行与扩展、AI应用计算性能等挑战。算力的发展对整个计算需求所造成的挑战会变得更大,提高整个AI计算系统的效率迫在眉睫。
最优解:智算中心大势所趋,应从国家公共设施属性做起
正是基于上述算力需求不断增加及所面临的效率提升的需要,作为建设承载巨大AI计算需求的算力中心(数据中心)成为重中之重。
据市场调研机构Synergy Research Group的数据显示,截至到2020年第二季度末,全球超大规模数据中心的数量增长至541个,相比2015年同期增长一倍有余。另外,还有176个数据中心处于计划或建设阶段,但作为传统的数据中心,随之而来的就是能耗和成本的大幅增加。
这里我们仅以国内的数据中心建设为例,现在的数据中心已经有了惊人的耗电量。据《中国数据中心能耗现状白皮书》显示,在中国有 40 万个数据中心,每个数据中心平均耗电 25 万度,总体超过 1000 亿度,这相当于三峡和葛洲坝水电站 1 年发电量的总和。如果折算成碳排放则大概是 9600 万吨,这个数字接近目前中国民航年碳排放量的 3 倍。
但根据国家的标准,到2022年,数据中心平均能耗基本达到国际先进水平,新建大型、超大型数据中心的 PUE(电能使用效率值,越低代表越节能)达到 14 以下。而且北上广深等发达地区对于能耗指标控制还非常严格,这与一二线城市集中的数据中心需求形成矛盾,除了降低 PUE,同等计算能力提升服务器,尤其是数据中心的的计算效率应是正解。
但众所周知的事实是,面对前述庞大的AI计算需求和提升效率的挑战,传统数据中心已经越来越难以承载这样的需求,为此,AI服务器和智算中心应运而生。
与传统的服务器采用单一的CPU不同,AI服务器通常搭载GPU、FPGA、ASIC等加速芯片,利用CPU与加速芯片的组合可以满足高吞吐量互联的需求,为自然语言处理、计算机视觉、语音交互等人工智能应用场景提供强大的算力支持,已经成为人工智能发展的重要支撑力量。
值得一提的是,目前在AI服务器领域,我们已经处于领先的地位。
近日,IDC发布了2020HI《全球人工智能市场半年度追踪报告》,对2020年上半年全球人工智能服务器市场进行数据洞察显示,目前全球半年度人工智能服务器市场规模达559亿美元(约3266亿人民币),其中浪潮以164%的市占率位居全球第一,成为全球AI服务器头号玩家,华为、联想也杀入前5(分别排在第四和第五)。
这里业内也许会好奇,缘何中国会在AI服务器方面领跑全球?
以浪潮为例,自1993年,浪潮成功研制出中国首台小型机服务器以来,经过30年的积累,浪潮已经攻克了高速互联芯片,关键应用主机、核心数据库、云数据中心操作系统等一系列核心技术,在全球服务器高端俱乐部里占有了重要一席。在AI服务器领域,从全球最高密度AGX-2到最高性能的AGX-5,浪潮不断刷新业界最强的人工智能超级服务器的纪录,这是为了满足行业用户对人工智能计算的高性能要求而创造的。浪潮一直认为,行业客户希望获得人工智能的能力,但需要掌握了人工智能落地能力的和技术的公司进行赋能,浪潮就可以很好地扮演这一角色。加快人工智能落地速度,帮助企业用户打开了人工智能应用的大门。
由此看,长期的技术创新积淀、核心技术的掌握以及对于产业和技术的准确判断、研发是领跑的根本。
至于智算中心,去年发布的《智能计算中心规划建设指南》公布了智能计算中心技术架构,基于最新人工智能理论,采用领先的人工智能计算架构,通过算力的生产、聚合、调度和释放四大作业环节,支撑和引领数字经济、智能产业、智慧城市和智慧 社会 应用与生态 健康 发展。
通俗地讲,智慧时代的智算中心就像工业时代的电厂一样,电厂是对外生产电力、配置电力、输送电力、使用电力;同理智算中心是在承载AI算力的生产、聚合、调度和释放过程,让数据进去让智慧出来,这就是智能计算中心的理想目标。
需要说明的是,与传统数据中心不同,“智算中心”不仅把算力高密度地集中在一起,而且要解决调度和有效利用计算资源、数据、算法等问题,更像是从计算器进化到了大脑。此外,其所具有的开放标准,集约高效、普适普惠的特征,不仅能够涵盖融合更多的软硬件技术和产品,而且也极大降低了产业AI化的进入和应用门槛,直至普惠所有人。
其实我们只要仔细观察就会发现,智算中心包含的算力的生产、聚合、调度和释放,可谓集AI能力之大成,具备全栈AI能力。
这里我们不妨再次以浪潮为例,看看何谓全栈AI能力?
比如在算力生产层面,浪潮打造了业内最强最全的AI计算产品阵列。其中,浪潮自研的新一代人工智能服务器NF5488A5在2020年一举打破MLPerf AI推理&训练基准测试19项世界纪录(保证充足的算力,解决了算力提升的需求);在算力调度层面,浪潮AIStation人工智能开发平台能够为AI模型开发训练与推理部署提供从底层资源到上层业务的全平台全流程管理支持,帮助企业提升资源使用率与开发效率90%以上,加快AI开发应用创新(解决了算力的效率问题);在聚合算力方面,浪潮持续打造更高效率更低延迟硬件加速设备与优化软件栈;在算力释放上,浪潮AutoML Suite为人工智能客户与开发者提供快速高效开发AI模型的能力,开启AI全自动建模新方式,加速产业化应用。
那么接下来的是,智算中心该遵循怎样的发展路径才能充分发挥它的作用,物尽其用?
IDC调研发现,超过九成的企业正在使用或计划在三年内使用人工智能,其中745%的企业期望在未来可以采用具备公用设施意义的人工智能专用基础设施平台,以降低创新成本,提升算力资源的可获得性。
由此看,智能计算中心建设的公共属性原则在当下和未来就显得尤为重要,即智能计算中心并非是盈利性的基础设施,而是应该是类似于水利系统、水务系统、电力系统的公共性、公益性的基础设施,其将承载智能化的居民生活服务、政务服务智能化。因此,在智能计算中心规划和建设过程中,要做好布局,它不应该通过市场竞争手段来实现,而要体现政府在推进整个 社会 智能化进程的规划、节奏、布局。
总结: 当下,算力成为推动数字经济的根基和我国“新基建“的底座已经成为共识,而如何理性看待其发展中遇到的挑战,在不断高升算力的前提下,提升效率,并采取最佳的发展策略和形式,找到最优解,将成为政府相关部门以及相关企业的重中之重。
文|李佳师
在充满不确定性的地方中碰到确定性,在不会掉馅饼的地方被馅饼砸中,往往都是小概率事件。
“天上会不会掉馅饼?答案是可能会。英伟达的GPU就是被Hinton教授和ImageNet比赛的‘馅饼’给砸中。而浪潮十几年前就和英伟达一起基于GPU+CUDA来做HPC,所以当浪潮从HPC赛道进入AI服务器赛道时,也被AI的馅饼‘砸’中了。” 浪潮集团AI&HPC总经理刘军说。因为当天的采访是在一个茶室,所以刘军谈得也比较放松,关于AI计算业界这几年发生的事,关于浪潮与BAT的AI,关于未来的AI计算,刘军分享了不少“干货”。
有人说,浪潮信息最近这些年的发展,被两个馅饼“砸”中了,一个馅饼是互联网服务器,因为一直贴身服务于成长中的BAT等中国互联网企业,发展出了JDM模式,成为全球最大的互联网服务器供应商。另一个馅饼是AI服务器,在2019年上半年浪潮AI服务器出货量占据全球第一,在中国AI市场占据502%市场份额。关于浪潮互联网服务器的故事大家都知道,但是关于AI服务器是如何被馅饼砸中的,外界知之甚少。
这几年,浪潮信息的核心关键词是智慧计算,浪潮认为“计算力就是生产力”。这次采访中刘军将该观点进行了新演绎,认为“人工智能计算是未来核心的计算力”。
而要谈AI计算力,英伟达是一个绕不过去的话题。英伟达是AI时代计算力增长的红利获得者,这是业界公认的事实。因为其GPU在2012年被深度学习之父Hinton采用,去参加了大规模视觉识别挑战赛(ILSVRC)而一举夺冠,(啰嗦一句:ILSVRC就是斯坦福AI实验室主任李飞飞缔造的ImageNet图像识别比赛),从此奠定了GPU在人工智能训练市场的核心地位,让英伟达的股价 “一骑红尘”一直飙升。
事实上,英伟达的命运是在2012年、2013年开始改变的,从一直做HPC到后来HPC+AI,不断过度到AI市场,因为2012年的ILSVRC比赛以及2016年AlphaGo与李世石比赛,让英伟达的GPU名声大噪,于是GPU成了做深度学习的“标配”。
现在大家谈英伟达都把焦点放在GPU身上,但其实还有一个功臣,CUDA软件平台功不可没。因为这个计算平台,让英伟达培育起开发者生态,因为CUDA让GPU的能力释放出来。“而在2012年之前,英伟达其实已经默默耕耘CUDA计算平台达5~6年之久。估计英伟达公司内部也有不少人抱怨,还要不要继续做CUDA?投入那么久,也没有看到多大的回报,因为它主要是针对高性能计算(HPC)领域,而这个市场又不大。” 刘军透露说。
虽然GPU性能很好,但是没有足够多的软件,所有的软件要从CPU搬到GPU上,就得重写软件,而当时会用CUDA的开发者很少,于是当时身份为浪潮集团HPC总经理的刘军,其HPC团队有很重要的一部分工作就是每年要给行业客户进行CUDA培训,同时帮助行业客户写CUDA 软件,这样的贴身服务于石油、勘探、气象、生物等行业客户,让浪潮积累了大量的行业经验和需求。”也是在那个时候,包括华大基因、奇虎360等客户找到浪潮的HPC团队,说我们能不能一起合作将CPU上的翻译、基因库、安全等应用改到GPU上去跑?因为客户的变化,于是浪潮HPC也就一只脚跨到了AI上。”刘军说。
后来的事情,大家都知晓,英伟达的GPU成为全球AI计算力代言,而浪潮的HPC团队在2017年变成了AI&HPC团队,深耕AI服务器市场,短短几年成为全球第一大AI服务器供应商,在中国AI市场占据502%的份额。
这段关于英伟达与浪潮的“往事”揭示了几个关键信息:一是很多在外界看起来是“天上掉馅饼”的“时来运作”,其实都经历了很长时间的 “至暗时刻”,只是外人没有看到,被馅饼砸中的人,通常都热身了很久。二是在计算产业领域,每一个成功技术和产品的背后,似乎都和 “生态”是否蓬勃发展有关,在英伟达身上如此,在浪潮身上也如此。
浪潮在AI领域去年最大的动静是推出“元脑生态计划”,围绕这个计划,浪潮打造了AI计算、AI资源、AI计算工具三大平台,构建了“左、右“手AI生态,(左手是指有AI功能开发能力的 科技 公司,右手是指有AI落地和交付能力的公司)。
在一个技术领域里,是否参与“尺子”的定制,往往决定了一个企业在产业中的地位是主导还是“被动跟随”。
“每一个领域,都有一些可衡量的尺子,这些尺子规范的建立对一个产业的成熟和蓬勃发展非常重要,这些尺子定得好与不好,会把大家引导到不同的方向上,或是良性的或是畸形。”刘军说。
就像HPC领域的全球超算TOP500排行榜,Linpack测试,就把全球超级计算机产业推向异常发展态势。刘军说:“因为基于Linpack测试来进行全球超级计算机TOP500的排名,带来的结果是各国为了争夺这个排名,争相投巨资建设能排名第一的机器。”这就成了大家做超级计算机的“尺子”,其实这个尺子并不是一个能够很好引导行业朝着更好应用HPC的方向发展。
到了AI计算时代,也应该有一个新的尺子来引导行业的发展。虽然目前在AI领域已经有了谷歌、英伟达公司为主导的Mlperf测试基准,但是基准更侧重于芯片本身的性能,而事实上,用户使用的计算机是一个系统,并不仅仅是一个芯片,所以业界需要一个更侧重于计算系统的测试基准。基于此,浪潮加盟了由国际权威评测机构SPEC成立的机器学习技术委员会(简称SPEC ML),并担任首届委员会主席,Intel公司为秘书长,目前正在推动基于机器学习的测试基准规范制定。“从跟跑、到并跑、到领跑,浪潮希望走到领跑阵营主导产业发展格局。”刘军说。
也是基于此,浪潮与IDC第二次发布了《AI计算力发展评估报告》,希望为政府、 社会 、产业提供一些参考性的报告、依据和数据。
“天下有免费的午餐吗?有的。摩尔时代,摩尔定律就是免费午餐,在人工智能时代,计算力就是免费的午餐,你得大胆地去吃,才能够享受它带来的红利。一定要充分利用计算力这个资源,当你能够用计算力去完成的事情,就没有必要再用人去完成。” 刘军说。
今天在中国市场有众多的AI玩家,包括以BAT为代表的互联网企业,也包括以浪潮等为代表的IT企业,还有大批的AI创业企业,大家的定位有什么不同?浪潮如何与BAT展开竞争?
刘军认为,从基于云来提供AI产业化服务角度看,BAT等公司侧重于基于公有云来提供AI服务,而浪潮则侧重于混合云的角度来提供AI服务,对于非常多的行业和企业客户,他们很在乎数据是存储于本地还是云上,会选择混合云的基础设施方式来获得AI能力、AI服务,在这个维度上浪潮是更合适的选择。
“其实浪潮与BAT之间并不矛盾,大家最终目的一样,比如百度也是我们的客户,我们也是百度的合作伙伴,BAT也是我们生态伙伴的一部分,他们会通过我的生态赋能往前面走,最终实现产业AI化,大家是相互配合的关系。”刘军说:“大家并不是在小池塘里喝水,你喝了他就没得喝,而是在一个大江大海里喝水,根本喝不完。”
有人问,今天浪潮的AI服务器已经占据了整个市场的502%份额,接下来该如何进一步增长,接下来该如何做?刘军给出的答案是,如果这是小池塘,确实会感到有边界,水会被喝完,但其实这是个很大的市场,增长的空间和边界还非常大,而且需要更多的玩家一起把市场做大,把生态做大,把“AI计算力”这个免费的午餐做得更好吃,更容易吃,在这样的诉求下,有大量的事情需要做,现在才刚刚拉开序幕。
0条评论