训练好的深度学习模型是怎么部署的?
先说结论:部署的方式取决于需求
需求一:简单的demo演示,只要看看效果的,像是学校里面的demo展示这种
caffe、tf、pytorch等框架随便选一个,切到test模式,拿python跑一跑就好,顺手写个简单的GUI展示结果
高级一点,可以用CPython包一层接口,然后用C++工程去调用
需求二:要放到服务器上去跑,但一不要求吞吐二不要求时延的那种,说白了还是有点玩玩的意思
caffe、tf、pytorch等框架随便选一个,按照官方的部署教程,老老实实用C++部署,例如pytorch模型用工具导到libtorch下跑(官方有教程,很简单)
这种还是没有脱离框架,有很多为训练方便保留的特性没有去除,性能并不是最优的;
另外,这些框架要么CPU,要么NVIDIA GPU,对硬件平台有要求,不灵活;还有,框架是真心大,占内存(tf还占显存),占磁盘
需求三:放到服务器上跑,要求吞吐和时延(重点是吞吐)
这种应用在互联网企业居多,一般是互联网产品的后端AI计算,例如人脸验证、语音服务、应用了深度学习的智能推荐等。由于一般是大规模部署,这时不仅仅要考虑吞吐和时延,还要考虑功耗和成本。所以除了软件外,硬件也会下功夫,比如使用推理专用的NVIDIA P4、寒武纪MLU100等。这些推理卡比桌面级显卡功耗低,单位能耗下计算效率更高,且硬件结构更适合高吞吐量的情况软件上,一般都不会直接上深度学习框架。对于NVIDIA的产品,一般都会使用TensorRT来加速(我记得NVIDIA好像还有TensorRT inference server什么的,名字记不清了,反正是不仅可以加速前传,还顺手帮忙调度了)。TensorRT用了CUDA、CUDNN,而且还有图优化、fp16、int8量化等。反正用NVIDIA的一套硬软件就对了
需求四:放在NVIDIA嵌入式平台上跑,注重时延
比如PX2、TX2、Xavier等,参考上面(用全家桶就对了),也就是贵一点嘛
需求五:放在其他嵌入式平台上跑,注重时延
硬件方面,要根据模型计算量和时延要求,结合成本和功耗要求,选合适的嵌入式平台。比如模型计算量大的,可能就要选择带GPU的SoC,用opencl/opengl/vulkan编程;也可以试试NPU,不过现在NPU支持的算子不多,一些自定义Op多的网络可能部署不上去对于小模型,或者帧率要求不高的,可能用CPU就够了,不过一般需要做点优化(剪枝、量化、SIMD、汇编、Winograd等)顺带一提,在手机上部署深度学习模型也可以归在此列,只不过硬件没得选,用户用什么手机你就得部署在什么手机上23333。为老旧手机部署才是最为头疼的上述部署和优化的软件工作,在一些移动端开源框架都有人做掉了,一般拿来改改就可以用了,性能都不错。
需求六:上述部署方案不满足我的需求
比如开源移动端框架速度不够——自己写一套。比如像商汤、旷世、Momenta都有自己的前传框架,性能应该都比开源框架好。只不过自己写一套比较费时费力,且如果没有经验的话,很有可能费半天劲写不好
、金融行业配置服务器
金融领域涉及面很广,服务器的用途也各不相同。这里选取几个常见的场景,简单讨论一下配置需求。
1金融企业展官方网站。
在预算有限的情况下,企业搭建响应式官网展会,对需求很大,可以配备2核4G2M+云服务器。
预算充足的话,需要搭建金融网站+后台平台,安全性要求高。可选择4核4G10M以上的云服务器。
2互联网金融门户
如第三方信息平台、垂直搜索平台等。
这类平台每天实时更新大量数据信息,注重搜索、匹配、定向,不负责实际销售。它选择服务器配置12核24线程以上的CPU,匹配用户流量大、安全性高的需求,带宽30M/防200G以上。
3构建金融交易体系。
考虑到主要的交易模式属于撮合交易,大量的实时数据交互,一般涉及高频、量化,需要高速运行,对IPOS服务器要求高。
比如单CPU16核32线程以上的双路E5服务器,为了匹配高性能计算,网站前端服务器标配64G以上,数据库服务器一般内存需要达到128G以上。
一般的金融交易机构会把自己的服务器群放在自己的机房或者托管在交易所附近,而金融企业会把自己的服务器托管在用户群附近。
4用于分析市场状况
如果个人用户使用服务器+操作系统+股票软件下载数据进行行情分析,可以选择2核2G2M云服务器。
首先要弄清楚什么是超级计算机,超级计算机现在的主流架构是集群,也就是cluster。超级计算机做的无非是大规模科学计算和存储和处理海量数据!云计算的架构也无非是集群,只是采用了虚拟化技术,通过虚拟化软件来实现而已。超级计算机最大的应用还是高性能计算,高性能计算它致力于开发超级计算机,研究并行算法和开发相关软件。高性能计算主要研究两类问题:一、大规模科学问题,象天气预报、地形分析和生物制药等;二、存储和处理海量数据,像数据挖掘、图像处理和基因测序等。云计算与高性能计算是有交集的,最大的区别就是虚拟化技术,硬件的架构是基本一样的,处理的对象是不同的,高性能计算的单个任务对CPU占有率很高的,云计算的却是很小的,这跟两者的应用是有关的。云计算未来主要还是运用于互联网。云计算服务器计算速度和超级计算机计算速度,实在是没有可比性,处理的对象就不同,没有一个量化的标准,两者也是有相互的交集的。
人尽其才、物尽其用”。企业购买服务器当然是为满足特定需要。针对不同需求,我们要关注的性能指标也不同。举例来说,对于数据库服务器,联机事物处理能力是最需着力考察的指标。TPC-C是“事务处理性能委员会”(TPC)负责制订的基准测试指标,考察联机事务处理每分钟吞吐量。而TPC-C测试结果又包括两个指标,一个是流量指标tpmC,这个值越大越好;另一个是性价比指标Price/tpmC,指的是测试系统价格与流量指标的比值,这个值则越小越好。以IBM公司的x366为例子,根据TPC官方网站,TPC-C在线交易基准测试中,x366的流量指标达到了141504tpmC,是4路至强芯片服务器的世界纪录。
再比如说,购买Web服务器时,最重要的性能指标就应该是SPEC web99。SPEC web99为Web用户提供了用于评测系统用作Web服务器能力的最客观、最具代表性的基准; 而如果是选购应用服务器,关注SPEC jbb200和SAP SD这两个指标就能知道大概其了,因为SPEC jbb200是专门用来评估服务器系统运行Java应用程序能力的基准测试,而SAP SD 的测试结果为客户提供了基本的规模建议。
对于大多数人来说,基准测试指标是一个全新的知识空间 – 许多人在购买服务器时习惯于考虑CPU和内存,以为选定了这些,服务器的性能就差不多了。其实,不同的系统设计技术会对服务器的性能产生巨大影响,用诸多量化指标来衡量比较是十分必要和重要的。
用户都希望系统能24×7×365不停机、无故障地运行,这其实是要求服务器的可用性。而可用性和可管理性是息息相关的。服务器的故障处理技术越成熟,为用户提供的可用性就越高,而这个故障处理技术必须要有良好的管理手段和界面来及时表现:一方面可以通过出现故障时自动执行系统或部件切换以避免或减少意外停机,另一方面要让管理员及时察觉及帮助诊断,才能从根本上解决问题。目前这方面做得较好的是IBMx3架构服务器。它带有一种叫“弹出式光通路诊断面板”的技术,只要轻轻,光通路诊断面板就会以从服务器前端弹出,指示器可以帮助管理员快速地定位和替换故障组件,减少服务器的宕机时间。
以基准测试指标为基准,以理性考量为准绳,二者并行互航,您选择的服务器肯定错不了!
附表:部分服务器性能指标
应用
基准测试
简述
测试中主要考察的部件
联机事物处理
TPC-C
TPC-C是一种考察联机事务处理(OLTP)每分钟吞吐量的基准测试。TPC-C模拟的是完整的计算环境,大量用户针对数据库(如SQL、Server Oracle,DB2)执行并发事务操作。许多IT专业人员将TPC-C视为衡量“真实”OLTP系统性能的有效参考基准。
全面考察微处理器,内存子系统,磁盘子系统合一些网络组件
电子商务
SPECweb99 SPECweb99用于评测Web服务器能够支持的最大同时连接数的客户端/服务器基准测试。基准负载是由运行HTTP Server的服务器联网的客户端设备上的客户端软件来实现的。为Web用户提供用于评测系统用作Web服务器能力的最客观、最具代表性的基准。
系统的微处理器、内存体系结构和编译器
SPECjbb200 SPECjbb200(Java业务基准)是SPEC第一个用于评估服务器端Java的性能的基准,为Java用户提供用于评测服务器系统运行Java应用程序能力的最客观、最具代表性的基准
0条评论