商业源码服务器教程 2024-02-11 14:21:01

腾讯gpu为什么便宜很多

是因为腾讯的GPU云服务器使用的是自主研发的芯片，而不是市面上常用的NVIDIA和AMD芯片，因此可以降低硬件采购成本，从而使得定价更为亲民。此外，腾讯拥有自己的数据中心和云计算平台，可以通过规模优势来降低运营成本，从而将这些成本优惠的价值传递给客户。此外，腾讯还提供了一些优惠政策和折扣活动，吸引更多用户使用其GPU云服务器，进一步降低了价格。总的来说，腾讯GPU云服务器的价格便宜很多，是由于其采用自主研发的芯片、规模优势、优惠政策等多种因素导致的。

这个问题，对许多做AI的人来说，应该很重要。因为，显卡这么贵，都自购，显然不可能。

但是，回答量好少。而且最好的回答，竟然是讲amazonaws的，这对国内用户，有多大意义呢？

我来接地气的回答吧。简单一句话：我们有万能的淘宝啊！

说到GPU租用的选择。阿里、腾讯、华为、滴滴等，大公司云平台，高大上。但是，第一，非常昂贵。很多不提供按小时租用，动不动就是包月。几千大洋撒出去，还是心疼的。第二，遇到codingbug，你找谁去问呢，大厂的售后可不会看代码。第三，看配套。大厂的云服务，适用面广，很难为ai做特殊优化。别看ai炒的热，其实市场还小众的很。

国内外现在有几家专门做算力租赁的，vectorDash，vastai，易学智能，等。

比如，易学智能，国内厂家，GPU便宜、按小时租，并且预装了各种环境-Tensorflow、Pytorch、MXNet、Caffe等都有，还有很多公开数据集可免费用。服务没得说，技术小哥连bug都帮你找，我当时用着，真是上帝感觉。vectordash与vast，出身名门(斯坦福硅谷)。他们的价格，比大厂都要优惠很多。

最后，重复一遍结论：到淘宝，搜gpu租用，跟店家交流一下、再试用1-2小时，你就知道，好东西在哪里了。

适用场景： AI推理（图像分类识别、语音识别、自然语言处理）、视频编解码、机器学习、轻量级训练等。

从GPU高性能计算到可视化再到人工智能基础设施，为客户提供计算能力强大，弹性可配置，性价比高的异构计算实例。其应用前景极其广泛，适用于深度学习、视频渲染、虚拟化桌面等对计算能力、时延要求极高的场景，同时还能满足分子建模、基因组学等领域对基础设施的高要求。

腾讯云推出最新异构计算全新产品矩阵，从GPU高性能计算到可视化再到人工智能基础设施，为客户提供计算能力强大，弹性可配置，性价比高的异构计算实例。

其应用前景极其广泛，适用于深度学习、视频渲染、虚拟化桌面等对计算能力、时延要求极高的场景，同时还能满足分子建模、基因组学等领域对基础设施的高要求。

以深度学习为例，深度学习在训练阶段涉及大量浮点数值计算，矩阵乘法，向量化等操作，需要处理的数据规模可以高达几个T。随着深度学习层次越来越深，计算量的增长也将随之加大。

一次训练过程使用CPU需要几天甚至几周才能完成，而使用腾讯云的GPU云服务器，可以小时级完成训练，优势很明显。只有快速完成深度学习的训练过程，才能加快深度学习的迭代速度，帮助企业改进产品，在竞争中胜出。

GPU虚拟化的实现方式有多种，下面我会列举几种常见的方式：

1 基于GPU硬件虚拟化：这是一种通过在GPU硬件级别上实现虚拟化来提供多个虚拟GPU的方法。这种方式需要硬件支持，并且需要操作系统和驱动程序的支持。它的优点是性能损失较小，但实现难度较大，需要硬件厂商的支持。

2 基于GPU passthrough：这种方式允许直接从物理GPU获取资源，为每个虚拟机分配一部分GPU资源。这种方式不需要额外的虚拟化软件，但是需要BIOS级别的设置，以及对底层硬件和操作系统的深入理解。

3使用容器技术：容器技术如Docker和Kubernetes等可以用于GPU虚拟化。它们提供了一种隔离和分配资源的方式，使得每个容器可以独享一部分GPU资源。这种方式对于需要大量GPU资源的场景非常有用，如深度学习等。

4使用NVIDIA容器引擎：NVIDIA提供了一种专用的容器技术，称为NVIDIA容器引擎（NVIDIA Container Engine, NCE）。它通过使用NVIDIA的软件堆栈，将GPU资源与运行在容器中的应用程序进行分离，实现了高效和可靠的GPU资源分配。

5使用GPU加速的云服务提供商：许多云服务提供商提供GPU加速的云服务，如AWS的Graviton GPU云服务器，GCP的NVIDIA V100等。用户只需购买这些服务，即可在云端享受到高性能的GPU资源。

以上就是几种常见的GPU虚拟化的实现方式。每种方式都有其优缺点，具体选择哪种方式取决于你的需求、预算、技术能力等因素。同时，请注意，每种方式都需要一定的学习和实践才能熟练掌握。建议根据具体情况选择最适合你的方式。

如果内存不够大是会死机的。

如果是死机，首先考虑散热不好，或者电源稳定性不好。

如果是连接断开，首先要考虑网络稳定性问题，包括网速和硬件稳定性，其次要考虑系统网卡驱动以及系统设置。

临时解决方案，可以写一个脚本，获取当前服务器WAN口ip，当获取失败超过3次时，重启network的interface服务，或者重启服务器。

如果是无法连接，查查网络的问题。频繁死机跟网络应该没多大关系，看看磁盘内存散热方面。楼主如果解决不了，着急可以试试滴滴云的GPU云服务器跑跑看，P4 P40 P100 T4 2080Ti多种显卡类型。

有的啊，当前市面上的GPU主机，大多数新手注册都会有一个免费的体验期。根据每个平台的属性不一样，所以体验周期和时间也是完全不一样的。根据我试用了当前各类平台的gpu来说，矩池云的新手体验效果最好。注册就有6小时免费体验，然后邀约还有新手礼包；相当合算。

从使用阿里云GPU云服务器运行katago开始，就发现一个问题：那就是使用sabaki通过gtp协议调用katago，非常顺畅没有任何问题。而同样的运行参数，一旦使用lizzie调用，则卡顿现象十分严重，不得不反复通过暂停、重开，来获取数据。

开始以为是带宽的问题，后来即便将带宽提高到5M也没有丝毫效果。改用AutoDL服务器后，其带宽不需要指定，同样卡顿没有改善。

前几天通过网上学习ssh的时候，看到有文章提到不同ssh服务器，客户端获取的返回数据不一样。受此启发，想到同样GPU服务器，sabaki正常而lizzie存在问题，那说明应该是客户端获取服务器数据、转换的问题。lizzie最早是针对Leelazero的，在获取katago的gtp数据时，对部分数据不识别，或者识别转换效率低，所以导致卡顿，甚至不能正常显示。

于是查看katago的配置文件，感觉应该是logToStderr参数的问题。默认值是false，为了在sabaki观战时看到AI的计算情况，我将值改为TRUE，这样gtp日志输出到sabaki终端。但这样一来，lizzie可能对大量输入数据有些不知所措了。本机还好，一旦通过ssh获取，更是应接不暇了。

果然，将logToStderr值修改为false之后，再调用lizzie，一切正常，顺利完成旧文旧局：“未完”的一局（钱宇平vs小林光一），算是开了一个好头。