商业源码服务器教程 2023-12-30 6:39:01

如何使用loadrunner对服务器进行性能测试

使用LR对数据库进行性能测试，实际上有多种办法，包括通过现有的数据库协议进行CS模式的先录制后执行的模式，以及通过socket方式向服务器发包方式的测试方式。这些是常规书籍上介绍的比较简单上手的测试方法，但是不具备通用性，受已有协议或socket编程方式的限制，所以需要更为通用的测试方法。

用Java user的协议进行所有数据库性能的测试工作：

Java user 不需要录制，把所有的操作通过java语言进行实现，通过lr调用java的class进行加压批量操作，这样可以不关心被测系统是哪个数据库，只要能够通过jdbc进行访问，就能实现性能测试。

一、测试环境准备

1 被测服务器准备，根据测试目的，搭建需要的数据库服务器，确保数据库能够正常访问，正常操作；

2 Java代码的准备，无论使用哪种IDE，只要能够编写访问数据库的class就可以，形式可以是j2se，也可以是j2ee，因为在操作时只使用class的部分方法，所以j2ee就可以了；

3 LR的脚本调试，把java的class导入到脚本调试模式，根据需要添加事务以及其他操作。

二、编写数据库访问

1 使用myeclipse，创建web project，创建如下图的包目录：

Java文件中包含各种访问数据库的方法。

需要注意的是，class中的方法必须是public static，否则LR中无法调用。由于创建的是j2ee程序，所以不用main函数，在web中就可以进行功能验证。

确认class中的方法编写完成，创建一个webjsp文件，如下：

导入class

声明类，并实例化，直接调用刚才编写的3个方法，因为这3个方法是直接对数据库进行操作，不需要实参，也没有返回值，所以直接实现即可。

此时启动web服务，在浏览器中输入jsp的地址，直接刷新页面，就可以调用这3个方法，如果正确，就会对相应的表进行操作，如果不正确，则需要修改相应的代码。

2 LR脚本准备：

LR脚本实际上就是对访问代码的调用，关键在于需要根据测试场景划分不同的脚本布局。

例如：在myEclipse里，我们只编写了一个class，其中包含三个方法，如果在执行性能测试时，这三个方法相互独立，互不干涉，则最简单的划分方法是，创建三个java user，每个java user中包含一个方法，做三份脚本，场景执行时分别进行调用。如果三个方法之间有相互关系，则需要根据实际情况，把有关联的方法放在一起，具体情况可按实际灵活分配。

因为已经将class文件进行编译发布了，所以可以在“java2postgres\WebRoot\WEB-INF\classes\com\lr\test”目录中找到对应的class文件，

复制这个文件，找到LR的目录：HP\LoadRunner\classes\com\lr\test\ 如果没有文件夹，按相同的内容创建。

在LR脚本中进行引包操作：

将需要执行的java类以及方法，放在action中，可根据实际测试情况和所需要验证的内容，具体调试代码。

在这里可以像编写普通LR脚本一样，添加事务或集合点等内容。

由于是通过JDBC对数据库进行访问，因此要在java user中加载jdbc驱动。

运行时设置中，增加jdbc驱动，需要注意的是java user使用的本地jdk，需要至多16版本，若使用17版本，回放会有错误，这是jdk版本的问题。

操作完成之后，按F5或点击运行，进行脚本回放，实际此时也对数据库进行了操作，可以直接查询对应的表，检查功能是否正确。

三、执行性能测试

已经有了java user的脚本，和普通web性能测试一样，设计场景、执行测试、收集报告、分析性能瓶颈即可。

电信检测系统的性能验证指标包括（E）。

A重复性和准确性B线性范围C分析特异性D测定下限或分析敏感性及抗干扰能力E以上都是

测试系统的性能是指测试系统在运行时所表现出来的各种性能指标。测试系统的性能指标主要包括以下几个方面：

响应时间：响应时间是指从测试系统接收到请求到返回结果所需要的时间。对于测试系统来说，响应时间是一个非常重要的性能指标，它可以影响到测试系统的用户体验。测试系统的响应时间越短，用户使用系统时的等待时间就越短。

并发能力：并发能力是指测试系统能够同时处理多少个请求。对于测试系统来说，具备良好的并发能力可以提高系统的性能，让用户更加流畅地使用系统。如果测试系统的并发能力不足，就容易导致系统崩溃或者出现异常情况。

可扩展性：可扩展性是指测试系统能够扩展到更大的规模，以应对用户数量的增加。对于测试系统来说，具备良好的可扩展性可以让系统更加灵活，能够根据实际需要进行扩容或缩容，以满足不同的业务需求。

稳定性：稳定性是指测试系统在长时间运行中不会出现异常或崩溃的情况。对于测试系统来说，稳定性是一个非常重要的性能指标，它关系到测试系统能否长期稳定运行，以及用户能否正常使用系统。

安全性：安全性是指测试系统能够保护用户数据的安全。对于测试系统来说，安全性是一个非常重要的性能指标，它关系到测试系统能否保护用户数据不被泄露或者遭受攻击。

综上所述，测试系统的性能指标包括响应时间、并发能力、可扩展性、稳定性和安全性等方面。测试系统的性能指标对于测试系统的运行和用户体验都有着非常重要的影响。因此，在测试系统的设计和开发过程中，需要充分考虑这些性能指标，并采取相应的措施来优化测试系统的性能。

影响web服务器请求并发数量的因素

只讨论一台服务器的话，3650双路加4G内存支持到5万并发是容易达到的，即使针对业务流比较复杂的情况，也能满足很大程度的需要。

但是考虑到存储子系统，比如4块sas硬盘raid0，可能只能达到5000数量级的并发请求。如果是以另外的光纤盘阵来支持存储则可以显著提高硬盘传输带宽的性能。

最后还要考虑到你的网络带宽，对大多数网站来说，通常这才是最大的瓶颈所在。也就是说即使你的cpu、内存、硬盘都没问题，也会因为租用的网络带宽限制而影响最大的并发数。

11 负载均衡介绍

111 负载均衡的妙用

112 为什么要用lvs

那为什么要用lvs呢？

ü 简单一句话，当并发超过了Nginx上限，就可以使用LVS了。

ü 日1000-2000W PV或并发请求1万以下都可以考虑用Nginx。

ü 大型门户网站，电商网站需要用到LVS。

12 LVS介绍

LVS是Linux Virtual Server的简写，意即Linux虚拟服务器，是一个虚拟的服务器集群系统，可以在UNIX/LINUX平台下实现负载均衡集群功能。该项目在1998年5月由章文嵩博士组织成立，是 中国国内最早出现的自由软件项目之一 。

121 相关参考资料

LVS官网： http://wwwlinuxvirtualserverorg/indexhtml

相关中文资料

122 LVS内核模块ip_vs介绍

ü LVS无需安装

ü 安装的是管理工具，第一种叫ipvsadm，第二种叫keepalive

ü ipvsadm是通过命令行管理，而keepalive读取配置文件管理

ü 后面我们会用Shell脚本实现keepalive的功能

13 LVS集群搭建

131 集群环境说明

主机说明

web环境说明

web服务器的搭建参照：

Tomcat：

http://wwwcnblogscom/clsn/p/7904611html

Nginx：

http://wwwcnblogscom/clsn/p/7750615html

132 安装ipvsadm管理工具

安装管理工具

查看当前LVS状态，顺便激活LVS内核模块。

查看系统的LVS模块。

133 LVS集群搭建

命令集：

检查结果：

ipvsadm参数说明： (更多参照 man ipvsadm)

134 在web浏览器配置操作

命令集：

至此LVS集群配置完毕！

135 进行访问测试

浏览器访问：

命令行测试：

抓包查看结果：

arp解析查看：

14 负载均衡（LVS）相关名词

术语说明：

141 LVS集群的工作模式--DR直接路由模式

DR模式是通过改写请求报文的目标MAC地址，将请求发给真实服务器的，而真实服务器将响应后的处理结果直接返回给客户端用户。

DR技术可极大地提高集群系统的伸缩性。但要求调度器LB与真实服务器RS都有一块物理网卡连在同一物理网段上，即必须在同一局域网环境。

DR直接路由模式说明：

a)通过在调度器LB上修改数据包的目的MAC地址实现转发。注意，源IP地址仍然是CIP，目的IP地址仍然是VIP。

b)请求的报文经过调度器，而RS响应处理后的报文无需经过调度器LB，因此，并发访问量大时使用效率很高，比Nginx代理模式强于此处。

c)因DR模式是通过MAC地址的改写机制实现转发的，因此，所有RS节点和调度器LB只能在同一个局域网中。需要注意RS节点的VIP的绑定(lo:vip/32)和ARP抑制问题。

d)强调一下：RS节点的默认网关不需要是调度器LB的DIP，而应该直接是IDC机房分配的上级路由器的IP(这是RS带有外网IP地址的情况)，理论上讲，只要RS可以出网即可，不需要必须配置外网IP，但走自己的网关，那网关就成为瓶颈了。

e)由于DR模式的调度器仅进行了目的MAC地址的改写，因此，调度器LB无法改变请求报文的目的端口。LVS DR模式的办公室在二层数据链路层（MAC），NAT模式则工作在三层网络层（IP）和四层传输层（端口）。

f)当前，调度器LB支持几乎所有UNIX、Linux系统，但不支持windows系统。真实服务器RS节点可以是windows系统。

g)总之，DR模式效率很高，但是配置也较麻烦。因此，访问量不是特别大的公司可以用haproxy/Nginx取代之。这符合运维的原则：简单、易用、高效。日1000-2000W PV或并发请求1万以下都可以考虑用haproxy/Nginx(LVS的NAT模式)

h)直接对外的访问业务，例如web服务做RS节点，RS最好用公网IP地址。如果不直接对外的业务，例如：MySQL，存储系统RS节点，最好只用内部IP地址。

DR的实现原理和数据包的改变

(a) 当用户请求到达Director Server，此时请求的数据报文会先到内核空间的PREROUTING链。此时报文的源IP为CIP，目标IP为VIP

(b) PREROUTING检查发现数据包的目标IP是本机，将数据包送至INPUT链

(c) IPVS比对数据包请求的服务是否为集群服务，若是，将请求报文中的源MAC地址修改为DIP的MAC地址，将目标MAC地址修改RIP的MAC地址，然后将数据包发至POSTROUTING链。此时的源IP和目的IP均未修改，仅修改了源MAC地址为DIP的MAC地址，目标MAC地址为RIP的MAC地址

(d) 由于DS和RS在同一个网络中，所以是通过二层来传输。POSTROUTING链检查目标MAC地址为RIP的MAC地址，那么此时数据包将会发至Real Server。

(e) RS发现请求报文的MAC地址是自己的MAC地址，就接收此报文。处理完成之后，将响应报文通过lo接口传送给eth0网卡然后向外发出。此时的源IP地址为VIP，目标IP为CIP

(f) 响应报文最终送达至客户端

15 在web端的操作有什么含义？

151 RealServer为什么要在lo接口上配置VIP？

既然要让RS能够处理目标地址为vip的IP包，首先必须要让RS能接收到这个包。

在lo上配置vip能够完成接收包并将结果返回client。

152 在eth0网卡上配置VIP可以吗？

不可以，将VIP设置在eth0网卡上,会影响RS的arp请求,造成整体LVS集群arp缓存表紊乱，以至于整个负载均衡集群都不能正常工作。

153 为什么要抑制ARP响应？

① arp协议说明

为了提高IP转换MAC的效率，系统会将解析结果保存下来，这个结果叫做ARP缓存。

ARP缓存表是把双刃剑

ARP广播进行新的地址解析

测试命令

windows查看arp -a

③arp_announce和arp_ignore详解

lvs在DR模式下需要关闭arp功能

arp_announce

对网络接口上，本地IP地址的发出的，ARP回应，作出相应级别的限制:

确定不同程度的限制,宣布对来自本地源IP地址发出Arp请求的接口

arp_ignore 定义

对目标地定义对目标地址为本地IP的ARP询问不同的应答模式0

抑制RS端arp前的广播情况

抑制RS端arp后广播情况

16 LVS集群的工作模式

DR（Direct Routing）直接路由模式

NAT（Network Address Translation）

TUN（Tunneling）隧道模式

FULLNAT（Full Network Address Translation）

161 LVS集群的工作模式--NAT

通过网络地址转换，调度器LB重写请求报文的目标地址，根据预设的调度算法，将请求分派给后端的真实服务器，真实服务器的响应报文处理之后，返回时必须要通过调度器，经过调度器时报文的源地址被重写，再返回给客户，完成整个负载调度过程。

收费站模式---来去都要经过LB负载均衡器。

NAT方式的实现原理和数据包的改变

(a) 当用户请求到达Director Server，此时请求的数据报文会先到内核空间的PREROUTING链。此时报文的源IP为CIP，目标IP为VIP

(b) PREROUTING检查发现数据包的目标IP是本机，将数据包送至INPUT链

(d) POSTROUTING链通过选路，将数据包发送给Real Server

(e) Real Server比对发现目标为自己的IP，开始构建响应报文发回给Director Server。此时报文的源IP为RIP，目标IP为CIP

(f) Director Server在响应客户端前，此时会将源IP地址修改为自己的VIP地址，然后响应给客户端。此时报文的源IP为VIP，目标IP为CIP

LVS-NAT模型的特性

l RS应该使用私有地址，RS的网关必须指向DIP

l DIP和RIP必须在同一个网段内

l 请求和响应报文都需要经过Director Server，高负载场景中，Director Server易成为性能瓶颈

l 支持端口映射

l RS可以使用任意操作系统

l 缺陷：对Director Server压力会比较大，请求和响应都需经过director server

162 LVS集群的工作模式--隧道模式TUN

采用NAT技术时，由于请求和响应的报文都必须经过调度器地址重写，当客户请求越来越多时，调度器的处理能力将成为瓶颈。

为了解决这个问题，调度器把请求的报文通过IP隧道(相当于ipip或ipsec )转发至真实服务器，而真实服务器将响应处理后直接返回给客户端用户，这样调度器就只处理请求的入站报文。

由于一般网络服务应答数据比请求报文大很多，采用 VS/TUN技术后，集群系统的最大吞吐量可以提高10倍。

VS/TUN工作流程,它的连接调度和管理与VS/NAT中的一样，只是它的报文转发方法不同。

调度器根据各个服务器的负载情况，连接数多少，动态地选择一台服务器，将原请求的报文封装在另一个IP报文中，再将封装后的IP报文转发给选出的真实服务器。

真实服务器收到报文后，先将收到的报文解封获得原来目标地址为VIP地址的报文, 服务器发现VIP地址被配置在本地的IP隧道设备上(此处要人为配置)，所以就处理这个请求，然后根据路由表将响应报文直接返回给客户。

TUN原理和数据包的改变

(a) 当用户请求到达Director Server，此时请求的数据报文会先到内核空间的PREROUTING链。此时报文的源IP为CIP，目标IP为VIP 。

(b) PREROUTING检查发现数据包的目标IP是本机，将数据包送至INPUT链

(d) POSTROUTING链根据最新封装的IP报文，将数据包发至RS（因为在外层封装多了一层IP首部，所以可以理解为此时通过隧道传输）。此时源IP为DIP，目标IP为RIP

(e) RS接收到报文后发现是自己的IP地址，就将报文接收下来，拆除掉最外层的IP后，会发现里面还有一层IP首部，而且目标是自己的lo接口VIP，那么此时RS开始处理此请求，处理完成之后，通过lo接口送给eth0网卡，然后向外传递。此时的源IP地址为VIP，目标IP为CIP

(f) 响应报文最终送达至客户端

LVS-Tun模型特性

163 LVS集群的工作模式--FULLNAT

LVS的DR和NAT模式要求RS和LVS在同一个vlan中，导致部署成本过高；TUNNEL模式虽然可以跨vlan，但RealServer上需要部署ipip隧道模块等，网络拓扑上需要连通外网，较复杂，不易运维。

为了解决上述问题，开发出FULLNAT

该模式和NAT模式的区别是：数据包进入时，除了做DNAT，还做SNAT（用户ip->内网ip）

从而实现LVS-RealServer间可以跨vlan通讯，RealServer只需要连接到内网。类比地铁站多个闸机。

17 IPVS调度器实现了如下八种负载调度算法：

a) 轮询（Round Robin）RR

调度器通过"轮叫"调度算法将外部请求按顺序轮流分配到集群中的真实服务器上，它均等地对待每一台服务器，而不管服务器上实际的连接数和系统负载。

b) 加权轮叫（Weighted Round Robin）WRR

调度器通过"加权轮叫"调度算法根据真实服务器的不同处理能力来调度访问请求。这样可以保证处理能力强的服务器处理更多的访问流量。

调度器可以自动问询真实服务器的负载情况，并动态地调整其权值。

c) 最少链接（Least Connections） LC

调度器通过"最少连接"调度算法动态地将网络请求调度到已建立的链接数最少的服务器上。

如果集群系统的真实服务器具有相近的系统性能，采用"最小连接"调度算法可以较好地均衡负载。

d) 加权最少链接（Weighted Least Connections） Wlc

在集群系统中的服务器性能差异较大的情况下，调度器采用"加权最少链接"调度算法优化负载均衡性能，具有较高权值的服务器将承受较大比例的活动连接负载。调度器可以自动问询真实服务器的负载情况，并动态地调整其权值。

e) 基于局部性的最少链接（Locality-Based Least Connections） Lblc

"基于局部性的最少链接" 调度算法是针对目标IP地址的负载均衡，目前主要用于Cache集群系统。

该算法根据请求的目标IP地址找出该目标IP地址最近使用的服务器，若该服务器是可用的且没有超载，将请求发送到该服务器。

若服务器不存在，或者该服务器超载且有服务器处于一半的工作负载，则用"最少链接"的原则选出一个可用的服务器，将请求发送到该服务器。

f) 带复制的基于局部性最少链接（Locality-Based Least Connections with Replication）

"带复制的基于局部性最少链接"调度算法也是针对目标IP地址的负载均衡，目前主要用于Cache集群系统。

它与LBLC算法的不同之处是它要维护从一个目标IP地址到一组服务器的映射，而LBLC算法维护从一个目标IP地址到一台服务器的映射。

该算法根据请求的目标IP地址找出该目标IP地址对应的服务器组，按"最小连接"原则从服务器组中选出一台服务器，若服务器没有超载，将请求发送到该服务器。

若服务器超载，则按"最小连接"原则从这个集群中选出一台服务器，将该服务器加入到服务器组中，将请求发送到该服务器。

同时，当该服务器组有一段时间没有被修改，将最忙的服务器从服务器组中删除，以降低复制的程度。

g) 目标地址散列（Destination Hashing） Dh

"目标地址散列"调度算法根据请求的目标IP地址，作为散列键（Hash Key）从静态分配的散列表找出对应的服务器，若该服务器是可用的且未超载，将请求发送到该服务器，否则返回空。

h) 源地址散列（Source Hashing）SH

"源地址散列"调度算法根据请求的源IP地址，作为散列键（Hash Key）从静态分配的散列表找出对应的服务器。

若该服务器是可用的且未超载，将请求发送到该服务器，否则返回空。

18 LVS+Keepalived方案实现

181 keepalived功能

1 添加VIP

2 添加LVS配置

3 高可用（VIP漂移）

4 web服务器健康检查

182 在负载器安装Keepalived软件

# 检查软件是否安装

183 修改配置文件

lb03上keepalied配置文件

lb04的Keepalied配置文件

keepalived persistence_timeout参数意义 LVS Persistence 参数的作用

http://blogcsdnnet/nimasike/article/details/53911363

184 启动keepalived服务

185 在web服务器上进行配置

注意：web服务器上的配置为临时生效，可以将其写入rclocal文件，注意文件的执行权限。

使用curl命令进行测试

至此keepalived+lvs配置完毕

19 常见LVS负载均衡高可用解决方案

Ø 开发类似keepalived的脚本，早期的办法，现在不推荐使用。

Ø heartbeat+lvs+ldirectord脚本配置方案，复杂不易控制，不推荐使用

Ø RedHat工具piranha，一个web界面配置LVS。

Ø LVS-DR+keepalived方案，推荐最优方案，简单、易用、高效。

191 lvs排错思路

大数据数量庞大，格式多样化。大量数据由家庭、制造工厂和办公场所的各种设备、互联网事务交易、社交网络的活动、自动化传感器、移动设备以及科研仪器等生成。它的爆炸式增长已超出了传统IT基础架构的处理能力，给企业和社会带来严峻的数据管理问题。因此必须开发新的数据架构，围绕“数据收集、数据管理、数据分析、知识形成、智慧行动”的全过程，开发使用这些数据，释放出更多数据的隐藏价值。

一、大数据建设思路

1）数据的获得

大数据产生的根本原因在于感知式系统的广泛使用。随着技术的发展，人们已经有能力制造极其微小的带有处理功能的传感器，并开始将这些设备广泛的布置于社会的各个角落，通过这些设备来对整个社会的运转进行监控。这些设备会源源不断的产生新数据，这种数据的产生方式是自动的。因此在数据收集方面，要对来自网络包括物联网、社交网络和机构信息系统的数据附上时空标志，去伪存真，尽可能收集异源甚至是异构的数据，必要时还可与历史数据对照，多角度验证数据的全面性和可信性。

2）数据的汇集和存储

互联网是个神奇的大网，大数据开发和软件定制也是一种模式，这里提供最详细的报价，如果你真的想做，可以来这里，这个手机的开始数字是一八七中间的是三儿零最后的是一四二五零，按照顺序组合起来就可以找到，我想说的是，除非你想做或者了解这方面的内容，如果只是凑热闹的话，就不要来了

数据只有不断流动和充分共享，才有生命力。应在各专用数据库建设的基础上，通过数据集成，实现各级各类信息系统的数据交换和数据共享。数据存储要达到低成本、低能耗、高可靠性目标，通常要用到冗余配置、分布化和云计算技术，在存储时要按照一定规则对数据进行分类，通过过滤和去重，减少存储量，同时加入便于日后检索的标签。

3）数据的管理

大数据管理的技术也层出不穷。在众多技术中，有6种数据管理技术普遍被关注，即分布式存储与计算、内存数据库技术、列式数据库技术、云数据库、非关系型的数据库、移动数据库技术。其中分布式存储与计算受关注度最高。上图是一个图书数据管理系统。

4）数据的分析

数据分析处理：有些行业的数据涉及上百个参数，其复杂性不仅体现在数据样本本身，更体现在多源异构、多实体和多空间之间的交互动态性，难以用传统的方法描述与度量，处理的复杂度很大，需要将高维图像等多媒体数据降维后度量与处理，利用上下文关联进行语义分析，从大量动态而且可能是模棱两可的数据中综合信息，并导出可理解的内容。大数据的处理类型很多，主要的处理模式可以分为流处理和批处理两种。批处理是先存储后处理，而流处理则是直接处理数据。挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。

5）大数据的价值：决策支持系统

大数据的神奇之处就是通过对过去和现在的数据进行分析，它能够精确预测未来；通过对组织内部的和外部的数据整合，它能够洞察事物之间的相关关系；通过对海量数据的挖掘，它能够代替人脑，承担起企业和社会管理的职责。

6）数据的使用

大数据有三层内涵：一是数据量巨大、来源多样和类型多样的数据集；二是新型的数据处理和分析技术；三是运用数据分析形成价值。大数据对科学研究、经济建设、社会发展和文化生活等各个领域正在产生革命性的影响。大数据应用的关键，也是其必要条件，就在于"IT"与"经营"的融合，当然，这里的经营的内涵可以非常广泛，小至一个零售门店的经营，大至一个城市的经营。

二、大数据基本架构

基于上述大数据的特征，通过传统IT技术存储和处理大数据成本高昂。一个企业要大力发展大数据应用首先需要解决两个问题：一是低成本、快速地对海量、多类别的数据进行抽取和存储；二是使用新的技术对数据进行分析和挖掘，为企业创造价值。因此，大数据的存储和处理与云计算技术密不可分，在当前的技术条件下，基于廉价硬件的分布式系统（如Hadoop等）被认为是最适合处理大数据的技术平台。

Hadoop是一个分布式的基础架构，能够让用户方便高效地利用运算资源和处理海量数据，目前已在很多大型互联网企业得到了广泛应用，如亚马逊、Facebook和Yahoo等。其是一个开放式的架构，架构成员也在不断扩充完善中，通常架构如图2所示：

Hadoop体系架构

（1）Hadoop最底层是一个HDFS（Hadoop Distributed File System，分布式文件系统），存储在HDFS中的文件先被分成块，然后再将这些块复制到多个主机中（DataNode，数据节点）。

（2）Hadoop的核心是MapReduce（映射和化简编程模型）引擎，Map意为将单个任务分解为多个，而Reduce则意为将分解后的多任务结果汇总，该引擎由JobTrackers（工作追踪，对应命名节点）和TaskTrackers（任务追踪，对应数据节点）组成。当处理大数据查询时，MapReduce会将任务分解在多个节点处理，从而提高了数据处理的效率，避免了单机性能瓶颈限制。

（3）Hive是Hadoop架构中的数据仓库，主要用于静态的结构以及需要经常分析的工作。Hbase主要作为面向列的数据库运行在HDFS上，可存储PB级的数据。Hbase利用MapReduce来处理内部的海量数据，并能在海量数据中定位所需的数据且访问它。

（4）Sqoop是为数据的互操作性而设计，可以从关系数据库导入数据到Hadoop，并能直接导入到HDFS或Hive。

（5）Zookeeper在Hadoop架构中负责应用程序的协调工作，以保持Hadoop集群内的同步工作。

（6）Thrift是一个软件框架，用来进行可扩展且跨语言的服务的开发，最初由Facebook开发，是构建在各种编程语言间无缝结合的、高效的服务。

Hadoop核心设计

Hbase——分布式数据存储系统

Client：使用HBase RPC机制与HMaster和HRegionServer进行通信

Zookeeper：协同服务管理，HMaster通过Zookeepe可以随时感知各个HRegionServer的健康状况

HMaster: 管理用户对表的增删改查操作

HRegionServer：HBase中最核心的模块，主要负责响应用户I/O请求，向HDFS文件系统中读写数据

HRegion:Hbase中分布式存储的最小单元，可以理解成一个Table

HStore：HBase存储的核心。由MemStore和StoreFile组成。

HLog：每次用户操作写入Memstore的同时，也会写一份数据到HLog文件

结合上述Hadoop架构功能，大数据平台系统功能建议如图所示：

应用系统：对于大多数企业而言，运营领域的应用是大数据最核心的应用，之前企业主要使用来自生产经营中的各种报表数据，但随着大数据时代的到来，来自于互联网、物联网、各种传感器的海量数据扑面而至。于是，一些企业开始挖掘和利用这些数据，来推动运营效率的提升。

数据平台：借助大数据平台，未来的互联网络将可以让商家更了解消费者的使用惯，从而改进使用体验。基于大数据基础上的相应分析，能够更有针对性的改进用户体验，同时挖掘新的商业机会。

数据源：数据源是指数据库应用程序所使用的数据库或者数据库服务器。丰富的数据源是大数据产业发展的前提。数据源在不断拓展，越来越多样化。如：智能汽车可以把动态行驶过程变成数据，嵌入到生产设备里的物联网可以把生产过程和设备动态状况变成数据。对数据源的不断拓展不仅能带来采集设备的发展，而且可以通过控制新的数据源更好地控制数据的价值。然而我国数字化的数据资源总量远远低于美欧，就已有有限的数据资源来说，还存在标准化、准确性、完整性低，利用价值不高的情况，这降低了数据的价值。

三、大数据的目标效果

通过大数据的引入和部署，可以达到如下效果：

1）数据整合

·统一数据模型：承载企业数据模型，促进企业各域数据逻辑模型的统一；

·统一数据标准：统一建立标准的数据编码目录，实现企业数据的标准化与统一存储；

·统一数据视图：实现统一数据视图，使企业在客户、产品和资源等视角获取到一致的信息。

2）数据质量管控

·数据质量校验：根据规则对所存储的数据进行一致性、完整性和准确性的校验，保证数据的一致性、完整性和准确性；

·数据质量管控：通过建立企业数据的质量标准、数据管控的组织、数据管控的流程，对数据质量进行统一管控，以达到数据质量逐步完善。

3）数据共享

·消除网状接口，建立大数据共享中心，为各业务系统提供共享数据，降低接口复杂度，提高系统间接口效率与质量；

·以实时或准实时的方式将整合或计算好的数据向外系统提供。

4）数据应用

·查询应用：平台实现条件不固定、不可预见、格式灵活的按需查询功能；

·固定报表应用：视统计维度和指标固定的分析结果的展示，可根据业务系统的需求，分析产生各种业务报表数据等；

·动态分析应用：按关心的维度和指标对数据进行主题性的分析，动态分析应用中维度和指标不固定。

四、总结

基于分布式技术构建的大数据平台能够有效降低数据存储成本，提升数据分析处理效率，并具备海量数据、高并发场景的支撑能力，可大幅缩短数据查询响应时间，满足企业各上层应用的数据需求。

　　存储网络系统由存储设备、网络设备和主机三个部分组成。存储设备是指该系统中采用的NAS、ISCSI、FC-SAN等磁盘阵列设备，网络设备是指FC交换机或以太网交换机，主机是指安装了以太网卡、FC HBA卡，并安装了一定应用软件的主机设备。存储系统的瓶颈分析主要是看这三个部分中哪一种会首先达到其性能的最大值。　　存储成为整个系统的瓶颈是指存储设备的带宽达到最大值，或IOPS达到最大值，存储设备限制了系统性能的进一步提升，甚至影响了整个系统的正常运行。由于不同业务系统对存储的性能要求不同，一般小文件(小于1MB)读写型的系统中对IO的要求较高，大文件的读写型系统对存储设备带宽的要求比较高。不用应用模式下系统对存储设备的要求不同，瓶颈点出现的位置和特点也不一样。　　应用模式1:　　小型网站系统，应用大多集中于远程用户对WEB页面访问，网站内部为WEB服务器和数据库之间的读写，应用系统对存储的压力非常小，差不多所有类型、所有档次的存储设备都可以作为核心存储，存储设备的带宽和IOPS很难会达到极限。在这样的系统中，与存储设备连接的网络设备一般都千兆以太网交换机，交换机本身的交换能力大多都是10Gb，只有接入网部分的可用带宽较小，一般只有100Mb/s左右的接入带宽，因此接入网最有可能成为存储网络的瓶颈。　　应用模式2:　　如果该网站是一个大型的网络视频系统，支持大量用户在线进行视频节目播放和下载，这种类型的网站前端接入网一般都在2Gb/s以上。此时要分析瓶颈位置，首先要比较接入网带宽和存储带宽，同时还要比较在线用户的最大IO访问量和存储设备的IOPS值。一般来讲，由于NAS设备的带宽和IOPS相对较小，因此NAS比ISCSI和FC-SAN设备更容易成为系统的瓶颈，而ISCSI和FC-SAN较难成为瓶颈。如果存储设备采用NAS，则存储系统成为瓶颈的机率大于接入网，如果存储设备采用FC-SAN，则存储系统成为瓶颈的机率小于接入网。　　瓶颈还经常会出现在负责节目播放和下载功能的视频服务器处。如果视频服务器配置的数量不足，或视频服务器之间无法正常地实现自动地网络负载均衡，那么整个系统的性能压力瓶颈就会出现在视频服务器，使用整个视频网站无法给远程用户提供流畅的节目画面。　　应用模式3:　　数据库系统，数据库系统的存储应用一般都表现为大量的IO访问，对带宽要求较低。如果存储设备的IOPS较小时，会降低数据库的检索和查寻速度，从来影响整个业务的效率。因此建议数据库系统采用IOPS(可按业务规模、工作站数量、每秒的读写访问次数和估算)比较大的FC-SAN设备，不建议采用IOPS相对较小的NAS或ISCSI设备。大型数据库存储最好能采用15000RPM的高速FC磁盘，这样才能将数据库服务器成为整个系统的压力瓶颈。由于SATA硬盘在随机IO读写时的性能不佳，因此存储设备不建议采用SATA磁盘，否则存储设备极有可能数据库系统的IOPS瓶颈。　　应用模式4:　　非线性编辑制作系统。在非线性编辑制作网络中，所有工作站共享式地访问核心存储系统，每台工作站同时以50-200Mb/S的恒定码率访问存储设备。业务系统对带宽的压力非常，而IOPS压力较小。　　存储设备的总可用带宽越大，存储设备就能支持更多数量的编辑制作工作站，网络的规模就越大，网络系统所能承担的业务就越重要。因此编辑制作网的存储一般都会选择主机端口多、特别是磁盘端口多、带宽大的FC-SAN设备。存储设备内部设计时，一般会通过增加磁盘数量、增加扩展柜数量、跨扩展柜创建RAID组、增加主机通道数量等方式最大限度地利用存储控制器前端和后端的总可用带宽，使得磁盘、磁盘通道、主机通道等的总带宽大于控制器的总带宽，这样在工作站访问时存储设备时，才能最大地发挥出控制器的带宽性能。带宽瓶颈在控制器部位才能说明是最好的存储系统设计方案。

从编码方面

一、缓存

缓存是ASPNET中提高性能的重要手段，缓存一般遵循以下原则：

1）在页面中将静态内容与动态内容分割开来

考虑将动态内容作成用户控件

2）缓存合理的数据

一般应当缓存应用程序集的数据、多个用户共同使用的数据、静态数据、生成数据需要很大开销的动态数据、DataSet以及自定义对象等。不要缓存数据库连接对象、DataReader。

3）选择适当的方式

如可以使用页面缓存指令，API等。

二、视图状态

视图状态放在页面中名为_VIEWSTATE的表单隐藏域里面，随页面一起被发送到客户端，在用户提交页面时，又被提交到服务器。

1）如果不需要视图状态，则禁用

视图状态默认是允许的，如果页面不进行PostBack，如果不处理服务器控件的事件，如果服务器控件的数据每次都需要重新计算等

2）尽量减少视图状态中存放的对象

三、关于页面处理（减少页面生成的时间和过程）

1）应尽量减少页面文件的大小

2）通过检测PageIsPostBack减少代码执行的数量

3）禁止使用Debug=“true”，减少页面生成过程中生成额外的调试信息

4）使用ServerTransfer而不使用ResponseRedirect，减少服务器和客户端间的往返

5）尽量使用客户端验证，减少服务器和客户端间的往返

6）在适当的场合使用服务器控件

7）尽量避免嵌套的服务器控件

四、避免使用PageDataBind和DataBinderEval

五、关于Application对象和Session对象

1）使用静态属性存储数据而不使用Application对象，在Application对象里存储只读类型的数据都将回提高性能

2）尽量使用InProc模式的Session，这个模式是最快的

3）在Session里存储基本类型的数据减少序列化的所消耗的资源

4）如果不用Session变量，使用EnvableViewState=“false”禁用

5）如果不修改Session变量的值，尽量使用ReadOnly属性设置

六、关于字符串操作

1）尽量使用ResponseWrite将结果输出到浏览器，这种方法是最快的。不要将字符串连接在一起一次输出。

2）在字符串短并且少的情况下可以使用StringConcat方法，而在字符串长度未知，并且字符串大的情况下，使用StringBuilder对象

3）不要使用strVar==“”来判断字符串是否为“”，这样它会创建额外的字符串，请使用strVar==StringEmpty代替或者使用strVarLength==0来判断

4）请使用StringCompare方法进行字符串的比较

七、关于数据访问

1）尽量使用存储过程返回数据，不要直接在代码中进行查询

2）在数据库中只返回有用的数据结果，不要选择不使用的数据字段

3）进行使用DataReader进行数据绑定，DataReader是单向只读的

4）尽量一次返回多个数据集而不是每个记录集分别打开一次数据库连接进行查询

5）尽量晚的打开数据库，尽量早的关闭数据库

6）使用连接池提高性能

7）使用ExecuteNonQuery方法执行不返回数据的操作，使用ExecuteScalar方法返回单个结果的操作，使用CommandBehaviorSequentialaccess返回二进制数据或者大数据

8）如果多次相同的查询，请使用CommandPrepare方法

9）使用GetOrdinal方法预先得到索引值，使用索引值比使用字符串的列名查询数据效率更高

八、关于代码优化

1）在解析基本数据类型时，使用Try方法如果解析失败，会抛出异常，使用TryParse方法则只执行Else下的语句。

2）使用AppendAllText、WriteAllBytes等方法读写文件内容可以优化性能

3）将循环判定条件放在for语句外

4）避免在循环里创建对象

5）尽量减少装箱的次数

6）不要使用例外控制程序的流程

7）在循环中不要使用不变的对象属性或者字段

8）使用for循环代替foreach循环遍历结合内容

9）数组是所有集合中最快的，如果没有特殊需要，尽量使用数组代替集合

10）了解各个集合类型的特性，选择合适的类型

11）使用泛型避免减少装箱、拆箱

大型网站，比如门户网站。在面对大量用户访问、高并发请求方面，基本的解决方案集中在这样几个环节：使用高性能的服务器、高性能的数据库、高效率的编程语言、还有高性能的Web容器。但是除了这几个方面，还没法根本解决大型网站面临的高负载和高并发问题。

上面提供的几个解决思路在一定程度上也意味着更大的投入，并且这样的解决思路具备瓶颈，没有很好的扩展性，下面我从低成本、高性能和高扩张性的角度来说说我的一些经验。

HTML静态化

其实大家都知道，效率最高、消耗最小的就是纯静态化的html页面，所以我们尽可能使我们的网站上的页面采用静态页面来实现，这个最简单的方法其实也是最有效的方法。但是对于大量内容并且频繁更新的网站，我们无法全部手动去挨个实现，于是出现了我们常见的信息发布系统CMS，像我们常访问的各个门户站点的新闻频道，甚至他们的其他频道，都是通过信息发布系统来管理和实现的，信息发布系统可以实现最简单的信息录入自动生成静态页面，还能具备频道管理、权限管理、自动抓取等功能，对于一个大型网站来说，拥有一套高效、可管理的CMS是必不可少的。

除了门户和信息发布类型的网站，对于交互性要求很高的社区类型网站来说，尽可能的静态化也是提高性能的必要手段，将社区内的帖子、文章进行实时的静态化，有更新的时候再重新静态化也是大量使用的策略，像Mop的大杂烩就是使用了这样的策略，网易社区等也是如此。

同时，html静态化也是某些缓存策略使用的手段，对于系统中频繁使用数据库查询但是内容更新很小的应用，可以考虑使用html静态化来实现，比如论坛中论坛的公用设置信息，这些信息目前的主流论坛都可以进行后台管理并且存储再数据库中，这些信息其实大量被前台程序调用，但是更新频率很小，可以考虑将这部分内容进行后台更新的时候进行静态化，这样避免了大量的数据库访问请求。

服务器分离

大家知道，对于Web服务器来说，不管是Apache、IIS还是其他容器，是最消耗资源的，于是我们有必要将与页面进行分离，这是基本上大型网站都会采用的策略，他们都有独立的服务器，甚至很多台服务器。这样的架构可以降低提供页面访问请求的服务器系统压力，并且可以保证系统不会因为问题而崩溃，在应用服务器和服务器上，可以进行不同的配置优化，比如apache在配置ContentType的时候可以尽量少支持，尽可能少的LoadModule，保证更高的系统消耗和执行效率。

数据库集群和库表散列

大型网站都有复杂的应用，这些应用必须使用数据库，那么在面对大量访问的时候，数据库的瓶颈很快就能显现出来，这时一台数据库将很快无法满足应用，于是我们需要使用数据库集群或者库表散列。

在数据库集群方面，很多数据库都有自己的解决方案，Oracle、Sybase等都有很好的方案，常用的MySQL提供的Master/Slave也是类似的方案，您使用了什么样的DB，就参考相应的解决方案来实施即可。

上面提到的数据库集群由于在架构、成本、扩张性方面都会受到所采用DB类型的限制，于是我们需要从应用程序的角度来考虑改善系统架构，库表散列是常用并且最有效的解决方案。我们在应用程序中安装业务和应用或者功能模块将数据库进行分离，不同的模块对应不同的数据库或者表，再按照一定的策略对某个页面或者功能进行更小的数据库散列，比如用户表，按照用户ID进行表散列，这样就能够低成本的提升系统的性能并且有很好的扩展性。sohu的论坛就是采用了这样的架构，将论坛的用户、设置、帖子等信息进行数据库分离，然后对帖子、用户按照板块和ID进行散列数据库和表，最终可以在配置文件中进行简单的配置便能让系统随时增加一台低成本的数据库进来补充系统性能。

缓存

缓存一词搞技术的都接触过，很多地方用到缓存。网站架构和网站开发中的缓存也是非常重要。这里先讲述最基本的两种缓存。高级和分布式的缓存在后面讲述。

架构方面的缓存，对Apache比较熟悉的人都能知道Apache提供了自己的缓存模块，也可以使用外加的Squid模块进行缓存，这两种方式均可以有效的提高Apache的访问响应能力。

网站程序开发方面的缓存，Linux上提供的Memory Cache是常用的缓存接口，可以在web开发中使用，比如用Java开发的时候就可以调用MemoryCache对一些数据进行缓存和通讯共享，一些大型社区使用了这样的架构。另外，在使用web语言开发的时候，各种语言基本都有自己的缓存模块和方法，PHP有Pear的Cache模块，Java就更多了，net不是很熟悉，相信也肯定有。

镜像

镜像是大型网站常采用的提高性能和数据安全性的方式，镜像的技术可以解决不同网络接入商和地域带来的用户访问速度差异，比如ChinaNet和EduNet之间的差异就促使了很多网站在教育网内搭建镜像站点，数据进行定时更新或者实时更新。在镜像的细节技术方面，这里不阐述太深，有很多专业的现成的解决架构和产品可选。也有廉价的通过软件实现的思路，比如Linux上的rsync等工具。

负载均衡

负载均衡将是大型网站解决高负荷访问和大量并发请求采用的终极解决办法。

负载均衡技术发展了多年，有很多专业的服务提供商和产品可以选择，其中有两个架构可以参考。

硬件四层交换

第四层交换使用第三层和第四层信息包的报头信息，根据应用区间识别业务流，将整个区间段的业务流分配到合适的应用服务器进行处理。　第四层交换功能就象是虚 IP，指向物理服务器。它传输的业务服从的协议多种多样，有HTTP、FTP、NFS、Telnet或其他协议。这些业务在物理服务器基础上，需要复杂的载量平衡算法。在IP世界，业务类型由终端TCP或UDP端口地址来决定，在第四层交换中的应用区间则由源端和终端IP地址、TCP和UDP端口共同决定。

在硬件四层交换产品领域，有一些知名的产品可以选择，比如Alteon、F5等，这些产品很昂贵，但是物有所值，能够提供非常优秀的性能和很灵活的管理能力。Yahoo中国当初接近2000台服务器使用了三四台Alteon就搞定了。

软件四层交换

大家知道了硬件四层交换机的原理后，基于OSI模型来实现的软件四层交换也就应运而生，这样的解决方案实现的原理一致，不过性能稍差。但是满足一定量的压力还是游刃有余的，有人说软件实现方式其实更灵活，处理能力完全看你配置的熟悉能力。

软件四层交换我们可以使用Linux上常用的LVS来解决，LVS就是Linux Virtual Server，他提供了基于心跳线heartbeat的实时灾难应对解决方案，提高系统的鲁棒性，同时可供了灵活的虚拟VIP配置和管理功能，可以同时满足多种应用需求，这对于分布式的系统来说必不可少。

一个典型的使用负载均衡的策略就是，在软件或者硬件四层交换的基础上搭建squid集群，这种思路在很多大型网站包括搜索引擎上被采用，这样的架构低成本、高性能还有很强的扩张性，随时往架构里面增减节点都非常容易。这样的架构我准备空了专门详细整理一下和大家探讨。

Internet的规模每一百天就会增长一倍，客户希望获得7天24小时的不间断可用性及较快的系统反应时间，而不愿屡次看到某个站点"Server Too Busy"及频繁的系统故障。

网络的各个核心部分随着业务量的提高、访问量和数据流量的快速增长，其处理能力和计算强度也相应增大，使得单一设备根本无法承担。在此情况下，如果扔掉现有设备去做大量的硬件升级，这样将造成现有资源的浪费，而且如果再面临下一次业务量的提升，这又将导致再一次硬件升级的高额成本投入，甚至性能再卓越的设备也不能满足当前业务量的需求。于是，负载均衡机制应运而生。

负载均衡（Load Balance）建立在现有网络结构之上，它提供了一种廉价有效透明的方法扩展网络设备和服务器的带宽、增加吞吐量、加强网络数据处理能力、提高网络的灵活性和可用性。

负载均衡有两方面的含义：首先，大量的并发访问或数据流量分担到多台节点设备上分别处理，减少用户等待响应的时间；其次，单个重负载的运算分担到多台节点设备上做并行处理，每个节点设备处理结束后，将结果汇总，返回给用户，系统处理能力得到大幅度提高。

负载均衡技术主要应用：

DNS负载均衡最早的负载均衡技术是通过DNS来实现的，在DNS中为多个地址配置同一个名字，因而查询这个名字的客户机将得到其中一个地址，从而使得不同的客户访问不同的服务器，达到负载均衡的目的。DNS负载均衡是一种简单而有效的方法，但是它不能区分服务器的差异，也不能反映服务器的当前运行状态。

代理服务器负载均衡使用代理服务器，可以将请求转发给内部的服务器，使用这种加速模式显然可以提升静态网页的访问速度。然而，也可以考虑这样一种技术，使用代理服务器将请求均匀转发给多台服务器，从而达到负载均衡的目的。

地址转换网关负载均衡支持负载均衡的地址转换网关，可以将一个外部IP地址映射为多个内部IP地址，对每次TCP连接请求动态使用其中一个内部地址，达到负载均衡的目的。

协议内部支持负载均衡除了这三种负载均衡方式之外，有的协议内部支持与负载均衡相关的功能，例如HTTP协议中的重定向能力等，HTTP运行于TCP连接的最高层。

NAT负载均衡 NAT（Network Address Translation 网络地址转换）简单地说就是将一个IP地址转换为另一个IP地址，一般用于未经注册的内部地址与合法的、已获注册的Internet IP地址间进行转换。适用于解决Internet IP地址紧张、不想让网络外部知道内部网络结构等的场合下。

反向代理负载均衡普通代理方式是代理内部网络用户访问internet上服务器的连接请求，客户端必须指定代理服务器,并将本来要直接发送到internet上服务器的连接请求发送给代理服务器处理。反向代理（Reverse Proxy）方式是指以代理服务器来接受internet上的连接请求，然后将请求转发给内部网络上的服务器，并将从服务器上得到的结果返回给internet上请求连接的客户端，此时代理服务器对外就表现为一个服务器。反向代理负载均衡技术是把将来自internet上的连接请求以反向代理的方式动态地转发给内部网络上的多台服务器进行处理，从而达到负载均衡的目的。

混合型负载均衡在有些大型网络，由于多个服务器群内硬件设备、各自的规模、提供的服务等的差异，我们可以考虑给每个服务器群采用最合适的负载均衡方式，然后又在这多个服务器群间再一次负载均衡或群集起来以一个整体向外界提供服务（即把这多个服务器群当做一个新的服务器群），从而达到最佳的性能。我们将这种方式称之为混合型负载均衡。此种方式有时也用于单台均衡设备的性能不能满足大量连接请求的情况下。

对于大型网站来说，前面提到的每个方法可能都会被同时使用到，我这里介绍得比较浅显，具体实现过程中很多细节还需要大家慢慢熟悉和体会，有时一个很小的squid参数或者apache参数设置，对于系统性能的影响就会很大，希望大家一起讨论，达到抛砖引玉之效。