排查服务器偶发性闪断问题

排查服务器偶发性闪断问题,第1张

上周开始公司托管在IDC机房的一台服务器频繁掉线,导致ssh连接不上,过几分钟又恢复。通过监控查看,没有什么有价值的结果,因为是对公网IP监控的,当时监控是没有数据的,唯一有价值的就是通过监控的No data 时间来看,是不定时触发的,排除了因某些定时任务导致。

监控排查无果后,果断询问机房人员,调取问题发生的时间段流量监控,发现交换机的入口流量已经超过了100M(百兆交换)导致流量骤增,公网无法访问。 机房那边的的入流量徒增也就是我们服务器这边的出流量,猜测有大量上传操作或者cpu飙升的现象。

ssh连接不上我们先要确定是 机器确实宕机了 还是 ssh断掉了 还是公网IP无法连接了 ?

问题再次出现时,通过托管在机房的集群环境中其他机器,用内网IP尝试登陆,成功! 机器是存活的,ssh服务也没有挂!所以就是结合前面的结果,问题就在带宽流量打满了,无法连接。

登录上去以后,top命令 C , 果断找到"罪魁祸首"

根据PID,找到程序父ID,直接定位是哪个进程引起的

根据公司业务逻辑java程序都以容器的方式运行,并且可以看到运行信息带有env为prod的字样,用docker ps 找出这个容器

ss命令看soket连接情况

结果上看有两处 ESTAB状态时,Send-Q 堆积过多,这肯定是不正常的

这个客户端IP也比较可疑,来自香港,因为这个服务只是公司内部调用 ,集群机器也没有香港的机器。

当务之急的解决办法最快清除这些堆积的包与链接,就是重启容器,询问相关业务人员,进行了重启后,再次查看CPU状态已经恢复正常,通过公网IP也可以立刻链接上了,目前需要多观察几天,是否还会复发。

表示收到的数据已经在本地接收缓冲,但是还有多少没有被进程取走,recv()

如果接收队列Recv-Q一直处于阻塞状态,可能是遭受了拒绝服务 denial-of-service 攻击。

对方没有收到的数据或者说没有Ack的,还是本地缓冲区

如果发送队列Send-Q不能很快的清零,可能是有应用向外发送数据包过快,或者是对方接收数据包不够快。

从图中可以看到是大量的 send-Q ,可以判定是发送数据给目的地址的时候出现了阻塞的问题,导致了包堆积在本地缓存中,不能成功发出去。那么问题就产生在了客户端, 重启了容器,清掉正发送的队列,再次观察。

包括在tomcat调优时会有accept-count ,max-connections 参数

参考:

https://wwwcnblogscom/leezhxing/p/5329786html

https://blogcsdnnet/yjh314/article/details/51038774

一、Report Server数据库

是一个SQL Server数据库。它能够存储SSRS配置部分,报告定义,报告元数据,报告历史,缓存政策,快照,资源,安全设置,加密的数据,调度和提交数据,以及扩展信息。 

注意事项:尽管用户能够直接存取在SSRS目录下的数据库并且能够直接修改SSRS使用的对象;但在实践中,不推荐(或不支持)这样做,因为在SSRS目录下的内在数据和结构不能被保证与不同版本的SSRS、服务包或补丁相兼容。 

需要把Report Server数据库当作产品数据库之一来对待。尽管许多开发人员都习惯把RDL存储在一个单独的仓库中,并因此导致经常恢复RDL。但是,损失快照数据能够带来消极的业务影响。

例如,用户可能使用快照的报告"相对静止"数据的能力来作一些业务决定。

二、ReportServerTempDB数据库:

是SSRS使用的临时数据库。这个数据库负责存储中间处理结果,例如报表服务器生成的会话和执行数据、缓存报表以及工作表。

正常情况下,Report Server能够周期性地清ReportServerTempDB中的到期的和孤立的数据。后台进程定期清理时间间隔由参数CleanupCycleMinutes控制,这个参数位于

<Installation Drive>\<Program Files or Program Files(x86)>\Microsoft SQL Server\<SSRS 

Instance>\Reporting Services\ReportServer 下的rsreportserverconfig配置文件中。

有可能是被攻击了。

1断开服务器的网络连接

2查找攻击源通过分析系统日志或登录日志文件,查看可疑信息,同时也要查看系统都打开了哪些端口,运行哪些进程,并通过这些进程分析哪些是可疑的程序。

3系统遭到入侵,原因是多方面的,可能是系统漏洞,也可能是程序漏洞,检查下是哪个原因导致的,以及查清楚遭到攻击的途径。在发现系统漏洞或者应用程序漏洞后,要及时修复。

4备份服务器上的用户数据,要注意的是要确保所备份的文件是正常的。如果备份文件中有异常文件,一定要删除。

5恢复数据和连接网络。将备份的数据重新复制到新安装的服务器上,然后开启服务,最后将服务器开启网络连接,对外提供服务。

6、安装安全防火墙,或者找第三方安全公司进行排查,并制定安全防护措施。例如安全狗等。

7、关闭不必要的端口你和服务

8、重新设置账户密码,密码尽量设置的复杂些

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 排查服务器偶发性闪断问题

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情