mes系统怎么维护
mes系统维护方法如下:
1、按时检查服务器
服务器运维按计划检查服务器、数据库的运行状态,并对异常问题进行处理、 反响、记录,及时发现、解决服务器等硬件的警告、故障及性能瓶颈, 保障服务器正常运行。
2、注重接口
上下连通的MES系统与上层的ERP系统关联紧密,因此企业要注重MES系统与ERP系统等其他信息系统与MES系统的对接,实现数据采集与资源分享。
3、规范问题的解决流程。
首先运维人员不要逃避问题,推卸问题,导致更大的问题发生,引起生产人员的抵抗情绪;其次制定好解决问题的流程,这样才能一劳永逸。当问题出现次数过多就要想办法解决,就要想办法更轻松的运维。
4、注重二次开发
MES系统的思想来自于国外,目前国内多数MES系统的实施都需要建立在国外较成熟的软件运行平台上,因此需要实施公司进行二次开发,系统运维人员提升自身专业技能。
5、做好定期巡检
运维人员要了解系统及周边情况:清楚什么时间点最容易出问题;什么功能容易出问题;什么时候系统在进行批处理;哪些业务对接第三方系统;随着职位的变动,第一对接人是谁等。为了预防系统问题,做好定期巡检,清理系统缓存、日志,查看数据备份之类的操作。
运维人员做好服务器运维管理工作需要注意以下几点:
做好服务器的安全策略,以及制定应对攻击等突发情况的方案。
安装像安全狗这类的服务器防护软件,可以确保服务器受到攻击的时候依然能够稳定的运行。
作为运维人员,时刻掌握服务器的实时情况是十分必要地,及时调整服务器的防护设置是确保服务器安全稳定运行的必要条件。
可以把服务器加入下服云,然后利用服云的云端来实时监控服务器的状况,并且可以再云端设置管理服务器十分便捷。
制定服务器运维管理制度,对服务器进行分类,不同的服务器有不同的管理员,并制定不同的管理规则。
对服务器经常进行安全检查,对发现的安全隐患及时处理。
注意服务器的日常维护,比如清理日志、清理磁盘、优化系统等。
对服务器进行备份,以防数据丢失。
在出现问题的时候,能够及时定位问题,并及时解决。
希望以上信息对您有所帮助。
问题一:做系统运维需要学习些什么?
问题二:网站运维需要学习那些知识? 网站最核心的是流量,也就是有人访问。
要解决流量的问题,首先是网站的基础优化到位,包括网站的程序代码,页面的导航栏目、首页、内容页的设置及内容添加要做到位。在保证网站内容的完整性和稀缺性的前提下,剩下需要做的就是网站的引流推广了,具体的方式也比较多,大概分成免费和付费两种,免费一般需要的时间要长一些,付费的效果一般是比较直接和快速的,如果对于时间没有要求可以选择免费的,如果想快否获得较好的网站排名还是需要进行付费推广。
问题三:做Linux运维要学哪些东西什么顺序主要需要什么能力 运维需要用到的东西很杂,从硬件设备到软件维护。
硬件设备 比如服务器的安装 网络的部署布局 ,最好能够了解防火墙,路由器,交换机的设置。
linux系统的深入了解。最好能够深入到内核和代码层面
部署在linux服务器上的应用的了解和维护,比如tomcat apache weblog浮c nagios cacti等。包括开发人员编写的软件,都需要去进行维护和调优建议,最好了解js和java语言。服务器的各种使用情况的监控,如磁盘,cpu,mem,io等。
架构设计的了解,以及自动化运维的脚本编写。
比如搭建集群或负载模式的架构等,实现服务器的多机热备高可用。
脚本编写,以减少人力操作来提高执行效率和准确性,一般需要shell,python,perl一类的语言基础,也包括awk,except等小语种使用。
数据库的维护
熟悉主流的数据库操作,主要是添删改查的操作。
oracle,mysql,芒果db,db2,memcache,redis等
问题四:运维工程师需要学习哪些课程 操作系统概述、文件系统管理、unix作业管理、网络模型、UDP协议、网络层协议、各类局域网。
Linux基础知识、Vim使用、Shell编程、软件包管理、常用Server、容量分析、性能优化等。
AIX系统管理概述、系统管理工具、软件安装与维护、备份与恢复、网络管理基础、故障诊断、案例分析等。
powerHA概念和实施规划、VIO搭建和部署、日常检查、Oracle体系结构、客户机连接SQL语句、OracleRAC搭建等。
问题五:运维新手们,别再问需不需要学PYTHON了 经常有人在群里问,运维人员需不需要学开发?需不需要学 PYTHON ? PYTHON 和 SHELL 有什么区别?天天问这种好水的问题,我实在受不了,决定帮大家扫扫盲,求求新手们,以后别他妈瞎问了。
现阶段,掌握一门开发语言已经成为高级运维工程师的必备计能,不会开发,你就不能充分理解你们系统的业务流程,你就不能帮助调试、优化开发人开发的程序, 开发人员有的时候很少关注性能的问题,这些问题就得运维人员来做,一个业务上线了,导致 CPU 使用过高,内存占用过大,如果你不会开发,你可能只能查到进程级别,也就是哪个进程占用这么多,然后呢?然后就交给开发人员处理了,这样咋体现你的价值?
另外,大一点的公司,服务器都上几百,上千,甚至数万台,这种情况下怎样做自动化运维?用 SHELL 写脚本 FOR 循环?呵呵,歇了吧, SHELL 也就适合简单的系统管理工作。到复杂的自动化任务还得要用专门的开发语言。你可能说了,自动化管理有专门的开源软件\监控也有,直接拿来用下就好了,但是现有的开源软件如 puppet\saltstack\zabbix\nagio 多为通用的软件,不可能完全适用你公司的所有需求,当你需要做定制、做二次开发的时候,你咋办?找开发部门?开发部门不懂运维的实际业务逻辑,写出来的东西烂烂不能用,这活最后还得交给运维开发人员来做。
其次,不会运维开发,你就不能自己写运维平台\复杂的运维工具,一切要借助于找一些开源软件拼拼凑凑,如果是这样,那就请不要抱怨你的工资低,你的工作不受重视了。
为什么要学 PYTHON ?
PYTHON 第一是个非常牛 B 的脚本语言, 能满足绝大部分自动化运维的需求,又能做后端 C/S 架构,又能用 WEB 框架快速开发出高大上的 WEB 界面,只有当你自已有能力做出一套运维自动化系统的时候,你的价值才体现出来,你才有资格跟老板谈重视, 否则,还是老老实实回去装机器吧。
运维开发为什么要用 PYTHON ?
Good question, 为什么不用 PHP , JAVA , C++ , RUBY ,这里我只能说,见人见智, 如果你碰巧已经掌握了除 PYTHON 之外的其它语言,那你爱用啥用啥,如果你是一个连 SHELL 都还没写明白的新手,想学个语言的话,请用 PYTHON , 为什么呢?首先, PHP 是跟 PYTHON 比的最多的,其实他俩根本就不用比,为什么呢?两个语言适用性不同, PHP 主要适用于 WEB 开发,可以迅速的做出中小型,轻量级的 WEB 网站,但后端嘛,基本还是要借助其它语言, 借助什么语言呢? SHELL ? PYTHON ?呵呵。 而 PYTHON 呢, 是个综合语言, 前后端都可以,单拿出来比 WEB ,也一点不比 PHP 差,但为什么WEB方向上 PHP 比 PYTHON 要火? 先入为主嘛, PHP 90 年代诞生就是做 WEB 的, PYTHON2000 年后才出现 WEB 框架,但论优秀程度上, PYTHON 的 WEB 框架基本上出其无左,至少是跟 PHP 比。
那 JAVA 呢?好吧,一个臃肿\中庸\豪无新意的语言,还是老老实实用它来做 ERP 吧,搞个运维小平台,用 JAVA 真心没啥必要,在我看来, JAVA 就是稳定的中年男人,稳定\成熟\秃顶,而 PYTOHN 代表的就是青春, 简洁\快\干净\帅!
C++ \ C ,这个嘛,我只能说,如果你会了 PYTHON, 又>>
问题六:运维工程师需要什么技能? 最好的方法就是去看一些招聘网站的招聘简介了 已经很全了
岗位职责:
1、负责公司网络总体系统及子系统的维护;
2、负责网络整体架构规划、实施、优化、安全;
3、负责整体网络的操作规范文档编写,整合系激资源;
4、负责整体网络的风险评估与备份系统实现;
5、研究主流的互联网应用技术,并负责将此是现在公司业务系统测试及应用;
6、公司整体网络架构规划,实施及维护;
7、主动发现问题,提出合理化建设,积极提出优化手段和建议。
任职资格:
1、大专学历,3年以上工作经验;
2、能够承受一定的工作压力,具备良好的沟通协调能力及突发事件单独处理能力;
3、熟悉unix/linux操作系统;
4、熟悉Linux下不同数据库的安装和调试,熟练使用shell脚步语言;
5、精通LAMP架构,对LAMP架构的部署、搭建、优化、排错等方面有丰富的经验。对高负载、大访问量 情况下的LAMP架构有运维经验者优先。
6、熟悉Linux下不同的存储解决方案,同时管理超过50太以上的linux服务器组,有整体管理经验者优先;
7、利用syslong收集各个关键出口设备情况,充分利用snmp协议,规划并架设一整套网络监控系统;
8、具备独立的工作能力,良好的沟通能力和团队精神,高度的责任心,工作积极主动
问题七:想做IT运维 该从什么方面学起 这个东西不知道你有基础没,没有基础的话入门比较吃力,我做这块是从培训学校出来的,学了一年半花了近三万块。看视频用处不是很大,我从学校出来的感觉学的东西跟实际的都有些出入,找一个人带吧,这个要快点,自己学有那个毅力没有方向。给你讲下网络运维具体都要求哪块吧。1、网络运维离不开Linux,现在大些的企业基本上用的都是这个系统,特别是做金融,电商的,安全性,稳定性高,如果这个不会,哪基本上一般的工作机会都没了。2、网络日常基本问题的维护,像网络不稳定啊,丢包啊,服务器上网站不能访问啊,公司的服务器跨掉了啊,这些都是网络运维的工作。3、这个就是日常一些软件的管理了,像网站IIS,APACHE的搭建啊,MYSQL的管理啊,还有一些服务器上的基本应用等,这个都要熟练。说了这三条,其实要求的也没那么严格,都要精通,关键都得有所了解,遇到问题了知道大概的处理思路,多多百度,就可以应付过来,重要的是在工作的过程中多多学习,这就进步的快,想往这方面发展可以咨询我。
问题八:想学 网络运维工程师 需要什么要求 如何入门呢? 你是打算自学是吗?运维不仅仅是单机方面的知识哟,还涉及局域网,还有路由交换等等呢!你现在到底有什么样的基础,大家也不是很清楚哈。要不你说说自己的情况吧。
问题九:运维工程师必须掌握的基础技能有哪些 技能:
1 Linux基础
包括对Linux整体的理解/使用和基本命令:
了解Linux FHS : Filesystem Hierarchy Standard,国人写的这本书不错 Linux系统架构与目录解析 (豆瓣)
入门Linux:鸟哥的Linux私房菜基础学习篇(第三版) (豆瓣) 个人认为鸟哥的这本书是一本非常好的入门书
基本操作命令:Google,如Linux mand cheat sheet
熟悉至少一个内置编辑器: vi, nano
至少熟悉一个发行版(或系列),建议作为服务器常用的如Centos, Debian, Ubuntu,可以了解多个常用发行版
2 运维的命令:
运维相关的工具(命令),了解它能解决很多问题。
前几天刚回答了一个问题:如何才能更深入的学习linux?
里面的图在这里也可以用到:
可以对着图对学习了解这些命令。
另外我个人也会对平时用到的这些工具做一个整理和记录,总结到我的个人维基上:Wiki ・ Tanky Woo
3 基础服务:
LAMP或LNMP :Apache/Nginx,MySQL,PHP/Python/Perl LAMP (software bundle)
FTP
DNS
SAMBA
NTP
DHCP
可以本地搭建练练手
这里推荐鸟哥另外一本书 服务器架设篇: 鸟哥的Linux私房菜 (豆瓣)
4 运维平台工具:
也在这个问题 如何才能更深入的学习linux? 里提到了:
Nagios
Puppet
Zabbix
Cacti
SaltStack
可以选择性的折腾下,因为这个涉及到业务,没有实际环境,很难去理解他们的功能和特点。
5 脚本:
必备:Shell
额外:Python,Perl
6 底层:
Linux C,内核
7 网络:
网络是非常重要的一块
把《TCP/IP协议详解》多看几遍,理解。
熟练使用tcpdump等抓包工具
8 安全:
防火墙配置,如 iptables
9 硬件:
接口类型
查看硬件信息
知道各类型服务器,如塔式、机架式、刀片式
10 其它:
了解更多特定技能要求的方式:
Google搜Linux运维工程师 招聘,看看他们的需求。
最后推荐一本书:Unix/Linux系统管理技术手册 UNIX/Linux 系统管理技术手册 (豆瓣)
后续想到再做补充
素养/处理方式:
除了技能,我觉得素养(态度)也可以谈谈
这个正好看到右边相关问题:运维工程师需要具备哪些性格特质?
1 安全
运维人员的权限很大,所以一定要保证帐号/私钥的安全。
最好使用加密工具存储。比如truecrypt,1password
基于本地存储。切勿用网盘,也不建议用lastpass等
ssh私钥添加密码
以上任何一点都很重要,否则弄丢了,风险会非常大。
2 责任心
如上面那个帖子里 @山大 提到的 Owner 意识
遇到报警,第一时间处理,而不要等着他人去处理
如果无法处理,应该第一时间让同事协助帮忙,而不要禁止报警,让问题掩盖
3 细心
你的任何一个操作,都可能造成系统的损坏、业务出问题。所以敲命令时一定要细心、再三确认。你敲的再快,也就节省那么一点时间,出了问题才是大事。
4 推进/改善
如果代码有问题,导致系统开销很大,比如负载,io等。应该第一时间和开发部门确认,要求优化代码。
5 进取心/不断学习
运维的知识范围很广>>
问题十:关于系统运维方面,需要掌握哪些方面的知识 我来试着回答一下吧:以前做过企业内部的支持顾问,也做过外部的技术支持顾问,现在主要做系统实施,对各方面的掌握知识的理解多少有点,提出几点,希望对你有帮助。我觉得你肯定指的是企业内部的SAP运维工程师吧,是吧?对于这个职位你需要掌握的几个重点内容如下:1》能够了解和掌握所负责的模块的公司业务情况。2》熟悉并掌握所负责模块的系统应用操作。3》能够配置所负责模块的系统配置。4》最好还能掌握其他相关联的模块的基本知识,比如说,你是SD模块的工程师,那你还应该掌握一些MM库存的知识,FICO的少量知识,最好还能了解一些WM的相关知识。5》对于系统内的增强开发非常熟悉,知道这些增强开发都控制了什么系统操作,如果更改的话,会对系统操作有什么影响。6》要会一些ABAP的基本知识,能够开发简单的程序,包括报表、表单和增强开发。7》起码要掌握一些debug技巧,能够知道说一个程序出错后,如何去跟踪这个程序的取数。8》对于表结构应该有了解,能够熟悉的写出负责模块的基本常用表名。9》除了以上技术方面的意外,还应该能够有能够跟业务人员沟通和了解业务需求的能力,能够把他们的需求转换为系统功能的实力,当然到了这一步,你就可以向外部顾问的方向迈进了。
1 基础理论知识;
2 基础命令(系统命令、目录管理、用户管理、文件权限、磁盘管理、资源查看等等常见操作);
3 文本高效处理(vi、vim、awk、grep、find、sed等);
4 bash shell脚本(可以边工作边学习,使用shell编写简单的代替重复性操作的脚本);
5 进程调度,内存管理,文件系统,外设管理等,要熟练使用相关工具,如top iotop iftop iostat vmstatss等,并且最好了解其原理;
1 TCP/IP协议、DNS服务、CDN原理、iproute常见的网络客户端工具(ping、wget、ftp);
2 crontab计划任务;
3 ps、top、htop、vmstat、lsof等命令;
4 tcp,http,https,udp等;
5 最好能做到精通,4层,7层的网络流量分析技能要熟练掌握;
6 内部路由协议,边际路由,交换原理,域名解析,ipv6相关知识;
1 MySQL各个版本之间的关系和特性;
2 MySQL的安装及增删改查;
3 MySQL的存储引擎;
4 MySQL的优化;
5 MySQL日常使用及运维,包含备份及故障排查;
1 使用shell脚本实现各种服务的自动化部署;
2 使用shell脚本实现监控系统及应用自动化;
3 使用shell脚本实现各类巡检,故障排查自动化
随着市场竞争力不断增大,各个企业除了要增加自身产品的竞争力之外,也越来越重视消费者的服务,毕竟大家的生活质量在提高,每个产品也都相差不大,而服务就变成了用户最值得考虑的一个因素,也更好的体现了品牌的价值。这就要求公司进入了几十台到几千台服务器的运维监控阶段,无论数量如何增加,保持服务器的稳定才是重中之重,在服务器数量少于200台的时候,主要考虑简单使用、稳定运行、报警这三个方面,一旦大于这个数量,就需要相应的提升技术手段了。
基本上200台以下的服务器运营监控就是小白级操作了,如果出现一些异常系统可以第一时间进行报警,并且帮助用户解决问题,这也是最基础的要求,基本上哪怕是新手适当的进行学习就可以操作成功。而当服务器数量从200增加到1000这个阶段,这意味着用户的需求也在变复杂,那么技术人员就需要将监控内容进行统一,实现全覆盖式的监控管理,确保每一个用户出现问题时,都没有漏报的现象。
而当服务器超过1000台以上时,监控的数量越来越多,消费者的告警信息也会急速增长,每天都会收到成百上千的用户需要解决问题的消息,如果系统不进行相关的整理的话,很容易忽略到消费者的消息,从而带来非常不好的体验,这个时候就需要及时对报警信息进行相应的整理,尽量的化繁为简,减少出现重复报警的情况。并且对于内存使用率、CPU使用率等模块进行独立的设置,做到权责分明、快速定位、及时处理。
综上所述,每个公司的业务不同,那么对于服务器的要求也不太同,不论发生怎么样的变化,基本上只要有了相关的监控数据,就能够通过技术来分析出想要的结果,想要随着时代一起进步,就需要不断的更新维护、高效运维。
一、服务内容
11 服务目标
运行维护服务包括,信息系统相关的主机设备、操作系统、数据库和存储设备及其他信息系统的运行维护与安全防范服务,保证用户现有的信息系统的正常运行,降低整体管理成本,提高网络信息系统的整体服务水平。同时根据日常维护的数据和记录,提供用户信息系统的整体建设规划和建议,更好的为用户的信息化发展提供有力的保障。
用户信息系统的组成主要可分为两类:硬件设备和软件系统。硬件设备包括网络设备、安全设备、主机设备、存储设备等;软件设备可分为操作系统软件、典型应用软件(如:数据库软件、中间件软件等)、业务应用软件等。
通过运行维护服务的有效管理来提升用户信息系统的服务效率,协调各业务应用系统的内部运作,改善网络信息系统部门与业务部门的沟通,提高服务质量。结合用户现有的环境、组织结构、IT资源和管理流程的特点,从流程、人员和技术三方面来规划用户的网络信息系统的结构。将用户的运行目标、业务需求与IT服务的相协调一致。
信息系统服务的目标是,对用户现有的信息系统基础资源进行监控和管理,及时掌握网络信息系统资源现状和配置信息,反映信息系统资源的可用性情况和健康状况,创建一个可知可控的IT环境,从而保证用户信息系统的各类业务应用系统的可靠、高效、持续、安全运行。
服务项目范围覆盖的信息系统资源以下方面的关键状态及参数指标:
运行状态、故障情况
配置信息
可用性情况及健康状况性能指标
统计运维数椐、提供信息系统管理和工作报告、归纳总结并提供用户想了解的数椐报告
12 信息资产统计服务
此项服务为基本服务,包含在运行维护服务中,帮助我们对用户现有的信息资产情况进行了解,更好的提供系统的运行维护服务。
服务内容包括:
硬件设备型号、数量、版本等信息统计记录
软件产品型号、版本和补丁等信息统计记录
网络结构、网络路由、网络IP地址统计记录
综合布线系统结构图的绘制
其它附属设备的统计记录
硬件设备清单统计
13 网络、安全系统运维服务
从网络的连通性、网络的性能、网络的监控管理三个方面实现对网络系统的运维管理。网络、安全系统基本服务内容:
(1)用户现场技术人员值守
根据用户的需求提供长期的用户现场技术人员值守服务,保证网络的实时连通和可用,保障接入交换机、汇聚交换机和核心交换机的正常运转。
现场值守的技术人员每天记录网络交换机的端口是否可以正常使用,网络的转发和路由是否正常进行,交换机的性能检测,进行整体网络性能评估,针对网络的利用率进行优化并提出网络扩容和优化的建议。
现场值守人员还进行安全设备的日常运行状态的监控,对各种安全设备的日志检查,对重点事件进行记录,对安全事件的产生原因进行判断和解决,及时发现问题,防患于未然。
同时能够对设备的运行数据进行记录,形成报表进行统计分析,便于进行网络系统的分析和故障的提前预知。具体记录的数据包括:
配置数据
性能数据
故障数据
(2)现场巡检服务
现场巡检服务是对客户的设备及网络进行全面检查的服务项目,通过该服务可使客户获得设备运行的第一手资料,最大可能地发现存在的隐患,保障设备稳定运行。
同时,将有针对性地提出预警及解决建议,使客户能够提早预防,最大限度降低运营风险。
巡检包括的内容如下:
(3)网络运行分析与管理服务
网络运行分析与管理服务是指工程师通过对网络运行状况、网络问题进行周期性检查、分析后,为客户提出指导性建议的一种综合性高级服务,其内容包括:
(4)重要时刻专人值守服务
保证重要时刻设备稳定运行对客户成功尤为关键,因此,可对客户提供重要时刻的专人现场值守支持,包括政府客户的重大会议期间、金融客户的年终结算日、运营商客户的生产网重大割接或其它任何客户认为可能对其业务运营产生重大影响的时刻。
如需专人值守,客户需至少提前3周与授权服务商客户服务经理联系。对每位合约客户,授权服务商均需按事先合同约定提供专人值守服务。客户如需超出合同约定范围的更多值守支持,需额外支付相应人力和差旅费用。
14 主机、存储系统运维服务
主机、存储系统的运维服务包括:主机、存储设备的日常监控,设备的运行状态监控,故障处理,操作系统维护,补丁升级等内容。
主机存储系统基本服务内容:
现场值守人员可进行监控管理的内容包括:
CPU 性能管理;
内存使用情况管理;
硬盘利用情况管理;
系统进程管理;
主机性能管理;
实时监控主机电源、风扇的使用情况及主机机箱内部温度;
监控主机硬盘运行状态;
监控主机网卡、阵列卡等硬件状态;
监控主机HA运行状况;
主机系统文件系统管理;
监控存储交换机设备状态、端口状态、传输速度;
监控备份服务进程、备份情况(起止时间、是否成功、出错告警);
监控记录磁盘阵列、磁带库等存储硬件故障提示和告警,并及时解决故障问题;
对存储的性能(如高速缓存、光纤通道等)进行监控。
15 数据库系统运维服务
数据库运行维护服务是包括主动数据库性能管理,数据库的主动性能管理对系统运维非常重要。通过主动式性能管理可了解数据库的日常运行状态,识别数据库的性能问题发生在什么地方,有针对性地进行性能优化。同时,密切注意数据库系统的变化,主动地预防可能发生的问题。
数据库运行维护服务还包括快速发现、诊断和解决性能问题,在出现问题时,及时找出性能瓶颈,解决数据库性能问题,维护高效的应用系统。
数据库运行维护服务,主要工作是使用技术手段来达到管理的目标,以系统最终的运行维护为目标,提高用户的工作效率。
具体数据库运行维护监控的基本服务内容包括:
16 中间件运维服务
中间件管理是指对BEA Weblogic、MQ等中间件的日常维护管理和监控工作,提高对中间件平台事件的分析解决能力,确保中间件平台持续稳定运行。中间件监控指标包括配置信息管理、故障监控、性能监控。
执行线程:监控WebLogic配置执行线程的空闲数量。
JVM内存:JVM内存曲线正常,能够及时的进行内存空间回收。JDBC连接池:连接池的初始容量和最大容量应该设置为相等,并且至少等于执行线程的数量,以避免在运行过程中创建数据库连接所带来的性能消耗。
检查WEBLOG日志文件是否有异常报错
如果有WEBLOG集群配置,需要检查集群的配置是否正常。
二、运维服务流程
建议用户采用的服务方式为两种:一种为技术人员现场值守,另一种是定期巡检结合故障现场服务。
技术人员现场值守运行维护服务的基本操作流程如下图所示:
定期巡检结合故障现场运行维护服务的基本操作流程如下图所示:
三、服务管理制度规范
31 服务时间
(1) 接收服务请求和咨询:在58 小时工作时间内设置由专人值守的热线电话,接听内部的服务请求,并记录服务台事件处理结果。
(2) 在非工作时间设置有专人724 小时接听的移动电话热线,用于解决内部的技术问题以及接听724 小时机房监控人员的机房突发情况汇报。
(3) 服务响应时间:
技术支持人员在解决故障时,会最大限度保护好数据,做好故障恢复的文档,力争恢复到故障点前的业务状态。
对于“系统瘫痪,业务系统不能运转”的故障级别,如果不能于12小时内解决故障,将在16小时内提出应急方案,确保业务系统的运行。故障解决后24小时内,提交故障处理报告。说明故障种类、故障原因、故障解决中使用的方法及故障损失等情况。
32 行为规范
(1)遵守用户的各项规章制度,严格按照用户相应的规章制度办事。
(2)与用户运行维护体系其他部门和环节协同工作,密切配合,共同开展技术支持工作。
(3)出现疑难技术、业务问题和重大紧急情况时,及时向负责人报告。
(4)现场技术支持时要精神饱满,穿着得体,谈吐文明,举止庄重。接听电话时要文明礼貌,语言清晰明了,语气和善。
(5)遵守保密原则。对被支持单位的网络、主机、系统软件、应用软件等的密码、核心参数、业务数据等负有保密责任,不得随意复制和传播。
33 现场服务支持规范
运维服务人员要做到耐心、细心、热心的服务。工作要做到事事有记录、事事有反馈、重大问题及时汇报。严格遵守工作作息时间,严格按照服务工作流程操作。
(1)现场支持工程师应着装整洁、言行礼貌大方,技术专业,操作熟练、严谨、规范;现场支持时必须遵守用户单位的相关规章制度。
(2)现场支持工程师在进行现场支持工作时必须在保证数据和系统安全的前提下开展工作。
(3)现场支持时出现暂时无法解决的故障或其他新的故障时,应告知用户并及时上报负责人,寻找其他解决途径。
(4)故障解决后,现场支持工程师要详细记录问题的发生时间、地点、提出人和问题描述,并形成书面文档,必要时应向用户介绍故障出现的原因及预防方法和解决技巧。
34 问题记录规范
根据使用人员提出问题的类别,将问题分为咨询类问题和系统缺陷类问题二类:咨询类问题是指通过服务热线或现场解疑等方式能够当场解决用户提出的问题,具有问题解答直接、快速和实时的特点,该问题到现场支持人员处即可中止,对于该类问题的记录可使用咨询类问题记录模版进行记录。系统缺陷类问题是指使用人员提出的问题涉及到系统相应环节的确认修改,需要经过逐级提交、诊断、确认、处理和回复等环节,处理解决需要项目组的分析确认,问题有解决方案后,将解决方案反馈给用户。具体提交流程如下:
(1)问题提交。应用信息系统的用户发现属于系统缺陷类的问题时,填写系统缺陷类问题提交单,提交服务支持中心。
(2)问题分析。服务中心接到用户提交的问题单,要组织相应人员对问题单中描述的问题进行分析研判,确定问题的类型(技术问题、业务问题或者操作问题)。
属于技术问题,提交服务中心技术人员对存在的问题提出具体的处理意见和建议;属于业务问题,提交服务中心业务人员进行处理;属于操作问题,可安排相关人员对问题提出人进行解释,并将系统缺陷类问题提交单转为系统咨询类问题提交单。
(3)问题确认、解决。服务中心的技术人员和业务人员收到系统缺陷类问题提交单后,对提交的问题进行归类汇总和分析、确认。
可以解决的,明确问题解决的具体处理建议和措施,经主管领导签字同意后,交实施人员进行解决方案的实施。服务人员确认是否解决,并将解决方法附在系统缺陷类问题提交单上反馈给问题提出人员。
(4)问题上报。服务人员收到经业务或技术人员确认的系统缺陷类问题提交单后,上报服务中心。
(5)问题回复。服务中心根据提交问题的进行分析,制定解决方案并进行实施的解决,同时做好变更记录。将解决方案汇总后及时向问题提交单位或问题交办单位作出回复,并将分析过程和问题产生原因一并提交。
四、应急服务响应措施
针对项目制定了详尽的设计、应急处理预案,整个流程严谨而有序。但是,在服务维护过程中,意外情况将难以完全避免。
下面,我们将对项目实施的突发风险进行详细分析,并且针对各类突发事件,设计了相应的预防与解决措施,同时提供了完整的应急处理流程。
41 应急基本流程
维护服务应急处理流程
42 预防措施
针对上门服务过程中可能遇到的各种各样的风险,针对一些可能出现的情况,制定了一系列预防处理措施,举例如下:
43 突发事件应急策略
系统运维应急方案是对中断或严重影响业务的故障,如宕机、数据丢失、业务中断等,进行快速响应和处理,在最短时间内恢复业务系统,将损失降到最低。
在系统维护过程中,突发事件的出现将是很难完全避免的,针对这种情况,设计了完善的突发事件应急策略。
系统巡检人员要定期规范检查各硬件设备的运转情况和应用软件运行情况,同时做好日常的数据增量备份和定期全备份。
对发现的问题在报各级负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。
对发现的问题在报负责人的同时,要协调相关资源分析问题根源,确定解决方案和临时解决措施,避免造成更大的影响。问题得到稳定或彻底解决后,要形成问题汇报,避免以后类似重大紧急情况的发生。
当获悉出现突发事件时,技术支持人员可以立即从知识库中获取相应的应急策略,并综合用户方的具体情况,给出相关解决方案,然后在第一时间以电话、邮件支持或现场服务的方式帮助用户解决问题,尽最大努力减小突发事件对用户日常应用的影响。
突发事件应急策略服务流程图如下:
1、Linux基础命令及脚本:shell是基本要求,最好再懂点perl或python等。如果不懂脚本,怎么把重复的劳动变得简单呢?
2、系统监控命令:目的是获取系统当前的运行状态,遇到故障等要懂得分析排查。系统调优并懂得原理,知道为什么参数要调整成某个值。
3、网络监控命令:理由和第二点一致,不过侧重于网络。同样需要理解原理及调优,不能照搬前人的经验而不知甚解。
以上可以说是基本知识。没有生产环境不是借口,知识可以学习,再加以生产环境的经验积累,就会慢慢沉淀下来了。
说说技术以外的事情:多学习、多思考、不满足当前的知识、虚心和多动手。
0条评论