IT运维管理:“真”价值究竟在哪里?
在努力提升IT管理服务水平的同时,一个更深层次的讨论正在展开IT运维管理的真价值究竟在哪里?对于这一问题的回答,不仅关系到CIO和IT部门的话语权,更决定了现代信息化商业社会中,企业的发展与未来。 企业IT管理部门的宗旨是为组织的内部和外部提供优质高效的IT服务,而IT运维管理就是如何做到降价成本、提高效率,在满足企业IT服务需求的同时,提升IT运维水平,将IT部门由成本中心向价值中心转变这是很多IT管理者在描述IT运维工作目标时候的经典语录。但在表面的光环背后,IT运维管理部门在不少领导的心目中,却往往只是一个会花钱、说空话的部门。 虽然不断升级的云计算、应用交付、虚拟化等新技术浪潮,让IT运维管理需求成为炙手可热的话题。但相关的问题也随之而来,由于业务对IT系统依赖性不断增强,新的信息系统不断上线,IT人员不断增加,信息系统的运营费用也随之增加,在公司总运营成本中所占比重越来越大。在一些不太了解IT运维具体工作的领导眼中,如果每年的IT运维管理成本预算不断增加,而他又不清楚这些钱花到哪里去了,再加上时不时还会出现的IT故障和业务部门的投诉等等。这些问题积攒在一起, IT部门花钱惹麻烦的印象就顺理成章地形成了。 对于企业IT运维管理表面上被认可,但实际上体现不出真价值的普遍现象,锐捷网络IT运维管理业务部总经理冯晋阳认为:IT运维要显示出‘真’价值,不但要在底层设备完成监视与预警,还要在呈现上做文章。在当前经济形势下,任何一家企业都会注重成本管理,特别是其他费用大多都可精确衡量之后,IT运维成本价值模糊的问题就显得尤其突出。由于IT运维工作无法抛弃为业务部门服务的本质,也就决定了它缺乏张扬和展示手段,IT在企业中价值就有可能被冲淡。再加上业务系统时常遭受到IT系统的烦扰,无法提升管理效率,产生这样或者那样的投诉。所以,IT运维部门想要得到认可,就需要找到一个让别人发现自己价值的方法,这对于改变IT运维部门的尴尬局面将起到至关重要的作用。 传统看、说、做 抹杀IT运维价值 面对这一问题,冯晋阳先生表示,实际上,传统的IT运维管理产品经过多年发展,虽然已经有了扎实的应用基础,但在体现IT系统真价值方面却还存在缺陷。 首先是看:假设企业的IT系统能够保持一个高效稳定的运行状况,不仅可以提升企业应对市场的能力,还可以降低企业的IT投入,最大限度地实现IT投资回报,这些都是IT运维管理的价值。那么,这个价值如何让领导层看到呢?是让领导亲临网管的桌子上,看看现在的网络流量有多么正常吗?想要知道答案,先拷问一下自己,如果你是一个管理上千人,几十个部门的决策者,你有时间去听网管给你解释每个参数的含义吗?答案是显而易见的。 其次是说:当企业领导询问IT运行情况时,我们只能回答好或者不好吗?当年终领导询问下一年的经费预算时,IT运维主管领导往往左顾右盼,只能说大概怎样。假设你是掌握财权的领导,你会对这样的答复买单吗?在需要IT运维部门说真话的时候,由于没有科学的证据,回答问题时没有公信力或者说服力,IT的价值和部门一年的辛苦可能就这样被无辜抹杀了。 最后是做:在这一点上,其实是在回答IT运维部门是做什么的问题。我们要清楚,现代企业的发展已经离不开IT技术的有力支撑,作为增强核心竞争力的法宝,企业不可能停止对IT的投入,但投入的最终目的是为了使业务系统发挥功效,实现利润与收益。在这条价值链上,IT运维管理在做什么呢?如果我们还停留在设备、网络、服务器这种底层监控阶段,无法与业务有机融合,那么不仅在企业的价值链中将永远看不到IT运维的身影,企业也将因为失去IT这一现代商业社会最重要的引擎而失速落败。 IT运维管理三阶段 RIIL激活IT价值 对于IT运维管理部门来说,采用锐捷网络的RIIL激活IT价值,要做到有章可循,可以分为三个具体的阶段性操作来实现: 第一阶段:用RIIL搭建基础架构管理中心。并通过多种协议方式完成所有设备的采集,形成物理和逻辑拓扑图。模拟管理员日常工作行为,完成对服务器、网络设备、安全产品、数据库、中间件、Web服务、存储设备状态和性能的实时监控,帮助IT运维部门实现IT基础设施管理的可视化和自动化,降低管理复杂度,从而提高对IT基础架构的主动监管能力。 第二阶段:在基础架构管理中心构建完成之后,RIIL还提供了图形化的业务建模工具,用户可以根据实际环境,定义个性化的业务运行评估模型。从底层监控,再到业务视角、用户视角,对被监测资源进行关联、重组,建立真实表达业务内部关系的影响模型图,帮助用户快速搭建业务卡片视图,准确判断业务健康度、繁忙度、业务层级视图和业务告警等内容,客观评估业务运行水平,让IT投入的效益最大化,真正实现IT管理与业务管理的无缝融合。 第三阶段:关注IT整体健康指数,持续优化。要完成这一目标,可以使用RIIL中的一些具体的功能特性,例如RIIL中的IT健康指数。它是一条类似股票大盘的指数曲线, 如果出现下行趋势,则说明企业的IT系统正在变坏,出现了问题。同时与IT健康指数相关联的有一个业务雷达,可以显示出当前健康指数下行是由于哪一个业务系统的健康发生变化造成的,同时可以追溯到是什么IT资源发生了问题。 冯晋阳先生表示:站在业务的角度去做运维,站在科学的角度上去说运维,站在企业价值的角度去呈现运维,这三点就是RIIL能够帮助运维部门提升价值的关键。比如,在RIIL产品中,即使不够专业的用户也可以通过超大屏幕看懂运维数据、直观易懂的业务卡片、IT健康指数等等,这些功能都围绕着IT运维价值呈现这一核心要素。
污水水质在线监测系统
一、项目背景
水是个世界性问题,目前水源的缺失已经引起世界各国的关注,究其缺水的原因,很大一部分是来自水源地被污染,相对污染的最大比例是城市污水的排泄,城市污水大多来自于企业污水排放,垃圾的污染。规模化养殖场每天排放的污水量大、集中,并且污水中含有大量污染物,如重金属、残留的兽药和大量的病原体等,因此如不经过处理就排放于环境或直接农用,将会造成当地生态环境和农田的严重污染。
随着经济水平的提高,农村地区生活水平得到改善,同时产生的生活污水也高于以往。由于农村居民污水治理意识薄弱,导致农村地区污染日益严重。因此投资于监测和监管,提供一个有效、实用先进的监测系统和解决方案,加强环境监测变得迫在眉睫,建立污染源在线监测系统、污水处理校验系统,提高水质监测能力,势在必行。其主要衡量指标有PH值、电导率、氨氮、总磷、CDD、浊度等。
二、系统概述
污水水质监测系统是由污水排放监测点(图像站、水质站、流量站)、污水水质在线监测平台组成。系统可实现对企业废水、城市污水、农村污水、养殖业污水的自动采样、流量的在线监测和主要污染因子的在线监测以及现场情况的抓拍;实时掌握污水中污染物排放总量,实现监测数据自动传输;由监测点对水质参数自动采集、处理、保存和远程通讯传输,污水水质在线监测平台部署于云服务器上,对数据进行汇总、整理和综合分析。水质站用于监测河道排污口水质信息,采用有人看管、无人值守的管理模式。
污水排放监测点系统由采样系统、测量系统、数据采集传输系统三部分组成。采样系统由泵、采样管路、专用采样器、控制单元等构成。测量系统由测量仪器及数据采集终端构成。数据采集传输系统由数据采集终端及通讯模块构成。
三、系统拓扑图
四、系统主要功能
1)实时监测污水的主要指标PH值、电导率、氨氮、总磷、CDD、浊度,为污水排放是否达标提供依据;
2)实时监测污水排放量;
2)实时回传现场抓拍照片,监测现场环境;
4)平台对数据进行汇总、整理和综合分析。
五、平台介绍
1)水质在线监测平台利用计算机对遥测数据快速处理和加工成各种数据报表,及时向有关人员提供信息服务,并提供相应的业务支持和管理功能。
中心平台系统主要由以下部分组成:云服务器、平台软件、数据库。
服务器主机:阿里云平台
平台软件:水质在线监测系统
数据库:mysql数据库
2)平台管理
登录界面
设备系统管理
数据管理
运维人员的工作每天基本上都是在检查问题,枯燥但又重要, 要是你的某一个环节出现问题并没有及时发现问题,对于企业来说损失可能非常大,基本上运维人每天的工作我罗列了下,有这几种:
1、负责服务器的硬件配置、软件安装、机房上下架等技术维护工作
2、负责虚拟化技术产品物理机配置、管理和日常运行监控和维护
3、负责独立主机或虚拟应用产品的开通使用、日常维护、故障诊断和排除
4、提供独立主机或虚拟应用客户产品操作和应用方面的技术支持
5、监视分管的服务器,及时发现问题,并积极解决问题
现在信息化数字时代,单靠人工去检查出现错误几率会很大,而且有的运维人还不只管理两台服务器,像我们公司的运维每人至少要管理30台服务器,这样子单靠人工运维耗费的人工成本和时间是非常大的,所以还是推荐你用运维工具吧,比如云帮手()1支持跨云商批量管理服务器
2兼容性强大,兼容市面基本所有的云商云主机,兼容操作系统;
3操作简单,可视化界面预览资源、一键修复、一键部署;
4 可以远程登录云主机FTP桌面,处理云主机上的文件;
5监控和资源还有告警功能,这个是挺好的,不用盯着看;
6系统修复功能,这个是挺实用也比较必须的;
7免费使用。总得来说功能还是挺全的,不存在需要又要另外找软件的尴尬。
你好,很高兴回答你这个问题。从运维的角度来讲,服务器的数量少并不意味着我们的运维工作就非常轻松,相反我们更应该重视此阶段的工作。
我们可以从以下几方面来开展我们的运维工作:
1应用服务器
我们可以从当前服务器中找出 至少2个节点装Vsphere虚拟化,建立一个数据中心、集群 ;如果你的服务器有多网卡和SCSI,还可以做一些更高级的应用,如vmotion、负载均衡、高可用等。当虚拟机或服务器故障,可以 实现故障自动转移,有效的避免了单节点的故障,提供服务器的容错率 。
我们可以在新建的虚拟机部署Web、API等各种应用,而且 虚拟机可以在vCenter图形化界面下统一管理 。这一般是中小公司的在服务器方面的解决方案。
当然,我们对docker比较熟悉,可以使用一套docker解决方案,这比Vsphere更能节省一部分资源。当然这个需要的技能要求也比较高,需要我们不断积累。
2数据库服务器
数据库服务器在此我们单独拿出来,是因为数据库对服务器性能、磁盘IO要求比较高,不太建议使用虚拟机,当然这需要根据业务的实际情况来做选择。 数据库我们需要通过一主一从、一主二从的方式实现高可用,来避免数据库单点问 题,我们还可以选择合适的proxy来进行读写分离、读负载均衡等。另外还要考虑数据的本地备份、异地备份,来确保数据可恢复。
3系统监控
当我们在应用服务器和数据库服务器上线一套系统后, 我们需要通过监控掌握从服务器硬件、基础状态、应用、数据库等从下到上的运行状态 ,以便我们能够对告警及时做出响应。考虑到报警的及时性,我们需要监控接入多种报警渠道,如微信、钉钉、邮件、短信等。监控的目的是发现问题、解决访问,因此我们需要踏实的做好这一步,才能为我们的业务保驾护航。
好了,其实不管服务器多少,我们都需要扎实的把基础打好,这样才能以不变应万变面对各种情形。希望我的回答能够帮到你。
题主没有详细说明具体应用系统的功能,比如是否单一的Web服务?有没有微服务、分布式、集群化扩展的潜在需求?
通常来说,建议使用云服务自动化运维。云服务已经成为IT技术的核心基础设施,充分利用云服务带来的弹性和分布式优势,赋能自动化运维。
一,自动构建系统
如果需要构建应用,那么就建议配置使用CI/CD持续化集成和自动化部署,比如常用的Jenkins,配置Git代码提交时触发构建,然后自动部署。
二,日志收集处理系统
1,ELK是常见的日志收集管理系统,包括ElasticSearch, LogStash, Kibana三个服务,架构示意图如下:
2,在ELK系统中,Kibana是一个图形化展示工具,配置查询条件,运维人员随时可以搜索指定日志信息,分析处理故障。
三,服务监控
1,云监控CloudMonitor
主流云服务商都将监控功能集成到了基础架构中,以阿里云为例,云监控提供了多种配置,多维度全方位监控。
比如配置CPU使用率到达80%时,自动触发动作,增加服务器实例,同时邮件通知运维人员。
2,应用监控
以监控宝为例,配置服务地址,选择分布在不同地区和运营商的监测点。当监测点不能正常调用配置的服务地址时,将收到警告信息,可以选择邮件、短信、电话等通知方式。
四,潜在的系统扩展需求
1,是否集群化部署?需要AutoScaling自动伸缩吗?
小型化和集群化并不冲突。如果采用集群化部署,可以配置触发条件,满足时自动增加或者释放服务器资源。比如当CPU使用率达到75%或者内存占用率达到75%时,根据配置好的服务器和数量,自动触发。
2,是否使用Docker容器技术?
Docker将应用以及依赖打包到一个可移植的镜像中,可以实现虚拟化,有助于快捷高效的交付应用,结合Docker-compose资源编排,快速实现自动部署更新,不再需要常用的Jenkins构建服务器。
机器数比较小的话,你可以用云的服务器,这样可以节省好多钱。找一个专门的运维,还不如让开发自己来搞,因为机器少运维他也应付得过来。现在都在搞云计算了,把你的机器放上阿里云或者腾讯云,你自己维护好很多,包括网络贷款都很容易扩容。上面这个我说到的只是说建议你如果你已经是自己的机器了。我建议你从我下面所说的来搞。
认为的整个过程的话一般分为三个阶段,第一的话是手工阶段,什么东西都是手工搞。
第2个阶段就是脚本阶段了,本来手工搞的东西全部脚本化。
第3个阶段就是平台化了,平台化了之后,所有东西都在页面上完成系统完成,不需要人工来干预,甚至不用运维来搞。
有一些人说既然认为就是最后的一个阶段,但是这个很不成熟。所以我就不说了。
针对你这个机器数少的,你可以手工认为,或者说用脚本认为都没问题。
在合适的阶段做合适的事情就是最好的。所以我建议你手工运维或者脚本运维。
我们项目用的 wgcloud运维监控系统 ,它前身是开源项目,后来推出的商业版,也有免费版
wgcloud运行很稳定,性能很好,部署和上手容易
wgcloud支持主机各种指标监控(cpu状态/温度,内存状态,磁盘容量/IO,硬盘smart监控,系统负载,网卡流量,硬件系统信息等),数据可视化,进程应用监控,大屏可视化,服务接口检测,DOCKER监控,自动生成网络拓扑图,端口监控,日志文件监控,web SSH(堡垒机),指令下发执行,告警信息推送(邮件钉钉微信短信等)
可以装虚拟机代替,在同一个局域网情况下
找服务商外包服务,或者网上托管也不贵收费
服务器数量比较少,比如10台服务器,基本可以不设置运维岗位了,后端开发人员 或者架构师就能搞定。
我就是那种曾经在创业的小公司待过的开发人员,开发,运维我都干了。
但是想想如何更科学更高效的运维还是很有必要的。
运维的目的
软件系统的运行时环境:即公司的业务产线,靠它创造业务价值,这个是最核心的功能诉求。
实时监控系统: 任何时候都要对当前公司的产线的压力一清二楚,有问题功能随时解决,有性能问题及时扩容或者回收资源
降低服务器成本:在业务萎缩的情况下,准确评估哪些资源可以回收,降低服务器的支出
这个是当时我认为的运维的三个主要目的。
运维方案开发半路出家,当时采用的是shell+python+ansible+jekins+elk的方式
首先,我会及时的更新业务产线的物理架构图,根据架构图来规划服务器的资源使用。
比如多少个web服务,数据库多少,zk,kafka,redis集群怎么分布。
集群部署一般是放在多个服务器上的,这个时候ansible就派上用场了。
jekins主要用来自动发布更新程序已经做定时回收磁盘的任务。
elk主要用来做应用的日志系统和监控告警; 可以通过看板随时知道产线的请求数量和并发数量;
以上的运维方案适用于小公司。运维工程师看到了可以补充
搞个zabbix刷
数量少。如果配置好可以虚拟化。然后跑容器
通常有4种准入控制:
a8021x准入控制
8021x的准入控制的优点是在交换机支持8021x协议的时候,8021x能够真正做到了对网络边界的保护。缺点是不兼容老旧交换机,必须重新更换新的交换机;同时,交换机下接不启用8021x功能的交换机时,无法对终端进行准入控制。
bDHCP准入控制
DHCP的准入控制的优点是兼容老旧交换机。缺点是不如8021x协议的控制力度强。
c网关型准入控制
网关型准入控制不是严格意义上的准入控制。网关型准入控制没有对终端接入网络进行控制,而只是对终端出外网进行了控制。同时,网关型准入控制会造成出口宕掉的瓶颈效应。
dMVG准入控制
其前身是思科公司的VG(虚拟网关)技术。但是该技术仅能支持思科公司相关设备。受该技术的启发,国内某些公司开发了MVG(多厂商虚拟网关)技术。该技术可以支持目前市场上几乎所有的交换机设备。
eARP型准入控制
ARP准入控制是通过ARP欺骗实现的。ARP欺骗实际上是一种变相病毒。容易造成网络堵塞。由于越来越多的终端安装的ARP防火墙,ARP准入控制在遇到这种情况下,则不能起作用。
直接安装虚拟化软件,然后40个客户端即可。一般来说vm有免费的版本,不过对于数量都是有限制的,恐怕你这个数量有点老火。你可以去服务器厂商,国内正睿、联想、曙光、浪潮,国外的戴尔、惠普等找找云桌面的解决方案(最好是有拓扑图的)参考一下,步骤和思路弄清楚了,就好下一步操作了。
0条评论