绿色IT的对IT冲击
这就正如SPEC(标准性能评估机构)开发针对服务器的能效指标一样,SINA希望以此来衡量存储能效并指导用户购买。在存储系统方面,虚拟化、重复数据删除等技术成为了各家存储厂商推出“绿色”存储产品时的宣传重点。 在全球都在倡导绿色、节能、环保的大背景下,以节能、高效为核心的“绿色”理念成为了IT产品的创新重点,各种新技术成为了实现“绿色”的有力保障;此外,企业用户在采购IT基础设施时也逐步开始将“绿色”作为重要的衡量指标。
节能改变产品发展方向
据Gartner的最新统计,全球信息技术设备排放的二氧化碳占到了全球二氧化碳排放总量的2%左右,每年信息设备要向大气层排放大约3500万吨的废气,IT设备对环境的污染程度甚至已经超过了航空业。
长久以来,集中使用服务器、存储及交换机等IT基础设施程度最高的数据中心俨然成了一只“电老虎”,在吞噬着大量电能的同时,排放出了大量的二氧化碳,其也因此成为了被各方诟病和指责最多的焦点。
据美国节能联盟(Alliance to Save Energy)的资料显示,以耗电的增长速度来看,如果数据中心的能效保持现状,那么数据中心的用电需求将在不到10年的时间内翻倍,全球数据中心的电费每年也将会再增加2亿~3亿美元。同时,Gartner也预言,在接下来的几年中,世界上一半左右的数据中心将受到电力和空间的约束,能耗会占到IT部门三分之一左右的预算,IT组织在能耗方面的花费将达到硬件花费的四分之一。
“目前,能源危机的成本压力已经向IDC企业迎面袭来,全球数据中心年度能源与电力成本已经高达72亿美元。同时,据估算,硬件产品每花费1美元就要支出05美元的能源费用,这些数字都非常可怕。”世纪互联市场部经理石亚平感慨地说。
以服务器产品为例,计算性能这一重要指标一直都是用户采购时最为关注的。不过,相信当CIO们看到下面的这一组数据时,可能就会更多地考虑一下有关服务器的能耗问题了。首先从数量上来看,据IDC的预计,从2006年到2010年,服务器销量年均复合增长率为322%,到2010年,新装服务器的数量将会是每年1899万台,这些数字应该说相当可观。
如果保守地按照全球服务器总装机量大约是3500万台,并按每台服务器每小时功耗为400瓦计算,那么全球所有服务器在每小时的耗电量将是1400万度;如果按照每度电的二氧化碳排放量约为0997千克计算,就约合13958吨;在摄氏25度、常温及标准大气压下,1吨二氧化碳所占空间为556立方米,如果我们形象地做个比喻,那么全球每小时由服务器所排放的二氧化碳将可以填满约3104个奥运会比赛专用游泳池。
总的来说,大量的IT基础设施所消耗的不仅仅是电力,产生这些电力的能源消耗所带来的环境污染更加令人担忧。因此,在这样的大背景下,以节能、环保、高效为核心价值的绿色IT产品与技术的发展,也就成为了新一代IT产品的创新重点。
从芯片、服务器、存储到网络设备厂商,甚至是软件厂商,都希望在自身的产品上做更优化的设计,力图在提升产品性能的同时,推出更为节能的产品。可以说,“绿色”已经开始改变整个IT界的产品走向,通过高能耗来获取高性能的道路已经彻底走不通了。
绿色催生各种新技术
作为数据中心中的关键组成部分,服务器、存储及交换机等产品的节能问题成为了企业“绿色”改造中的核心问题,也正因如此,低功耗芯片、刀片、虚拟化、重复数据删除等技术成为了服务器、存储等IT厂商们的杀手锏。
包括Dell、IBM、HP、Sun、富士通、浪潮等在内的多家服务器厂商都推出了以“节能”为卖点的服务器产品。IBM最新推出的Power 595服务器因采用了50GHz的POWER芯片,因此在大幅提升性能的同时却并没有增加功耗。此外,Sun采用了多线程技术的UptraSPARC T1服务器产品倡导的也是“绿色”芯片技术。而浪潮则除了进行主板的芯片研发之外,还跟英特尔等其他一些厂商合作,通过更新的技术对处理器、内存甚至硬盘的耗电量进行实时地监控。
除了采用低功耗版本的服务器芯片之外,还有很多服务器厂商采用了高转换率电源技术来降低服务器的整体功耗。比如Dell所推出的Energy Smart 1950和Energy Smart 2950两款服务器,比其标准的1950和2950都宣称能够节能25%。而据Dell企业传播高级经理关丽介绍,Dell很早就将节能技术应用到了服务器上,除此之外,Dell还推出了其第10代刀片服务器,Dell M系列的刀片服务器每年能节省电量3200度,节省电费2600美元,同时这还意味着可以减少二氧化碳排放18吨。
此外,华赛还推出了一款“绿色环保”的安全网关,其使用了低功耗的主处理芯片,并在系统主板上采用了省电技术,同时对关键的耗电单元做了供电优化;智能化的风扇控制技术使得散热系统可以根据系统的温度智能调节风扇的转速以及功耗。
环保主导IT产品采购
在与国内企业CIO接触的过程中,我们发现,他们普遍存在着这样的一种观点:对于目前国内企业的数据中心而言,在绿色节能方面还只是一种发展趋势。也就是说,对于今后将要新建的数据中心,CIO们在采购服务器、存储以及交换机等产品时会把节能作为一项重要指标来认真考虑,但是,对于已有的数据中心,在原有基础上进行“绿化”改造就很难推进了。
事实上,除了金融、电信等一些数据处理量很大的行业,其他行业用户对于“绿色数据中心”的概念还多是持观望态度。毕竟国内外的IT基础不同,人力成本也不同,对于国内的CIO而言,在优化IT基础设施与人力成本上必须要做一定的权衡,因为在国内,人比起机器来要便宜得多。
此外,导致出现这一现象的原因可能是很多企业的CIO对于节能还没有更准确的认识,他们不知道从何做起或是认为要节能就要先花一大笔资金,而且受益又不会很明显。其实并不然,只要方法得当环保是可以为企业带来利润的。
其实在政府采购方面,中国很早就出台了一系列的政策加以引导。2006年11月22日,财政部和国家环保总局正式对外公布了《环境标志产品政府采购实施意见》和首批《环境标志产品政府采购清单》,要求各级政府机关、事业单位和团体组织在用财政性资金进行采购时优先选购环境标志产品。
也可以说,环保已经开始影响并主导企业的IT采购,虽然业界还很难找出一种综合评判标准来量化地衡量服务器及存储产品的节能情况。不过,前面提到,SPEC正在着力开发针对服务器的能效指标,SINA也开始着手解决数据中心的存储能耗问题,并希望开发用于数据中心存储硬件的能效指标。我们相信通过第三方组织和厂商们的共同努力,能够建立起科学的评判标准,以帮助用户在选择和采购IT基础设施时更有据可依。
大数据的由来
对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。
1
麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。
从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。
大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
最小的基本单位是bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。
大数据的应用领域
大数据无处不在,大数据应用于各个行业,包括金融、 汽车 、餐饮、电信、能源、体能和 娱乐 等在内的 社会 各行各业都已经融入了大数据的印迹。
制造业,利用工业大数据提升制造业水平,包括产品故障诊断与预测、分析工艺流程、改进生产工艺,优化生产过程能耗、工业供应链分析与优化、生产计划与排程。
金融行业,大数据在高频交易、社交情绪分析和信贷风险分析三大金融创新领域发挥重大作用。
汽车 行业,利用大数据和物联网技术的无人驾驶 汽车 ,在不远的未来将走入我们的日常生活。
互联网行业,借助于大数据技术,可以分析客户行为,进行商品推荐和针对性广告投放。
电信行业,利用大数据技术实现客户离网分析,及时掌握客户离网倾向,出台客户挽留措施。
能源行业,随着智能电网的发展,电力公司可以掌握海量的用户用电信息,利用大数据技术分析用户用电模式,可以改进电网运行,合理设计电力需求响应系统,确保电网运行安全。
物流行业,利用大数据优化物流网络,提高物流效率,降低物流成本。
城市管理,可以利用大数据实现智能交通、环保监测、城市规划和智能安防。
体育 娱乐 ,大数据可以帮助我们训练球队,决定投拍哪种 题财的 影视作品,以及预测比赛结果。
安全领域,政府可以利用大数据技术构建起强大的国家安全保障体系,企业可以利用大数据抵御网络攻击,警察可以借助大数据来预防犯罪。
个人生活, 大数据还可以应用于个人生活,利用与每个人相关联的“个人大数据”,分析个人生活行为习惯,为其提供更加周到的个性化服务。
大数据的价值,远远不止于此,大数据对各行各业的渗透,大大推动了 社会 生产和生活,未来必将产生重大而深远的影响。
大数据方面核心技术有哪些?
大数据技术的体系庞大且复杂,基础的技术包含数据的采集、数据预处理、分布式存储、NoSQL数据库、数据仓库、机器学习、并行计算、可视化等各种技术范畴和不同的技术层面。首先给出一个通用化的大数据处理框架,主要分为下面几个方面:数据采集与预处理、数据存储、数据清洗、数据查询分析和数据可视化。
数据采集与预处理
对于各种来源的数据,包括移动互联网数据、社交网络的数据等,这些结构化和非结构化的海量数据是零散的,也就是所谓的数据孤岛,此时的这些数据并没有什么意义,数据采集就是将这些数据写入数据仓库中,把零散的数据整合在一起,对这些数据综合起来进行分析。数据采集包括文件日志的采集、数据库日志的采集、关系型数据库的接入和应用程序的接入等。在数据量比较小的时候,可以写个定时的脚本将日志写入存储系统,但随着数据量的增长,这些方法无法提供数据安全保障,并且运维困难,需要更强壮的解决方案。
Flume NG
Flume NG作为实时日志收集系统,支持在日志系统中定制各类数据发送方,用于收集数据,同时,对数据进行简单处理,并写到各种数据接收方(比如文本,HDFS,Hbase等)。Flume NG采用的是三层架构:Agent层,Collector层和Store层,每一层均可水平拓展。其中Agent包含Source,Channel和 Sink,source用来消费(收集)数据源到channel组件中,channel作为中间临时存储,保存所有source的组件信息,sink从channel中读取数据,读取成功之后会删除channel中的信息。
NDC
Logstash
Logstash是开源的服务器端数据处理管道,能够同时从多个来源采集数据、转换数据,然后将数据发送到您最喜欢的 “存储库” 中。一般常用的存储库是Elasticsearch。Logstash 支持各种输入选择,可以在同一时间从众多常用的数据来源捕捉事件,能够以连续的流式传输方式,轻松地从您的日志、指标、Web 应用、数据存储以及各种 AWS 服务采集数据。
Sqoop
Sqoop,用来将关系型数据库和Hadoop中的数据进行相互转移的工具,可以将一个关系型数据库(例如Mysql、Oracle)中的数据导入到Hadoop(例如HDFS、Hive、Hbase)中,也可以将Hadoop(例如HDFS、Hive、Hbase)中的数据导入到关系型数据库(例如Mysql、Oracle)中。Sqoop 启用了一个 MapReduce 作业(极其容错的分布式并行计算)来执行任务。Sqoop 的另一大优势是其传输大量结构化或半结构化数据的过程是完全自动化的。
流式计算
流式计算是行业研究的一个热点,流式计算对多个高吞吐量的数据源进行实时的清洗、聚合和分析,可以对存在于社交网站、新闻等的数据信息流进行快速的处理并反馈,目前大数据流分析工具有很多,比如开源的strom,spark streaming等。
Strom集群结构是有一个主节点(nimbus)和多个工作节点(supervisor)组成的主从结构,主节点通过配置静态指定或者在运行时动态选举,nimbus与supervisor都是Storm提供的后台守护进程,之间的通信是结合Zookeeper的状态变更通知和监控通知来处理。nimbus进程的主要职责是管理、协调和监控集群上运行的topology(包括topology的发布、任务指派、事件处理时重新指派任务等)。supervisor进程等待nimbus分配任务后生成并监控worker(jvm进程)执行任务。supervisor与worker运行在不同的jvm上,如果由supervisor启动的某个worker因为错误异常退出(或被kill掉),supervisor会尝试重新生成新的worker进程。
Zookeeper
Zookeeper是一个分布式的,开放源码的分布式应用程序协调服务,提供数据同步服务。它的作用主要有配置管理、名字服务、分布式锁和集群管理。配置管理指的是在一个地方修改了配置,那么对这个地方的配置感兴趣的所有的都可以获得变更,省去了手动拷贝配置的繁琐,还很好的保证了数据的可靠和一致性,同时它可以通过名字来获取资源或者服务的地址等信息,可以监控集群中机器的变化,实现了类似于心跳机制的功能。
数据存储
Hadoop作为一个开源的框架,专为离线和大规模数据分析而设计,HDFS作为其核心的存储引擎,已被广泛用于数据存储。
HBase
HBase,是一个分布式的、面向列的开源数据库,可以认为是hdfs的封装,本质是数据存储、NoSQL数据库。HBase是一种Key/Value系统,部署在hdfs上,克服了hdfs在随机读写这个方面的缺点,与hadoop一样,Hbase目标主要依靠横向扩展,通过不断增加廉价的商用服务器,来增加计算和存储能力。
Phoenix
Phoenix,相当于一个Java中间件,帮助开发工程师能够像使用JDBC访问关系型数据库一样访问NoSQL数据库HBase。
Yarn
Yarn是一种Hadoop资源管理器,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。Yarn由下面的几大组件构成:一个全局的资源管理器ResourceManager、ResourceManager的每个节点代理NodeManager、表示每个应用的Application以及每一个ApplicationMaster拥有多个Container在NodeManager上运行。
Mesos
Mesos是一款开源的集群管理软件,支持Hadoop、ElasticSearch、Spark、Storm 和Kafka等应用架构。
Redis
Redis是一种速度非常快的非关系数据库,可以存储键与5种不同类型的值之间的映射,可以将存储在内存的键值对数据持久化到硬盘中,使用复制特性来扩展性能,还可以使用客户端分片来扩展写性能。
Atlas
Atlas是一个位于应用程序与MySQL之间的中间件。在后端DB看来,Atlas相当于连接它的客户端,在前端应用看来,Atlas相当于一个DB。Atlas作为服务端与应用程序通讯,它实现了MySQL的客户端和服务端协议,同时作为客户端与MySQL通讯。它对应用程序屏蔽了DB的细节,同时为了降低MySQL负担,它还维护了连接池。Atlas启动后会创建多个线程,其中一个为主线程,其余为工作线程。主线程负责监听所有的客户端连接请求,工作线程只监听主线程的命令请求。
Kudu
Kudu是围绕Hadoop生态圈建立的存储引擎,Kudu拥有和Hadoop生态圈共同的设计理念,它运行在普通的服务器上、可分布式规模化部署、并且满足工业界的高可用要求。其设计理念为fast analytics on fast data。作为一个开源的存储引擎,可以同时提供低延迟的随机读写和高效的数据分析能力。Kudu不但提供了行级的插入、更新、删除API,同时也提供了接近Parquet性能的批量扫描操作。使用同一份存储,既可以进行随机读写,也可以满足数据分析的要求。Kudu的应用场景很广泛,比如可以进行实时的数据分析,用于数据可能会存在变化的时序数据应用等。
在数据存储过程中,涉及到的数据表都是成千上百列,包含各种复杂的Query,推荐使用列式存储方法,比如parquent,ORC等对数据进行压缩。Parquet 可以支持灵活的压缩选项,显著减少磁盘上的存储。
数据清洗
MapReduce作为Hadoop的查询引擎,用于大规模数据集的并行计算,”Map(映射)”和”Reduce(归约)”,是它的主要思想。它极大的方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统中。
随着业务数据量的增多,需要进行训练和清洗的数据会变得越来越复杂,这个时候就需要任务调度系统,比如oozie或者azkaban,对关键任务进行调度和监控。
Oozie
Oozie是用于Hadoop平台的一种工作流调度引擎,提供了RESTful API接口来接受用户的提交请求(提交工作流作业),当提交了workflow后,由工作流引擎负责workflow的执行以及状态的转换。用户在HDFS上部署好作业(MR作业),然后向Oozie提交Workflow,Oozie以异步方式将作业(MR作业)提交给Hadoop。这也是为什么当调用Oozie 的RESTful接口提交作业之后能立即返回一个JobId的原因,用户程序不必等待作业执行完成(因为有些大作业可能会执行很久(几个小时甚至几天))。Oozie在后台以异步方式,再将workflow对应的Action提交给hadoop执行。
Azkaban
Azkaban也是一种工作流的控制引擎,可以用来解决有多个hadoop或者spark等离线计算任务之间的依赖关系问题。azkaban主要是由三部分构成:Relational Database,Azkaban Web Server和Azkaban Executor Server。azkaban将大多数的状态信息都保存在MySQL中,Azkaban Web Server提供了Web UI,是azkaban主要的管理者,包括project的管理、认证、调度以及对工作流执行过程中的监控等;Azkaban Executor Server用来调度工作流和任务,记录工作流或者任务的日志。
流计算任务的处理平台Sloth,是网易首个自研流计算平台,旨在解决公司内各产品日益增长的流计算需求。作为一个计算服务平台,其特点是易用、实时、可靠,为用户节省技术方面(开发、运维)的投入,帮助用户专注于解决产品本身的流计算需求
数据查询分析
Hive
Hive的核心工作就是把SQL语句翻译成MR程序,可以将结构化的数据映射为一张数据库表,并提供 HQL(Hive SQL)查询功能。Hive本身不存储和计算数据,它完全依赖于HDFS和MapReduce。可以将Hive理解为一个客户端工具,将SQL操作转换为相应的MapReduce jobs,然后在hadoop上面运行。Hive支持标准的SQL语法,免去了用户编写MapReduce程序的过程,它的出现可以让那些精通SQL技能、但是不熟悉MapReduce 、编程能力较弱与不擅长Java语言的用户能够在HDFS大规模数据集上很方便地利用SQL 语言查询、汇总、分析数据。
Hive是为大数据批量处理而生的,Hive的出现解决了传统的关系型数据库(MySql、Oracle)在大数据处理上的瓶颈 。Hive 将执行计划分成map->shuffle->reduce->map->shuffle->reduce…的模型。如果一个Query会被编译成多轮MapReduce,则会有更多的写中间结果。由于MapReduce执行框架本身的特点,过多的中间过程会增加整个Query的执行时间。在Hive的运行过程中,用户只需要创建表,导入数据,编写SQL分析语句即可。剩下的过程由Hive框架自动的完成。
Impala
Impala是对Hive的一个补充,可以实现高效的SQL查询。使用Impala来实现SQL on Hadoop,用来进行大数据实时查询分析。通过熟悉的传统关系型数据库的SQL风格来操作大数据,同时数据也是可以存储到HDFS和HBase中的。Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分组成),可以直接从HDFS或HBase中用SELECT、JOIN和统计函数查询数据,从而大大降低了延迟。Impala将整个查询分成一执行计划树,而不是一连串的MapReduce任务,相比Hive没了MapReduce启动时间。
Hive 适合于长时间的批处理查询分析,而Impala适合于实时交互式SQL查询,Impala给数据人员提供了快速实验,验证想法的大数据分析工具,可以先使用Hive进行数据转换处理,之后使用Impala在Hive处理好后的数据集上进行快速的数据分析。总的来说:Impala把执行计划表现为一棵完整的执行计划树,可以更自然地分发执行计划到各个Impalad执行查询,而不用像Hive那样把它组合成管道型的map->reduce模式,以此保证Impala有更好的并发性和避免不必要的中间sort与shuffle。但是Impala不支持UDF,能处理的问题有一定的限制。
Spark
Spark拥有Hadoop MapReduce所具有的特点,它将Job中间输出结果保存在内存中,从而不需要读取HDFS。Spark 启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。Spark 是在 Scala 语言中实现的,它将 Scala 用作其应用程序框架。与 Hadoop 不同,Spark 和 Scala 能够紧密集成,其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。
Nutch
Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和Web爬虫。
Solr
Solr用Java编写、运行在Servlet容器(如Apache Tomcat或Jetty)的一个独立的企业级搜索应用的全文搜索服务器。它对外提供类似于Web-service的API接口,用户可以通过http请求,向搜索引擎服务器提交一定格式的XML文件,生成索引;也可以通过Http Get操作提出查找请求,并得到XML格式的返回结果。
Elasticsearch
Elasticsearch是一个开源的全文搜索引擎,基于Lucene的搜索服务器,可以快速的储存、搜索和分析海量的数据。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。
还涉及到一些机器学习语言,比如,Mahout主要目标是创建一些可伸缩的机器学习算法,供开发人员在Apache的许可下免费使用;深度学习框架Caffe以及使用数据流图进行数值计算的开源软件库TensorFlow等,常用的机器学习算法比如,贝叶斯、逻辑回归、决策树、神经网络、协同过滤等。
数据可视化
对接一些BI平台,将分析得到的数据进行可视化,用于指导决策服务。主流的BI平台比如,国外的敏捷BI Tableau、Qlikview、PowrerBI等,国内的SmallBI和新兴的网易有数等。
在上面的每一个阶段,保障数据的安全是不可忽视的问题。
基于网络身份认证的协议Kerberos,用来在非安全网络中,对个人通信以安全的手段进行身份认证,它允许某实体在非安全网络环境下通信,向另一个实体以一种安全的方式证明自己的身份。
控制权限的ranger是一个Hadoop集群权限框架,提供操作、监控、管理复杂的数据权限,它提供一个集中的管理机制,管理基于yarn的Hadoop生态圈的所有数据权限。可以对Hadoop生态的组件如Hive,Hbase进行细粒度的数据访问控制。通过操作Ranger控制台,管理员可以轻松的通过配置策略来控制用户访问HDFS文件夹、HDFS文件、数据库、表、字段权限。这些策略可以为不同的用户和组来设置,同时权限可与hadoop无缝对接。
简单说有三大核心技术:拿数据,算数据,卖数据。
关键词1:数据安全
2021年6月,滴滴在美股递交招股书,紧接着7月,“滴滴出行”因APP存在严重违法违规收集使用个人信息问题,被依据《中华人民共和国网络安全法》相关规定下架。在滴滴之后,运满满、货车帮、BOSS直聘也被启动网络安全审查,2021年数据安全审查的大幕拉开。
滴滴事件背后,是互联网产品的相关数据和技术应用不但涉及个人权利、隐私,还关系着公共安全乃至国家安全的议题。2021年,被称为数据安全元年。继《数据安全法》、《个人信息保护法》施行之后,有关部门还发布了《数据出境安全评估办法(征求意见稿)》。
关键词2:DataOps从概念到实践
DataOps(数据操作)是一门新兴学科,将DevOps团队与数据工程师和数据科学家角色结合在一起,提供一些工具、流程和组织结构服务于以数据为中心的企业。DataOps终结了数据团队不断尝试将不良原始数据变成有用的数据等繁复的工作。相反,他们可以专注于重要的事情,即提供可行动洞见。DataOps能确保输入原始数据的可用性,保证结果的准确性,注重人员价值及共同合作的价值,使数据团队始终处于公司战略目标的中心。毕竟,他们再也不需要花费几个月的时间出成果,而且与DevOps团队一样高效。
关键词3:数据要素市场化
中央正式提出“加快培育数据要素市场”已满一年,2021年产业各界在法规、机制、技术等方面开始了诸多探索。一是数据相关立法正在完善,《数据安全法》正式颁布,《个人信息保护法(草案)》即将出台,相关法律的陆续完善为数据要素市场化提供了保障基础,同时深圳、上海、安徽等地方政府正在积极制定地方数据条例。二是数据交易开始探索新模式,山东、北京、北部湾等新一批成立的大数据交易所纷纷开始探索数据登记、数据信托、数据运营管理、数据资产证券化等新型业务模式,推进打造规范化、一体化的数据流通市场生态。三是企业数据资产化掀起实践浪潮,南方电网、光大银行、浦发银行等领先企业开始进行更深层的数据资产化探索。
关键词4:隐私计算迎来市场发展爆发期
2021年隐私计算备受关注,隐私计算即将迎来市场发展爆发期。国家发展改革委、中央网信办、工业和信息化部、国家能源局、人民银行等部门发文鼓励多方安全计算、联邦学习等隐私计算技术发展和应用,政策环境进一步优化。当前,隐私计算企业和产品数量迅速增多,算法不断优化、相关技术加快融合、产品成熟度和可用性进一步提升。与此同时,市场已经对隐私计算应用达成基本共识,隐私计算相关招投标项目和应用案例不断丰富,隐私计算正式步入落地应用阶段。
关键词5:大数据服务体系成为新的竞争点
规划咨询、部署实施、运维运营等软性工作共同构成大数据服务体系,解决了产品到应用的“最后一公里”问题。然而,由于大数据技术的复杂性和与业务结合的紧密性,大数据项目无法做到“交钥匙”工程,需要优质且持续的服务。中国信通院最新产品测试结果表明,虽然当前国内大数据产品功能项通过率已经达到了9569%,但服务能力差距依然巨大,根据中国信通院2020年发布的服务能力评估结果,企业平均分值只有71分(满分100分),各项细节能力均存在不足。大数据市场发展的主要矛盾已经从产品化不足转移到了服务能力不够,大数据服务能力将成为供给侧各企业新的竞争点。
关键词6:数据技术产品与云计算深度融合
随着云原生技术的成熟以及企业云上应用的丰富,大数据技术产品与云计算深度融合,从云化走向云原生化,使其具备按需付费、低成本、扩展性强、存算分离、一键部署等特性。2021年,亚马逊、阿里、腾讯、华为分别推出了与云融合的各类大数据技术产品,包括计算分析类、存储类、数据库类等。
关键词7:实时计算逐渐普适化
大数据的3V特征中,其中一个就是时效性。随着分布式流处理平台的不断成熟,各行业领域实时计算分析的需求愈加强烈。在供给端方面,流计算产品能力快速迭代,流计算开源社区持续火热,Flink是最活跃的Apache 开源项目之一。此外,实时计算公司广受资本青睐,实时计算商业化公司Confluent即将IPO,估值超80亿美元。在应用方面,实时流计算技术已经深入互联网企业各类业务中,涌现出大量实践案例,应用场景包括实时数仓、实时AI、流批一体等,并逐渐向金融、电信、工业等行业渗透。
关键词8:数据湖进入产品化阶段
数据湖能够实现原始数据无转换直接存储,极大提高数据应用效率。目前开源界形成了ICEBERG、HUDI、DELTALAKE三大开源技术流派,共性特点是支持流批处理、数据更新、可扩展源数据、多种存储引擎、多种计算引擎等能力,补齐大数据技术栈之前的短板。经过多年发展,国内企业数据湖产品在2021年逐渐落地,华为云、腾讯云均在今年发布了数据湖产品,阿里云在今年发布了湖仓一体20产品,数据湖产品化进展加速。
关键词9:数字孪生在重点行业关注度高
智慧城市、工业互联网将成为“十四五”时期的重头戏,而数字孪生是实现智慧城市、工业互联网最基础的技术手段之一。数字孪生是一系列技术的组合,具备五大关键技术能力:物理与数字世界的互操作性、数据模型的可扩展性、数字表征的实时性、多维度的保真性、数字影响物理的闭环性。当前,数字孪生技术进展迅猛,成为研究和标准化工作的重点。Gartner、IDC等研究机构开始深挖数字孪生的研究价值,ISO/IEC 开启数字孪生相关标准制定工作,中国信通院成立数字孪生技术应用工作委员会,开展数字孪生技术在智慧城市场景与应用的探索。同时阿里云、华为、AWS、微软等各头部企业也开始布局,发布数字孪生行业解决方案。
关键词10:硬件变革推动数据产品更新重构
数据技术产品的设计与研发与底层硬件的架构和能力息息相关。目前,底层硬件正在发生变革,导致数据技术产品也将随之进行重构。一方面,数据技术产品将直接利用硬件实现数据安全和网络解析等功能。另一方面,未来数据技术产品将面向ARM架构实现优化。未来,基于ARM的服务器规模将持续扩大,各类数据技术产品为提高能力将面向ARM实现优化。
持续多年的IT转型,如今依然热度不减。在SUSE全球产品营销经理Raj Meel的眼里,IT转型在未来还将会持续进行下去,而且是很长的时间。AI的部署是IT数字化转型比较具有代表性的一个项目,从它部署在数据中心的占比来看,尽管2018年只有4%,但据Gartner预测到2022年能够达到50%。
此外,在转型过程中,AI部署将会推动IT工具和软件的变革。制造业,经过数字化转型的公司,能够实现每年23%的利润增长。而与之相对的,没有做数字化转型的制造性企业,在同期的利润反而是减少,减少的损失是年均21%。Raj Meel认为,对比拥抱数字化转型的企业,不拥抱IT转型的企业会在竞争当中处于下峰。
多模操作系统的魅力
随着越来越多的企业开始向更加敏捷的混合云与多云基础设施转型,他们对简化的、集中的基础设施管理解决方案的需求也与日俱增。在DevOps时代,企业需要具备设计、部署、运行云原生和以微服务为基础应用的能力。为此,企业必须能够利用Kubernetes这类的编排工具交付现代容器化应用程序,确保从边缘、本地到混合云和多云环境下都能安全且灵活地开发和部署。
同时,传统系统被广泛用于承载关键任务工作负载,如数据库和ERP系统。目前企业拥有能够运行多模工作负载的多模IT基础设施,而SUSE Linux Enterprise为传统基础设施与云基础设施之间架起桥梁,是全球首款多模操作系统,助力企业持续创新、竞争和成长。
据悉,SUSE Linux Enterprise可以直接从开发者社区下载开发版本,直接进行开发和适用。SUSE非常重视开发者社区,不仅可以与开发者进行深度交互,在帮助开发者工作的同时,开发者也为SUSE带来很多创新。
为企业容器化工作负载奠基
值得一提的是, SUSE在KubeCon + CloudNativeCon + Open Source Summit 2019媒体沟通会上,正式宣布推出了对多模操作系统模型进行改善的SUSE Linux Enterprise 15 Service Pack 1操作系统,包括加强通用代码库的核心原则、模块度和社区开发,同时强化关键业务的特性,例如优化工作负载、加强数据安全以及缩短停机时间。亮点如下:
从社区级Linux到企业级Linux的转型更为快速和简单——开发者和运营者只需几次点击即可将openSUSE Leap系统转移至SUSE Linux Enterprise Server。完善的SUSE Package Hub也给企业带来巨大帮助,使其成为社区在企业平台上建设一流应用程序的首选产品。这些服务给企业的生产系统和基于社区级openSUSE Leap开发系统带来了巨大的支持。
强化对边缘到HPC工作负载支持——在Service Pack 1中,SUSE Linux Enterprise Server for Arm 15对系统芯片(SoC)的处理器支持数量增加了一倍,提高了对存储的支持,以及对64位Arm服务器和物联网设备上的工业自动化应用程序的支持。以64位Raspberry Pi设备为例,现在可支持全HDMI音频和视频,并提供ISO镜像以便快速安装。
SUSE亚太区首席技术专家Peter Lees强调,模块化系统的概念就是可以从最基本的系统骨架开始,根据需求逐一增加模块,然后达到想要定制的功能。这就是SUSE现在进一步往前走的思路,也就是说有共同代码库,从共同的基础开始,根据需求逐一增加模块或者功能。
服务与保障
目前,SUSE Linux Enterprise 15 Service Pack 1提供社区和企业两个版本。SUSE公司副总裁,亚太区及日本总经理江永清接受赛迪网采访时表示,企业版和社区版的支持和工具是两个版本,这是最大的不同。对于企业来说,就商业环境的使用,他们最在乎的是在支持方面是不是能够有这么一家公司在出现问题的时候提供帮助。同时和软硬件的供应商一起合作提供能够让客户满意的解决方案。所以功能上和内核上是没有区别的,只是在支持层面的不同。
江永清强调,SUSE致力于开源,无论做了什么改进,在技术层面终究还是开源的。但是在使用支持方面是有很大的区别,系统是开发的是可以免费下载下使用的。但是如果用在一个企业级的关键业务场景内,发生跟安全有关的漏洞问题、有了新的版本出现、或者遇到bug的时候,如果没有与开放软件做分销的厂商订阅的话,那就只能自己去解决问题。所以,这个业务模式是通过订阅来保证权益,订阅了产品之后,就不存在知识产权的问题,而且SUSE还有责任和义务向客户提供支持或者补丁,这是SUSE主要的业务模式,与社区里拿过来自己做的区别。(文/徐培炎)
ERP(企业资源计划)是一种企业管理的思想强调对企业的内部甚至外部的资源进行优化配置提高利用效率
一个由 Gartner Group 开发的概念描述下一代制造商业系统和制造资源计划(MRP II)软件它将包含客户/服务架构使用图形用户接口应用开放系统制作除了已有的标准功能它还包括其它特性如品质过程运作管理以及调整报告等特别是ERP采用的基础技术将同时给用户软件和硬件两方面的独立性从而更加容易升级ERP的关键在于所有用户能够裁剪其应用因而具有天然的易用性
Gartner Group提出ERP具备的功能标准应包括四个方面:
1超越MRPⅡ范围的集成功能
包括质量管理,试验室管理,流程作业管理,配方管理,产品数据管理,维护管理,管制报告和仓库管理
2支持混合方式的制造环境
包括既可支持离散又可支持流程的制造环境,按照面向对象的业务模型组合业务过程的能力和国际范围内的应用
3支持能动的监控能力提高业务绩效
包括在整个企业内采用控制和工程方法,模拟功能,决策支持和用于生产及分析的图形能力
4支持开放的客户机/服务器计算环境
包括客户机/服务器体系结构,图形用户界面(GUI),计算机辅助设计工程(CASE)面向对象技术,使用SQL对关系数据库查询,内部集成的工程系统商业系统数据采集和外部集成 (EDI)
ERP是对MRPⅡ的超越从本质上看ERP仍然是以MRPⅡ为核心但在功能和技术上却超越了传统的MRPⅡ它是以顾客驱动的基于时间的面向整个供应链管理的企业资源计划
一ERP系统的管理思想
ERP的核心管理思想就是实现对整个供应链的有效管理主要体现在以下三个方面:
1体现对整个供应链资源进行管理的思想
在知识经济时代仅靠自己企业的资源不可能有效地参与市场竞争还必须把经营过程中的有关各方如供应商制造工厂分销网络客户等纳入一个紧密的供应链中才能有效地安排企业的产供销活动满足企业利用全社会一切市场资源快速高效地进行生产经营的需求以期进一步提高效率和在市场上获得竞争优势换句话说现代企业竞争不是单一企业与单一企业间的竞争而是一个企业供应链与另一个企业供应链之间的竞争ERP系统实现了对整个企业供应链的管理适应了企业在知识经济时代市场竞争的需要
2体现精益生产同步工程和敏捷制造的思想
ERP系统支持对混合型生产方式的管理其管理思想表现在两个方面:其一是[精益生产LP(Lean Production)"的思想它是由美国麻省理工学院(MIT)提出的一种企业经营战略体系即企业按大批量生产方式组织生产时把客户销售代理商供应商协作单位纳入生产体系企业同其销售代理客户和供应商的关系已不再简单地是业务往来关系而是利益共享的合作伙伴关系这种合作伙伴关系组成了一个企业的供应链这即是精益生产的核心思想其二是[敏捷制造(Agile Manufacturing)"的思想当市场发生变化企业遇有特定的市场和产品需求时企业的基本合作伙伴不一定能满足新产品开发生产的要求这时企业会组织一个由特定的供应商和销售渠道组成的短期或一次性供应链形成[虚拟工厂"把供应和协作单位看成是企业的一个组成部分运用[同步工程(SE)"组织生产用最短的时间将新产品打入市场时刻保持产品的高质量多样化和灵活性这即是[敏捷制造"的核心思想
3体现事先计划与事中控制的思想
ERP系统中的计划体系主要包括:主生产计划物料需求计划能力计划采购计划销售执行计划利润计划财务预算和人力资源计划等而且这些计划功能与价值控制功能已完全集成到整个供应链系统中
另一方面ERP系统通过定义事务处理(Transaction)相关的会计核算科目与核算方式以便在事务处理发生的同时自动生成会计核算分录保证了资金流与物流的同步记录和数据的一致性从而实现了根据财务资金现状可以追溯资金的来龙去脉并进一步追溯所发生的相关业务活动改变了资金信息滞后于物料信息的状况便于实现事中控制和实时做出决策
此外计划事务处理控制与决策功能都在整个供应链的业务处理流程中实现要求在每个流程业务处理过程中最大限度地发挥每个人的工作潜能与责任心流程与流程之间则强调人与人之间的合作精神以便在有机组织中充分发挥每个的主观能动性与潜能实现企业管理从[高耸式"组织结构向[扁平式"组织机构的转变提高企业对市场动态变化的响应速度
总之借助IT技术的飞速发展与应用ERP系统得以将很多先进的管理思想变成现实中可实施应用的计算机软件系统
二应用ERP与企业的关系
ERP是借用一种新的管理模式来改造原企业旧的管理模式是先进的行之有效的管理思想和方法ERP软件在实际的推广应用中其应用深度和广度都不到位多数企业的效果不显著没有引起企业决策者的震动和人们的广泛关注
1实施ERP是企业管理全方位的变革
企业领导层应该首先是受教育者其次才是现代管理理论的贯彻者和实施者规范企业管理及其有关环节使之成为领导者管理层及员工自觉的行动使现代管理意识扎根于企业中成为企业文化的一部分国外企业实施ERP 似乎没有讨论的余地全盘接受自觉性强其实办企业这样做是天经地义的而我们还要等待思想提高观念更新有时还要避开锋芒迁就陈腐互相推诿如果我们不坚决向这些陋习告别这场全方位的变革就会反复甚至夭折
2企业管理班子要取得共识
要眼睛向内练好内功做好管理的基础工作这是任何再好的应用软件和软件供应商都无法提供的只能靠自己勤勤恳恳地耕耘把ERP的实施称为"第一把手工程"这说明了企业的决策者在ERP实施过程中的特殊作用ERP是一个管理系统牵动全局没有第一把手的参与和授权很难调动全局
3ERP的投入是一个系统工程
ERP的投入和产出与其他固定资产设备的投入和产出比较并不那么直观浅显和明了投入不可能马上得到回报见到效益ERP的投入是一个系统工程并不能立竿见影它所贯彻的主要是管理思想这是企业管理中的一条红线它长期起作用创效益在不断深化中向管理要效益
此外实施ERP还要因地制宜因企业而别具体问题具体分析首先要根据企业的具体需求上相应的系统而不是笼统地都上小型机或者不顾企业的规模上 WindowsNT这样长期运作对企业危害性极大其次这种投入不是一劳永逸的由于技术的发展很快随着工作的深入企业会越来越感到资源的紧缺因此每年应有相应的投入才能保证系统健康地运转
4ERP的实施需要复合型人才
他们既要懂计算机技术又要懂管理当前高校对复合型人才的培养远远满足不了企业的需求复合型人才的培养需要有一个过程和一定的时间但企业领导者常把这样不多的人才当作一般管理者没有把他们当作是企业来之不易的财富是一支重要的队伍这与长期忽视管理有关这些复合型人才在企业中的地位远远不及市场开拓人员和产品开发者而是"辅助"角色不是政策倾斜对象这种因素是造成人才流失的重要原因另外当企业上ERP时这些复合型人才起到了先导作用而一旦管理进入常规他们似乎又成为多余的人这已成为必然规律在人才市场上复合型人才最为活跃那些有眼力的企业家都会下功夫挖掘人才而这也不利于实施队伍的稳定
总之条件具备的企业要不失时机地上ERP管理系统不能只搞纯理论研究再研究长时间地考察要首先整理好内部管理基本数据选定或开发适合自己企业的ERP软件条件成熟了就上
三ERP的风险及其预防
企业的条件无论多优越所做的准备无论多充分实施的风险仍然存在在ERP系统的实施周期中各种影响因素随时都可能发生变化如何有效地管理和控制风险是保证ERP系统实施成功的重要环节之一
ERP项目的风险
通常人们在考虑失败的因素时一般着重于对实施过程中众多因素的分析而往往忽视项目启动前和实施完成后ERP系统潜在的风险对于ERP项目而言风险存在于项目的全过程包括项目规划项目预准备实施过程和系统运行归纳起来ERP项目的风险主要有以下几方面:
1 缺乏规划或规划不合理,
2 项目预准备不充分表现为硬件选型及ERP软件选择错误,
3 实施过程控制不严格阶段成果未达标,
4 设计流程缺乏有效的控制环节,
5 实施效果未做评估或评估不合理,
6 系统安全设计不完善存在系统被非法入侵的隐患,
7 灾难防范措施不当或不完整容易造成系统崩溃
1战略规划
企业是否存在一个五年的IT系统规划随着社会的信息化IT系统对于企业不仅是工具更是技术手段ERP作为IT系统的重要组成部分服务于企业的长期规划是长期规划的手段和保证ERP的目标源于IT系统规划是评价ERP系统成败的基本标准应依据IT系统规划明确ERP 系统的实施范围和实施内容
2项目预准备
确定硬件及网络方案选择ERP系统和评估咨询合作伙伴是该阶段的三项主要任务也是ERP系统实施的三大要素硬件及网络方案直接影响系统的性能运行的可靠性和稳定性,ERP系统功能的强弱决定企业需求的满足程度,咨询合作伙伴的工作能力和经验决定实施过程的质量及实施成效
3项目实施控制
在ERP系统实施中通常采用项目管理技术对实施过程进行控制和管理有效的实施控制表现在科学的实施计划明确的阶段成果和严格的成果审核不仅如此有效的控制还表现在积极的协调和通畅的信息传递渠道实施ERP 的组织机构包括:指导委员会项目经理外部咨询顾问IT部门职能部门的实施小组和职能部门的最终用户部门之间协调和交流得好坏决定实施过程的工作质量和工作效率目前在企业缺乏合适的项目经理的条件下这一风险尤其明显和严重
4业务流程控制
企业业务流程重组是在项目实施的设计阶段完成的流程中的控制和监督环节保证ERP在正式运行后各项业务处于有效的控制之中避免企业遭受人为损失设计控制环节时要兼顾控制和效率过多的控制环节和业务流程冗余势必降低工作效率而控制环节不足又会有业务失控的风险
5项目实施效果
虽然项目评估是ERP实施过程的最后一个环节但这并不意味着项目评估不重要相反项目评估的结果是ERP实施效果的直接反映正确地评价实施成果离不开清晰的实施目标客观的评价标准和科学的评价方法目前普遍存在着忽视项目评估的问题忽视项目评估将带来实施小组不关心实施成果这一隐患这正是ERP项目的巨大风险所在
6系统安全管理
系统安全包括:操作系统授权网络设备权限应用系统功能权限数据访问权限病毒的预防非法入侵的监督数据更改的追踪数据的安全备份与存档主机房的安全管理规章系统管理员的监督等等目前企业中熟练掌握计算机技术的人员较少计算机接入Internet的也不多因此在实施ERP系统时普遍存在着不重视系统安全的现象诸如:用户不注意口令保密超级用户授权多人等缺乏安全意识的直接后果是系统在安全设计上存在着漏洞和缺陷近年来不断有报章披露银行或企业计算机系统被非法入侵的消息这给企业敲响了警钟
7意外事故或灾难
水灾火灾地震等不可抗拒的自然灾害会给ERP系统带来毁灭性的打击企业正式启用ERP系统后这种破坏将直接造成业务交易的中断给企业带来不可估量的损失未雨绸缪的策略和应对措施是降低这一风险的良方如建立远程备份和恢复机制,在计算机系统不能正常工作的情况下恢复手工处理业务的步骤和措施
四ERP应用成功的标志
ERP应用是否成功原则地说可以从以下几个方面加以衡量:
1 系统运行集成化:
这是ERP应用成功在技术解决方案方面最基本的表现ERP系统是对企业物流资金流信息流进行一体化管理的软件系统其核心管理思想就是实现对[供应链(Supply Chain)"的管理软件的应用将跨越多个部门甚至多个企业为了达到预期设定的应用目标最基本的要求是系统能够运行起来实现集成化应用建立企业决策完善的数据体系和信息共享机制
一般来说如果ERP系统仅在财务部门应用只能实现财务管理规范化改善应收帐款和资金管理,仅在销售部门应用只能加强和改善营销管理,仅在库存管理部门应用只能帮助掌握存货信息,仅在生产部门应用只能辅助制定生产计划和物资需求计划只有集成一体化运行起来才有可能达到:
降低库存提高资金利用率和控制经营风险,
控制产品生产成本缩短产品生产周期,
提高产品质量和合格率,
减少财务坏帐呆帐金额等
这些目标能否真正达到还要取决于企业业务流程重组的实施效果
2 业务流程合理化:
这是ERP应用成功在改善管理效率方面的体现ERP应用成功的前提是必须对企业实施业务流程重组因此ERP应用成功也即意味着企业业务处理流程趋于合理化并实现了ERP应用的以下几个最终目标:
企业竞争力得到大幅度提升,
企业面对市场的响应速度大大加快,
客户满意度显著改善
3 绩效监控动态化:
ERP的应用将为企业提供丰富的管理信息如何用好这些信息并在企业管理和决策过程中真正起到作用是衡量ERP应用成功的另一个标志在ERP系统完全投入实际运行后企业应根据管理需要利用ERP系统提供的信息资源设计出一套动态监控管理绩效变化的报表体系以期即时反馈和纠正管理中存在的问题这项工作一般是在ERP系统实施完成后由企业设计完成企业如未能利用ERP系统提供的信息资源建立起自己的绩效监控系统将意味着ERP系统应用没有完全成功
4 管理改善持续化:
随着ERP系统的应用和企业业务流程的合理化企业管理水平将会明显提高为了衡量企业管理水平的改善程度可以依据管理咨询公司提供的企业管理评价指标体系对企业管理水平进行综合评价评价过程本身并不是目的为企业建立一个可以不断进行自我评价和不断改善管理的机制才是真正目的这也是ERP应用成功的一个经常不被人们重视的标志
边缘服务器为用户提供一个进入网络的通道和与其它服务器设备通讯的功能,通常边缘服务器是一组完成单一功能的服务器,如防火墙服务器,高速缓存服务器,负载均衡服务器,DNS服务器等。
对物联网而言,边缘计算技术取得突破,意味着许多控制将通过本地设备实现而无需交由云端,处理过程将在本地边缘计算层完成。这无疑将大大提升处理效率,减轻云端的负荷。由于更加靠近用户,还可为用户提供更快的响应,将需求在边缘端解决。
物联网应用
全球智能手机的快速发展,推动了移动终端和“边缘计算”的发展。而万物互联、万物感知的智能社会,则是跟物联网发展相伴而生,边缘计算系统也因此应声而出。
事实上,物联网的概念已经提出有超过15年的历史,然而,物联网却并未成为一个火热的应用。一个概念到真正的应用有一个较长的过程,与之匹配的技术、产品设备的成本、接受程度、试错过程都是漫长的,因此往往不能很快形成大量使用的市场。
根据Gartner的技术成熟曲线理论来说,在2015年IoT从概念上而言,已经到达顶峰位置。因此,物联网的大规模应用也开始加速。因此未来5-10年内IoT会进入一个应用爆发期,边缘计算也随之被预期将得到更多的应用。
0条评论