OpenStack 怎样建构Hadoop与Spark系统

OpenStack 怎样建构Hadoop与Spark系统,第1张

  Piston公司的全新CloudOS计划在OpenStack环境之下对裸机服务器以及虚拟机系统加以管理,但其最终目标是将容器技术也同样纳入打理范畴。  面对目前三大主流选项——通过OpenStack管理裸机与虚拟机系统,抑或是采用容器技术——大家会做何决断Piston公司就此给出了自己的意见:为什么不尝试三足鼎立  以其OpenStack解决方案而闻名的Piston公司目前正着手推出CloudOS产品的最新版本,旨在允许企业客户将由OpenStack负责管理的虚拟机系统以及由CloudOS负责管理的裸机(主要面向Hadoop等应用程序)加以部署,并最终将容器技术纳入进入——三者全部在同一套框架之内实现运作。  CloudOS 40的主要新特性在于有能力在裸机而不仅仅是OpenStack虚拟机系统之内对Hadoop以及Spark进行管理。Hadoop能够运行在虚拟化基础设施之上; 举例来说,VMware已经作出声明,表示其有能力切实达成这一目标。  不过Piston公司CEO Jim Morrisroe相信,强制要求企业客户在OpenStack虚拟机、裸机或者容器当中单独选择其一或者全部采用属于严重的错误思维——当然,前提是相关工作负载有能力适应其中任意一种方案。  “Cassandra、HDFS、Hadoop以及Spark——这些方案在虚拟机系统当中并不能发挥最出色的实际表现,”他在一次电话采访当中指出。“以一键式部署方式将其运行在由CloudOS管理的裸机基础之上能够带来显著的收益提升。”同样,他表示一部分分析型应用程序在虚拟机系统中的运行效果优于裸机平台。  CloudOS会将Iocaine Linux(一套基础性Linux版本)部署在由其管理的各台设备之上,并在此基础之上运行多层式管理、网络、计算以及存储体系。在最高层级之上则是对各类常见应用程序进行配置以完成部署及运行:Hadoop及其相关技术、OpenStack外加即将得到支持的容器技术都在支持清单当中。  目前,用户能够自行选择编排技术:Kubernetes、Docker、Mesos或者Swarm皆可。Morrisroe强调称,客户的选择应当根据现有选项考量得出:“我认为我们还不清楚这类工作最终最适合采用哪种编排方式,”他解释称,他所指的不仅是容器技术、也包括面向Hadoop等产品的编排机制。  “我们希望客户有能力找到最适合自己的方案,”Morrisroe表示。“如果客户需要作出改变,他们也不该被迫在基础设施当中构建起新的孤立体系,同时应保证其能够以非破坏性方式进行并充分利用现有设备储备。”  从理论角度讲,提供一套容器技术选项能够与Docker之间产生很好的互补作用。这一点对于Docker向其所谓“包含基础但仍然可选”模式进行转变的过程而言显得尤为重要,其中面向编排及网络等功能的模块被包含在产品当中、但仍然允许客户以自由方式在不同机制之间任意切换。CloudOS在这方面扮演补充性角色可谓意义重大,但其仍然算不上革命性飞跃。  与其它准备以规模化方式运行容器机制的企业——例如IBM——不同,Piston公司的主张是将与安全性巩固与容器化技术相关的问题留给直接负责的部门。“我们希望利用现有容器编排项目中的创新成果,”Morrisroe表示。  “容器化与安全性巩固等事务,我们希望留给相关社区及从业企业负责。我认为这能帮助我们的客户降低风险,因为随着技术的不断演进,不可能存在那种百试百灵的万能药。如果存在更理想的容器编排方式,我们希望能够迅速将其纳入自身解决方案,并集成到整体工具箱当中。”  [附录:当被问及能够支持哪些容器技术类型时,Morrisroe回应称,“我们的终极目标在于允许客户根据实际需要任意选择理想的容器技术。这意味着我们未来需要能够支持Docker、Rocket以及各类通用型LXC容器。随着以容器为核心的各类新技术的不断涌现,我们将努力与开发出这些新技术的研发方通力合作,从而及时对其提供支持。”]

请看下面这张图:

狭义的Hadoop 也就是最初的版本:只有HDFS Map Reduce

后续出现很多存储,计算,管理 框架。

如果说比较的话就 Hadoop Map Reduce 和 Spark 比较,因为他们都是大数据分析的计算框架。

Spark 有很多行组件,功能更强大,速度更快。

1、解决问题的层面不一样

首先,Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着您不需要购买和维护昂贵的服务器硬件。

同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

2、两者可合可分

Hadoop除了提供为大家所共识的HDFS分布式数据存储功能之外,还提供了叫做MapReduce的数据处理功能。所以这里我们完全可以抛开Spark,使用Hadoop自身的MapReduce来完成数据的处理。

相反,Spark也不是非要依附在Hadoop身上才能生存。但如上所述,毕竟它没有提供文件管理系统,所以,它必须和其他的分布式文件系统进行集成才能运作。这里我们可以选择Hadoop的HDFS,也可以选择其他的基于云的数据系统平台。但Spark默认来说还是被用在Hadoop上面的,毕竟,大家都认为它们的结合是最好的。

以下是从网上摘录的对MapReduce的最简洁明了的解析:

3、Spark数据处理速度秒杀MapReduce

Spark因为其处理数据的方式不一样,会比MapReduce快上很多。MapReduce是分步对数据进行处理的: ”从集群中读取数据,进行一次处理,将结果写到集群,从集群中读取更新后的数据,进行下一次的处理,将结果写到集群,等等…“ Booz Allen Hamilton的数据科学家Kirk Borne如此解析。

反观Spark,它会在内存中以接近“实时”的时间完成所有的数据分析:“从集群中读取数据,完成所有必须的分析处理,将结果写回集群,完成,” Born说道。Spark的批处理速度比MapReduce快近10倍,内存中的数据分析速度则快近100倍。

如果需要处理的数据和结果需求大部分情况下是静态的,且你也有耐心等待批处理的完成的话,MapReduce的处理方式也是完全可以接受的。

但如果你需要对流数据进行分析,比如那些来自于工厂的传感器收集回来的数据,又或者说你的应用是需要多重数据处理的,那么你也许更应该使用Spark进行处理。

大部分机器学习算法都是需要多重数据处理的。此外,通常会用到Spark的应用场景有以下方面:实时的市场活动,在线产品推荐,网络安全分析,机器日记监控等。

4、灾难恢复

两者的灾难恢复方式迥异,但是都很不错。因为Hadoop将每次处理后的数据都写入到磁盘上,所以其天生就能很有弹性的对系统错误进行处理。Spark的数据对象存储在分布于数据集群中的叫做弹性分布式数据集(RDD: Resilient Distributed Dataset)中。这些数据对象既可以放在内存,也可以放在磁盘,所以RDD同样也可以提供完成的灾难恢复功能。

       但在过去的几年中,Hadoop似乎并没有出现过任何衰退的迹象。在2015年Atscale的调查报告中显示:“在未来3个月内,已经有超过 76%的人使用Hadoop来做更多的工作。”这些受访者中大约有一半声称他们利用Hadoop工作中获得了一定的价值。Hadoop作为一个十多年的老品牌,在产品的采用方面并没有减缓下降的趋势,Spark也并没有做到真正取代Hadoop。空口无凭,下面我们从以下几个方面来分析一下Spark在未来的几年之内到底能不能真正的取代Hadoop。

      由雅虎为工程师和数据科学家打造的Apache Hadoop曾因巨大的潜力而备受称赞,但如今它却受到了更快的产品的影响,而这些产品往往来自于它本身的生态系统——Spark就是其中之一。今年早些,H20ai的创始人Sri Ambati对Datanami 曾说:“Spark将会使Hadoop处于绝地”。

       毫无疑问,为专家设计的产品一般都会停留在原来的轨道上,在其他方面不会有所涉及。但Spark在各个行业都存在一些有意义的分布,这可能要归功于各种市场上的大数据的泛滥。所以,虽然Spark可能有更广泛的应用,但Hadoop仍然支配着原本预期的用户群。在全球范围内,我们可以看到Informatica处于中心位置——在欧洲和美洲整体市场份额占比达32%。

      在两年半的时间里,我们跟踪了Informatica在云市场和工业领域的增长,结果显示达到了50%的增长,而且在高等教育领域也处于领先地位。上周, Informatica被Gartner评为主数据管理解决方案2017年魔力象限的领导者。而Hadoop仍然停留于过去成功的地理市场中。在企业客户中Spark也没有大范围的涉及。我们注意到世界上大多数公司规模较小,一般都为1-50名员工,所以Spark似乎并不是任何规模公司的唯一选择。

      对于那些已经使用Hadoop的人来说,这个产品也对企业和公司起到了一定的作用,而且 Hadoop并不仅限于一种用户。而Hadoop无论在何种规模的公司中,使用率相对于Spark还是非常高的。此外,在调查的过程中,传统的科技公司像eBay、Verizon、惠普和亚马逊等主流厂商已经开始使用Spark,但是Hadoop还没有被大规模的抛弃。相反,用户使用Spark作为系统的介绍,利用这个程序来突破Hadoop的障碍,两者的结合,使得工作更高效地完成。

      Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着你不需要购买和维护昂贵的服务器硬件。同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。Spark,则是那么一个专门用来对那些分布式存储的大数据进行处理的工具,它并不会进行分布式数据的存储。

    其次,还有一点也值得注意——这两者的灾难恢复方式迥异。因为Hadoop将每次处理后的数据都写入到磁盘上,所以其天生就能很有弹性的对系统错误进行处理。Hadoop和Apache Spark两者都是大数据框架,但是各自存在的目的不尽相同。Hadoop实质上更多是一个分布式数据基础设施: 它将巨大的数据集分派到一个由普通计算机组成的集群中的多个节点进行存储,意味着你不需要购买和维护昂贵的服务器硬件。同时,Hadoop还会索引和跟踪这些数据,让大数据处理和分析效率达到前所未有的高度。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » OpenStack 怎样建构Hadoop与Spark系统

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情