Hadoop软件处理框架,第1张

一、Hadoop

Hadoop是一个能够对大量数据进行分布式处理的软件框架。但是Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop还是可伸缩的,能够处理PB级数据。此外,Hadoop依赖于社区服务器,因此它的成本比较低,任何人都可以使用。

Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:

⒈高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。

⒉高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。

⒊高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

⒋高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。

Hadoop上的应用程序也可以使用其他语言编写,比如C。

二、HPCC

HPCC,HighPerformanceComputingand(高性能计算与通信)的缩写。

1993年,由美国科学、工程、技术联邦协调理事会向国会提交了“重大挑战项目:高性能计算与通信”的报告,也就是被称为HPCC计划的报告,即美国总统科学战略项目,其目的是通过加强研究与开发解决一批重要的科学与技术挑战问题。HPCC是美国实施信息高速公路而上实施的计划,该计划的实施将耗资百亿美元,其主要目标要达到:开发可扩展的计算系统及相关软件,以支持太位级网络传输性能,开发千兆比特网络技术,扩展研究和教育机构及网络连接能力。

该项目主要由五部分组成:

1、高性能计算机系统(HPCS),内容包括今后几代计算机系统的研究、系统设计工具、先进的典型系统及原有系统的评价等;

2、先进软件技术与算法(ASTA),内容有巨大挑战问题的软件支撑、新算法设计、软件分支与工具、计算计算及高性能计算研究中心等;

3、国家科研与教育网格(NREN),内容有中接站及10亿位级传输的研究与开发;

4、基本研究与人类资源(BRHR),内容有基础研究、培训、教育及课程教材,被设计通过奖励调查者-开始的,长期的调查在可升级的高性能计算中来增加创新意识流,通过提高教育和高性能的计算训练和通信来加大熟练的和训练有素的人员的联营,和来提供必需的基础架构来支持这些调查和研究活动;

5、信息基础结构技术和应用(IITA),目的在于保证美国在先进信息技术开发方面的领先地位。

三、Storm

Storm是自由的开源软件,一个分布式的、容错的实时计算系统。Storm可以非常可靠的处理庞大的数据流,用于处理Hadoop的批量数据。Storm很简单,支持许多种编程语言,使用起来非常有趣。Storm由Twitter开源而来,其它知名的应用企业包括Groupon、淘宝、支付宝、阿里巴巴、乐元素、Admaster等等。

Storm有许多应用领域:实时分析、在线机器学习、不停顿的计算、分布式RPC(远过程调用协议,一种通过网络从远程计算机程序上请求服务)、ETL(Extraction--Loading的缩写,即数据抽取、转换和加载)等等。Storm的处理速度惊人:经测试,每个节点每秒钟可以处理100万个数据元组。Storm是可扩展、容错,很容易设置和操作。

四、ApacheDrill

为了帮助企业用户寻找更为有效、加快Hadoop数据查询的方法,Apache软件基金会近日发起了一项名为“Drill”的开源项目。ApacheDrill实现了Google‘sDremel

据Hadoop厂商MapR公司产品经理TomerShiran介绍,“Drill”已经作为Apache孵化器项目来运作,将面向全球软件工程师持续推广。

该项目将会创建出开源版本的谷歌DremelHadoop工具(谷歌使用该工具来为Hadoop数据分析工具的互联网应用提速)。而“Drill”将有助于Hadoop用户实现更快查询海量数据集的目的。

“Drill”项目其实也是从谷歌的Dremel项目中获得灵感:该项目帮助谷歌实现海量数据集的分析处理,包括分析抓取Web文档、跟踪安装在AndroidMarket上的应用程序数据、分析垃圾邮件、分析谷歌分布式构建系统上的测试结果等等。

通过开发“Drill”Apache开源项目,组织机构将有望建立Drill所属的API接口和灵活强大的体系架构,从而帮助支持广泛的数据源、数据格式和查询语言。

五、RapidMiner

RapidMiner是世界领先的数据挖掘解决方案,在一个非常大的程度上有着先进技术。它数据挖掘任务涉及范围广泛,包括各种数据艺术,能简化数据挖掘过程的设计和评价。

功能和特点:

免费提供数据挖掘技术和库

100%用Java代码(可运行在操作系统)

数据挖掘过程简单,强大和直观

内部XML保证了标准化的格式来表示交换数据挖掘过程

可以用简单脚本语言自动进行大规模进程

多层次的数据视图,确保有效和透明的数据

图形用户界面的互动原型

命令行(批处理模式)自动大规模应用

JavaAPI(应用编程接口)

简单的插件和推广机制

强大的可视化引擎,许多尖端的高维数据的可视化建模

400多个数据挖掘运营商支持

耶鲁大学已成功地应用在许多不同的应用领域,包括文本挖掘,多媒体挖掘,功能设计,数据流挖掘,集成开发的方法和分布式数据挖掘。

六、PentahoBI

PentahoBI平台不同于传统的BI产品,它是一个以流程为中心的,面向解决方案(Solution)的框架。其目的在于将一系列企业级BI产品、开源软件、API等等组件集成起来,方便商务智能应用的开发。它的出现,使得一系列的面向商务智能的独立产品如Jfree、Quartz等等,能够集成在一起,构成一项项复杂的、完整的商务智能解决方案。

PentahoBI平台,PentahoOpenBI套件的核心架构和基础,是以流程为中心的,因为其中枢控制器是一个工作流引擎。工作流引擎使用流程定义来定义在BI平台上执行的商业智能流程。流程可以很容易的被定制,也可以添加新的流程。BI平台包含组件和报表,用以分析这些流程的性能。目前,Pentaho的主要组成元素包括报表生成、分析、数据挖掘和工作流管理等等。这些组件通过J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技术集成到Pentaho平台中来。Pentaho的发行,主要以PentahoSDK的形式进行。

PentahoSDK共包含五个部分:Pentaho平台、Pentaho示例数据库、可独立运行的Pentaho平台、Pentaho解决方案示例和一个预先配制好的Pentaho网络服务器。其中Pentaho平台是Pentaho平台最主要的部分,囊括了Pentaho平台源代码的主体;Pentaho数据库为Pentaho平台的正常运行提供的数据服务,包括配置信息、Solution相关的信息等等,对于Pentaho平台来说它不是必须的,通过配置是可以用其它数据库服务取代的;可独立运行的Pentaho平台是Pentaho平台的独立运行模式的示例,它演示了如何使Pentaho平台在没有应用服务器支持的情况下独立运行;Pentaho解决方案示例是一个Eclipse工程,用来演示如何为Pentaho平台开发相关的商业智能解决方案。

PentahoBI平台构建于服务器,引擎和组件的基础之上。这些提供了系统的J2EE服务器,安全,portal,工作流,规则引擎,图表,协作,内容管理,数据集成,分析和建模功能。这些组件的大部分是基于标准的,可使用其他产品替换之。

七、Splunk

Splunk的功能组件主要有Forwarder、SerchHead、Indexer三种,然后支持了查询搜索、仪表盘和报表(效果真不是吹的,很精致呀),另外还支持SaaS服务模式。其中,Splunk支持的数据源也是多种类型的,基本上还是可以满足客户的需求。

目前支持hadoop1x(MRv1)、Hadoop2x(MRv2)、Hadoop2x(Yarn)三个版本的Hadoop集群的日志数据源收集,在日志管理运维方面还是处于一个国际领先的地位,目前国内有部分的数据驱动型公司也正在采用Splunk的日志管理运维服务。

八、EverString

everstring主要是通过大数据的预测分析建模为企业提供业务和客户推荐的SaaS服务,获取和积累了两个数据信息资源库,一个行业外部的资源库(公有SaaS收费形式),一个行业自己内部的资源库(私有),然后再通过机器学习和人工智能的方法对数据进行相应行业或是领域的建模,最后得到一个比较不错的结果,优化于人工可以得到的结果,而且Everstring也成为了初创大数据公司里面估值很高的公司。

1、WEB服务器指的是能够提供网页、网站功能的应用或系统。通俗点,就是能架个网站的玩意儿。

2、你问的“C++的WEB服务器”是什么意思呢,是专门给C++用的?还是C++编写出来的?

3、应该说没有专门给C++用的WEB服务器,当前的WEB服务器主要使用html网页语言,交互使用ASP\ASPnet\GCI\PHP等。其中ASPnet的编写使用C#,后台方面的语法和C++是很近似的,前台使用的基本类似html。

4、C++编写的WEB服务器应该是有的。Apache就主要是使用 C和C++编写的。使用C++编程的的人非常多,不过英雄不问出处,何况很多应用环境的编写不只是使用一种语言,很多复杂的系统或应用都是很多人使用多种语言来编写完成的。

关于大数据你不可不知的大企业及大布局_数据分析师考试

如果说有一家科技公司准确定义了“大数据”概念的话,那一定是谷歌。根据搜索研究公司康姆斯科(Comscore)的调查,仅2012年3月一个月的时间,谷歌处理的搜索词条数量就高达122亿条。

谷歌不仅存储了它的搜索结果中出现的网络连接,还会储存所有人搜索关键词的行为,它能够精准地记录下人们进行搜索行为的时间、内容和方式。这些数据能够让谷歌优化广告排序,并将搜索流量转化为盈利模式。谷歌不仅能追踪人们的搜索行为,而且还能够预测出搜索者下一步将要做什么。换言之,谷歌能在你意识到自己要找什么之前预测出你的意图。这种抓取、存储并对海量人机数据进行分析,然后据此进行预测的能力,就是所谓的“大数据”。

2012:大数据十字路口?

为什么大数据突然变得这么火?为什么《纽约时报》把2012年定义为“大数据的十字路口”?

大数据之所以进入主流大众的视野,源自三种趋势的合力:

第一,许多高端消费品公司加强了对大数据的应用。社交网络巨擎 Facebook 使用大数据来追踪用户在其网络的行为,通过识别你在它的网络中的好友,从而给出新的好友推荐建议,用户拥有越多的好友,他们与 Facebook之间的黏度就越高。更多的好友意味着用户会分享更多照片、发布更多状态更新、玩更多的游戏。

商业网站LinkdIn则使用大数据在求职者和招聘职位之间建立关联。有了LinkdIn,猎头们再也不用向潜在的受聘者打陌生电话来碰运气,而可以通过简单的搜索找出潜在受聘者并联系他们。与此相似,求职者也可以通过联系网站上其他人,自然而然地将自己推销给潜在的雇主。

第二,以上两家公司都在2012年早些时候陆续上市。Facebook 在纳斯达克上市,LinkedIn 在纽约证券交易所上市。这两家企业和谷歌一样,虽然表面上是消费品公司,然而其本质是大数据企业。除去这两家,Splunk 也在 2012 年完成了上市,它是一家帮助大中型企业提供运营智能的大数据企业。这些企业的公开上市提高了华尔街对于大数据的兴趣。这种兴趣带来了空前的盛况——硅谷的风险投资家们开始前仆后继地投资大数据企业。大数据将引发下一波创业大潮,而这次浪潮有望让硅谷在未来几年取代华尔街。

第三,亚马逊、Facebook、LinkedIn 和其他以数据为核心消费品的活跃用户们,开始期待自己在工作中也能获得畅通无阻地使用大数据的体验,而不再仅仅限于生活娱乐。用户们此前一直想不通,既然互联网零售商亚马逊可以推荐阅读书目、推荐**、推荐可供购买的产品,为什么他们所在的企业却做不到类似的事情。

比如,既然汽车租赁公司拥有客户过去租车的信息和现有可用车辆库存的信息,这些公司为何就不能在向不同的租车人提供合适的车辆方面做得更智能一点?公司还可以通过新的技术,将公开信息利用起来——比如某个特定市场的状况,会议活动信息,以及其他可能会影响市场需求和供给的事件。通过将内部供应链数据和外部市场数据结合在一起,公司就可以更加精确地预测什么车辆可用,以及可用时间。

与此类似,零售商应当可以将来自外部的公开数据和内部数据结合在一起,利用这种混合的数据进行产品定价和市场布局。同时还可以同时考虑影响现货供应能力的多种因素以及消费者购物习惯,包括哪两种产品相搭配会卖得更好,这样零售商就可以提升消费者的平均购买量,从而获得更高的利润。

谷歌的行动

谷歌的体量和规模,使它拥有比其他大多数企业更多的应用大数据的途径。谷歌的优势之一在于,它拥有一支软件工程师部队,这使得谷歌能够从无到有地建立大数据技术。

谷歌的另一个优势在于它所拥有的基础设施。谷歌搜索引擎本身的设计,就旨在让它能够无缝链接成千上万的服务器。如果出现更多的处理或存储需要,抑或某台服务器崩溃,谷歌的工程师们只要再添加更多的服务器就能轻松搞定。

谷歌软件技术的设计也秉持着同样的基础设施理念。MapReduce(谷歌开发的编程工具,用于大规模数据集的并行运算。——译者注)和谷歌文件系统(Google File System)就是两个典型的例子。《连线》杂志在 2012年初夏曾报道称,这两个软件系统“重塑了谷歌建立搜索索引的方式”。

为数众多的企业如今开始使用Hadoop, 它是MapReduce和谷歌文件系统的一种开源衍生产品。Hadoop允许横跨多台电脑,对庞大的数据集合进行分布式处理。在其他企业刚刚开始使用Hadoop的时候,谷歌早已多年深耕大数据技术,这让它在行业中获得了巨大的领先优势。

如今谷歌正在进一步开放数据处理领域,将其和更多第三方共享。谷歌最近刚刚推出web服务BigQuery。该项服务允许使用者对超大量数据集进行交互式分析。按照谷歌目前的状况,“超大量”,意味着数十亿行数据。BigQuery 就是按指令在云端运行的数据分析。

除此以外,谷歌还坐拥人们在谷歌网站进行搜索及经过其网络时所产生的大量机器数据。用户所输入的每一个搜索请求,都会让谷歌知道他在寻找什么,所有人类行为都会在互联网上留下痕迹路径,而谷歌占领了一个绝佳的点位来捕捉和分析该路径。

不仅如此,谷歌在搜索之外还有更多获取数据的途径。企业安装“谷歌分析(Google Analytics)”之类的产品来追踪访问者在其站点的足迹,而谷歌也可获得这些数据。网站还使用“谷歌广告联盟(Google Adsense)”,将来自谷歌广告客户网的广告展示在其站点,因此,谷歌不仅可以洞察自己网站上广告的展示效果,同样还可以对其他广告发布站点的展示效果一览无余。

将所有这些数据集合在一起所带来的结果是:企业不仅从最好的技术中获益,同样还可以从最好的信息中获益。在信息技术方面,许多企业可谓耗资巨大,然而在信息技术的组成部分之一——信息领域,谷歌所进行的庞大投入和所获得的巨大成功,却罕有企业能望其项背。

亚马逊步步紧逼

谷歌并不是惟一一个推行大数据的大型技术公司。互联网零售商亚马逊已经采取了一些激进的举动,令其有可能成为谷歌的最大威胁。

曾有分析者预测,亚马逊2015年营收将超过1000亿美元,它即将赶超沃尔玛成为世界最大的零售商。如同谷歌一样,亚马逊也要处理海量数据,只不过它处理数据带有更强的电商倾向。消费者们在亚马逊的网站上对想看的电视节目或是想买的产品所进行的每一次搜索,都会让亚马逊对该消费者的了解有所增加。基于搜索和产品购买行为,亚马逊就可以知道接下来应该推荐什么产品。而亚马逊的聪明之处还不止于此,它还会在网站上持续不断地测试新的设计方案,从而找出转化率最高的方案。

你会认为亚马逊网站上的某段页面文字只是碰巧出现的吗?如果你这样认为的话,你应该再好好想一想。整个网站的布局、字体大小、颜色、按钮以及其他所有的设计,其实都是在多次审慎测试后的最优结果。

以数据为导向的方法并不仅限于以上领域,按一位前员工的说法,亚马逊的企业文化就是冷冰冰的数据导向型文化。数据显示出什么是有效的、什么是无效的,新的商业投资项目必须要有数据的支撑。对数据的长期专注让亚马逊能够以更低的售价提供更好的服务。消费者常常会完全跳过谷歌之类的搜索引擎,直接去亚马逊网站搜索商品、并进行购买。

争夺消费者控制权的战争硝烟还在弥漫扩散,苹果、亚马逊、谷歌,以及微软,这四家公认的巨头如今不仅在互联网上厮杀,在移动领域同样打得难解难分。鉴于消费者们把越来越多的时间花在手机和平板电脑等移动设备上,坐在电脑前的时间越来越少,因此,那些能进入消费者掌中移动设备的企业,将在销售和获取消费者行为信息方面更具有优势。企业掌握的消费者群体和个体信息越多,它就越能够更好地制定内容、广告和产品。

从支撑新兴技术企业的基础设施到消费内容的移动设备,令人难以置信的是,亚马逊的触角已触及到更为广阔的领域。亚马逊在几年前就预见了将服务器和存储基础设施开放给其他人的价值。“亚马逊网络服务(Amazon Web Services,简称 AWS)”是亚马逊公司知名的面向公众的云服务提供者,为新兴企业和老牌公司提供可扩展的运算资源。虽然AWS 成立的时间不长,但已有分析者估计它每年的销售额超过15亿美元。

AWS所提供的运算资源为企业开展大数据行动铺平了道路。当然,企业依然可以继续投资建立以私有云为形式的自有基础设施,而且很多企业还会这样做。但是如果企业想尽快利用额外的、

可扩展的运算资源,他们还可以方便快捷地在亚马逊的公共云上使用多个服务器。如今亚马逊引领潮流、备受瞩目,靠的不仅是它自己的网站和Kindle之类新的移动设备,支持着数千个热门站点的基础设施同样功不可没。

AWS带来的结果是,大数据分析不再需要企业在IT上投入固定成本,如今,获取数据、分析数据都能够在云端简单迅速地完成。换句话说,企业过去由于无法存储而不得不抛弃数据,如今它们有能力获取和分析规模空前的数据。

实现信息优势

AWS之类的服务与Hadoop之类的开源技术相结合,意味着企业终于能够尝到信息技术在多年以前向世人所描绘的果实。

数十年来,人们对所谓“信息技术”的关注一直偏重于其中的“技术”部分。首席信息官的职责只不过是对服务器、存储和网络的购买及管理。而今,信息以及对信息的分析和存储、依据信息进行预测的能力,正成为企业竞争优势的来源。

信息技术刚刚兴起的时候,较早应用信息技术的企业能够更快地发展,超越他人。微软在20世纪90年代树立起威信,这不仅仅得益于它开发了世界上应用最为广泛的操作系统,还在于它当时在公司内部将电子邮件作为标准沟通机制。

在许多企业仍在犹豫是否采用电子邮件的时候,电子邮件事实上已经成为微软讨论招聘、产品决策、市场战略之类事务的机制。虽然群发电子邮件的交流在如今已是司空见惯,但在当时,这样的举措让微软较之其他未采用电子邮件的公司,更加具有速度和协作优势。拥抱大数据、在不同的组织之间民主化地使用数据,将会给企业带来与之相似的优势。诸如谷歌和Facebook之类的企业已经从“数据民主”中获益。

通过将内部数据分析平台开放给所有跟自己的公司相关的分析师、管理者和执行者,谷歌、Facebook 及其他一些公司已经让组织中的所有成员都能向数据提出跟商业有关的问题、获得答案

并迅速行动。 以Facebook为例,它将大数据推广成为内部的服务,这意味着该服务不仅是为工程师设计的,也是为终端用户——生产线管理人员设计的,他们需要运用查询来找出有效的方案。因此,管理者们不需要等待几天或是几周的时间来找出网站的哪些改变最有效,或者哪些广告方式效果最好,他们可以使用内部的大数据服务,而该服务就是为了满足其需求而设计的,这使得数据分析的结果很容易就可以在员工之间被分享。

过去的二十年是信息技术的时代,接下来二十年的主题仍会是信息技术。这些企业能够更快地处理数据,而公共数据资源和内部数据资源一体化将带来独特的洞见,使他们能够远远超越竞争对手。如同我所撰写的《大数据的八大定律》(The Top 8 Laws Of Big Data)所言,你分析数据的速度越快,它的预测价值就越大。企业如今正在渐渐远离批量处理(批量处理指先存储数据,事件之后再慢慢进行分析处理),转向实时分析来获取竞争优势。

对于高管们而言,好消息是:来自于大数据的信息优势不再只属于谷歌、亚马逊之类的大企业。Hadoop之类的开源技术让其他企业同样可以拥有这样的优势。老牌财富100强企业和新兴初创公司,都能够以合理的价格,利用大数据来获得竞争优势。

大数据的颠覆

大数据带来的颠覆,不仅是与以往相比可以获取和分析更多数据的能力,更重要的是获取和分析等量数据的价格也正在显著下降,而价格越低,销量就会越高。然而,隐含其中的讽刺关系正如所谓的“杰文斯悖论”(Jevons Paradox)。经济学家杰文斯通过观察工业革命得出该悖论,并以他的名字命名(杰文斯悖论的核心是,资源利用率的提高导致价格降低 , 最终会增加资源的使用量。——译者注)。科技进步使储存和分析数据的方式变得更有效率,公司将做更多的数据分析,因此并没有减少工作。简而言之,这就是大数据带来的颠覆。

从亚马逊到谷歌,从IBM到惠普和微软,大量的大型技术公司纷纷投身大数据,而基于大数据解决方案,更多初创型企业如雨后春笋般涌现,实现开放源和共享云。大公司致力于横向的大数据解决方案,与此同时,小公司则专注于为重要垂直业务提供应用程序。有些产品优化销售效率,还有些产品通过将不同渠道的营销业绩与实际的产品使用数据相关联,为未来营销活动提供建议。这些大数据应用(Big Data Applications,简称BDA)意味着小公司不必在内部开发或配备所有大数据技术;在很多情况下,它们可以利用基于云端的服务来满足数据分析需求。在技术之外,这些小企业还会开发一些产品,追踪记录与健康相关的指标并据此提出改善人们行为的建议。诸如此类的产品有望减少肥胖,提高生活质量,同时降低医疗成本。

大数据路线图

产业分析研究公司福雷斯特(Forrester)估计,企业数据的总量在以每年 94% 的增长率飙升。这样的高速增长之下,每个企业都需要一个大数据路线图。至少,企业应制订获取数据的战略,获取范围应从内部电脑系统的常规机器日志,到线上的用户交互记录。即使企业当时并不知道这些数据有什么用也要这样做,这些数据的用处随后或许会突然被发现。

数据所具有的价值远远高于你最初的期待,千万不要随便抛弃数据。企业还需要一个计划以应对数据的指数型增长。照片、即时信息以及电子邮件的数量非常庞大,由手机、GPS 及其他设备构成的“感应器”释放出的数据量甚至还要更大。

理想情况下,企业应该具备一种能够让数据分析贯穿于整个组织的视野,分析应该尽可能地接近实时。通过观察谷歌、亚马逊、Facebook和其他科技领袖企业,你可以看到大数据之下的种种可能。管理者需要做的就是在组织中融入大数据战略。

谷歌和亚马逊这样的企业,应用大数据进行决策已数年有余,它们在数据处理上已经获得了广泛的成功。而现在,你也可以拥有同样的能力。

以上是小编为大家分享的关于关于大数据你不可不知的大企业及大布局的相关内容,更多信息可以关注环球青藤分享更多干货

  用户终究会想知道VMware工作环境中虚拟机的一些特性,诸如哪个虚拟机是配置来为特定数量RAM服务等。虽然成功地使用虚拟环境需要知道某些工作如何进行,但是VI Client仍然提供了几种在基础架构中搜索的方法,目前也有一些提供增强搜索功能的第三方选择。在本文中,TechTarget中国的特约虚拟化专家David Davis首先回顾一下这些第三方选择;然后针对特定需求介绍如何使用VI Client在VMware基础架构进行搜索。

  在VMware内搜索的内容

  VMware基础架构能够以较快速度增长,更多服务器、更多虚拟机、更多预定任务和更多配置警告等。用户最终还是需要了解一些知识,或许不能够或者不知道如何去做。下面是一些用户可能希望知道答案的问题:

  •哪个虚拟机为虚拟机RAM配置512MB内存?

  •哪个虚拟机没有安装VMware工具?

  •哪个宿主系统有两个以上CPU?

  •说明中有工作“bob”产生的警告吗?

  •有人为帮助工作台组创建一个安全角色吗?

  •这周用户管理员执行哪些工作?

  正如我以前提及过一样,使用VI Client内置过滤器功能可以找到这些问题的答案,我也将告诉读者怎样去找问题答案。首先我们还是要讨论一下VMware基础架构内搜索的前景以及一些第三方提供的内容。

  VMware基础架构内搜索的前景

  在2008年虚拟机世界中我并没有看到比较重要的宣布,在VMware ESX新一代版本和VMware基础架构的每一次演示中,VI Client顶部都有一个显著的搜索条。对我来讲,这个搜索条让我想起IE或者火狐浏览器中的Google搜索条,这个搜索条在VI Client每一个单独窗口上都有。我并不知道这个搜索条可以搜索到的内容以及其限制可能是什么,我们可以推断出VMware已经意识到在VI Client内提高搜索性能的必要性,VMware也意识到当前的过滤和搜索功能都需要改进,所以在即将发布的ESX新一代版本和VI Client中改进了搜索功能。我们也可以推断出很多第三方公司也为VMware基础架构的搜索功能提供了很大程度改进,VMware的工程师们也认识到这正是他们自己可以做的事情。

  提供搜索功能的第三方选择

  确实有一些可以在用户的VMware基础架构中搜索的第三方选择(如有遗漏还请见谅),下面是我列举的一些:

  Splunk for VMware

  Splunk以日志管理出名,但是该公司试图从其收集的数据中给出问题的答案。最近,该公司开始为主机和虚拟机收集VMware数据信息。现在可以提供“IT搜索”,允许用户搜索VMware相关数据信息。然而,Splunk所做的工作不仅仅是搜索。也可以做规划、最优化、监控性能以及做整个IT基础架构根源问题分析等方面的工作,所以Splunk的工作范围远远超过搜索。在Splunk主页上,可以看到一段展示搜索功能的视频。Splunk同时提供免费版和商业版。

  VKernel SearchMyVM

  从下图可以看到,SearchMyVM在虚拟基础架构中提供一个类似于Google的界面。通过该界面,可以回答例如“我们挂载CD-ROM设备驱动到哪台虚拟机上了吗?”之类的问题。因此如果用户使用VMotion的话,SearchMyVM就在用户VMware基础架构内作为一个虚拟机应用程序运行。SearchMyVM主页提供免费评估,但使用的话起始价格是199美元。

  

  Hyper9

  Hyper9目前还是试用版(在我的博客中介绍如何得到免费试用版),其不仅仅关注于搜索,而且也关注合作、合并当前和历史数据、变更管理和分析。因此,和Splunk一样,尽管为虚拟基础架构提供搜索功能是Hyper9的一个显著特性,它的工作还不仅仅局限于搜索。

  使用VI Client搜索VMware基础架构

  目前在VMware ESX和VI Client内部已经有一些有用的过滤和搜索功能。使用当前的VMware ESX和VI Client提供的过滤功能就可以很好地回答文章第一部分提出的问题。这个功能实际上是过滤而非搜索。然而当前过滤功能在VI Client中默认是关闭的。如果想用这项功能,在每一个窗口都必须把过滤功能打开。

  在每一个窗口的“View”选项,下拉菜单可以看到“Filtering”,如图所示:

  打开过滤功能就像仅仅应用在详细目录(用户在这个详细目录下)当前级别的检查框以及用户当前所在标签。因此,如果用户打开虚拟机数据中心级别的过滤功能,并且使用特定ESX主机的话,之后再转向虚拟机标签,就必须再次打开过滤功能,这个是设计上的缺陷。我认为,如果打开了过滤功能,无论任何视图中的任何标签,过滤功能在整个控制台上都可用。

  看一下一些VI Client内置过滤功能帮助用户的方法,为了说明这个问题,我们首先回答一下在文章开始时候我提出的几个问题:

  注意:对于所有的例子,用户也需要打开演示中的列,才可以在演示中看到结果:

  哪个虚拟机为虚拟机RAM配置512MB内存?

  打开数据中心虚拟机“Inventory”视图来回答这个问题,打开过滤功能,打开虚拟机“Memory Size – MB ”,在过滤框内输入512,如下图所示:

  打开数据中心虚拟机“Inventory”视图来回答这个问题,打开过滤功能,打开虚拟机“VMware Tools Status”,在过滤框中输入“Note Installed”,如下图所示:

  哪个宿主主机有两个以上CPU?

  打开数据中心虚拟机主机“Inventory”视图来回答这个问题,打开过滤功能,打开虚拟机“CPU Count”,在过滤框中输入数字2,如下图所示:

  说明中有工作“bob”产生的警告吗?

  打开数据中心“Alarms”视图来回答这个问题,打开过滤功能,打开虚拟机“Description”,在过滤框中输入“Bob”,如下图所示:

  有人为帮助工作台组创建一个安全角色吗?

  打开数据中心 “Permissions”视图来回答这个问题,打开过滤功能,打开虚拟机“User/Group”,在过滤框中输入“Help”,如下图所示:

  这周用户管理员就做了哪些工作?

  打开数据中心 “Tasks and Events”视图来回答这个问题,打开过滤功能,打开虚拟机“Initiated By”,在过滤框中输入“Administrator”,如下图所示:

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » Hadoop软件处理框架

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情