大数据分析一般用什么工具分析

大数据分析一般用什么工具分析,第1张

数据分析的前瞻性使得很多公司以及企业都开始使用大数据分析对公司的决策做出帮助,而大数据分析是去分析海量的数据,所以就不得不借助一些工具去分析大数据,。一般来说,数据分析工作中都是有很多层次的,这些层次分别是数据存储层、数据报表层、数据分析层、数据展现层。对于不同的层次是有不同的工具进行工作的。下面小编就对大数据分析工具给大家好好介绍一下。

首先我们从数据存储来讲数据分析的工具。我们在分析数据的时候首先需要存储数据,数据的存储是一个非常重要的事情,如果懂得数据库技术,并且能够操作好数据库技术,这就能够提高数据分析的效率。而数据存储的工具主要是以下的工具。

1、MySQL数据库,这个对于部门级或者互联网的数据库应用是必要的,这个时候关键掌握数据库的库结构和SQL语言的数据查询能力。

2、SQL Server的最新版本,对中小企业,一些大型企业也可以采用SQL Server数据库,其实这个时候本身除了数据存储,也包括了数据报表和数据分析了,甚至数据挖掘工具都在其中了。

3、DB2,Oracle数据库都是大型数据库了,主要是企业级,特别是大型企业或者对数据海量存储需求的就是必须的了,一般大型数据库公司都提供非常好的数据整合应用平台;

接着说数据报表层。一般来说,当企业存储了数据后,首先要解决报表的问题。解决报表的问题才能够正确的分析好数据库。关于数据报表所用到的数据分析工具就是以下的工具。

1、Crystal Report水晶报表,Bill报表,这都是全球最流行的报表工具,非常规范的报表设计思想,早期商业智能其实大部分人的理解就是报表系统,不借助IT技术人员就可以获取企业各种信息——报表。

2、Tableau软件,这个软件是近年来非常棒的一个软件,当然它已经不是单纯的数据报表软件了,而是更为可视化的数据分析软件,因为很多人经常用它来从数据库中进行报表和可视化分析。

第三说的是数据分析层。这个层其实有很多分析工具,当然我们最常用的就是Excel,我经常用的就是统计分析和数据挖掘工具;

1、Excel软件,首先版本越高越好用这是肯定的;当然对Excel来讲很多人只是掌握了5%Excel功能,Excel功能非常强大,甚至可以完成所有的统计分析工作!但是我也常说,有能力把Excel玩成统计工具不如专门学会统计软件;

2、SPSS软件:当前版本是18,名字也改成了PASW Statistics;我从30开始Dos环境下编程分析,到现在版本的变迁也可以看出SPSS社会科学统计软件包的变化,从重视医学、化学等开始越来越重视商业分析,现在已经成为了预测分析软件。

最后说表现层的软件。一般来说表现层的软件都是很实用的工具。表现层的软件就是下面提到的内容。

1、PowerPoint软件:大部分人都是用PPT写报告。

2、Visio、SmartDraw软件:这些都是非常好用的流程图、营销图表、地图等,而且从这里可以得到很多零件;

3、Swiff Chart软件:制作图表的软件,生成的是Flash

中证网讯(王珞)浪潮信息4月9日公布2021年年度报告,报告期内实现营业收入67048亿元,同比增长636%,实现归属于上市公司股东的净利润2003亿元,同比增长3657%,基本每股收益138元,公司拟向全体股东每10股派发现金红利140元(含税)。

浪潮信息是全球领先的新型IT基础架构产品、方案及服务提供商,以“智慧计算”为战略,通过“硬件重构+软件定义”的算力产品和解决方案、构建开放融合的计算生态,为客户构建满足多样化场景的智慧计算平台,全面推动人工智能、大数据、云计算、物联网的广泛应用和对传统产业的数字化变革与重塑。通过不断完善基于客户需求的服务器软硬件研发体系,公司目前已形成具有自主知识产权、涵盖高中低端各类型服务器的云计算Iaas层系列产品。同时,公司在服务器、AI计算、开放计算领域处于全球领先地位,引领着AI产业化、产业AI化、智算新基建等领域的发展。

注重技术研发是公司过去业绩取得的前提,也是未来继续快速增长的基础。从研制出中国第一台小型机服务器SMP2000,到成长为居全球前二位的服务器供应商,掌握核心技术、改变竞争格局一直是公司企业文化的内核。公司不断发展以大算力和大模型为核心的智算技术体系,2021年公司研发投入高达2833亿元,同比增长1179%,占营业收入的422%。公司在融合架构技术取得重大进展,提出了以计算为中心的计算架构,在节点内部实现了CPU同加速器之间的缓存一致性高速总线互连。基于此项技术,公司研发了国内首款支持高速计算连接一致性总线的加速器,CPU同加速器之间的平均数据访问延迟降低80%,节点间的数据访问延迟可低至亚微秒级。

报告期内,面对经济主战场数字化转型的机遇,公司持续聚焦云计算、大数据、人工智能为代表的智慧计算,明确从计算到智算的行业发展趋势,坚持“开放、融合、敏捷”策略,在研发、生产、交付、服务模式等方面持续创新,各项业务保持快速增长势头。此外,在通用计算领域,浪潮信息于2021年全新发布的M6服务器已打破165项SPEC世界性能测试纪录,包揽SPEC CPU Cint最具普适性、SPECjbb企业级Java应用、SPEC power业界能耗评估等五大赛道冠军。浪潮信息的AI服务器产品在2021年度全球权威AI基准测试MLPerfTM中共斩获44项第一,名列MLPerfTM2021年度冠军榜首。根据IDC最新数据,浪潮信息的服务器产品2021年位居全球前二,持续以30%+的市占率领跑中国市场。根据Gartner最新数据,浪潮存储2021年销量位居全球前五,在全球第二存储市场排名第二,浪潮信息连续两年入选Gartner主存储魔力象限的挑战者。

公司紧抓智慧新基建产业机遇实现增长。公司在人工智能领域走在了业界前列,在突破AI核心技术的同时,完成了在硬件、平台、管理和框架等四个层面的业务布局。2021年,公司面向智算中心业务率先布局,同时围绕AI计算力生产、聚合、调度、释放的四大关键作业环节,进一步强化产品体系和产业生态构建。在市场表现方面同样领先,IDC最新发布的数据显示,2017年至2021年上半年,公司AI服务器稳居中国市场第一,保持了智慧计算领导者的地位。在国际权威分析机构Forrester发布的《The Forrester Wave: AI Infrastructure, Q4 2021》报告中,公司凭借AI全栈的能力位于卓越挑战者象限。

云计算变革依然是过去几年全球服务器市场最大的增长机会,公司是云服务器的最大受益者,也是全球最大的云服务器供应商。根据IDC发布的2021年上半年中国边缘计算服务器市场跟踪报告,浪潮边缘专用服务器在2021年上半年以494%的市占率位居中国市场第一。

公司表示,浪潮信息的高速发展成果得益于公司对计算产业的前瞻性判断,积极实施智慧计算战略,率先布局人工智能、边缘等技术领域,以及依托产品、技术、生态在智慧计算领域的持续深耕。 目前,智慧计算已成为推进数字经济发展和 社会 变革的核心生产力,浪潮作为全球领先的智慧计算企业,将以开放开源为原则,不断完善和强化产品技术布局,积极发展开放计算和AI,为智算中心提供算力支持,在算力基础设施方面向更深、更广发展,助力企业数字化转型捕捉全新机遇,为数字经济注入无限智慧生机,共绘新格局之下美好蓝图。

其实超融合这一块,放在云计算IT基础设施里面,不算是完全合适。你说它是分布式存储,但是它同时又是硬件服务器与存储;你说它算硬件,但是它又离不开分布式存储软件。

传统的IT基础设施架构,主要分为网络、计算、存储三层架构。但随着云计算与分布式存储技术的发展以及x86服务器的标准化,逐渐出现了一种将计算、存储节点融合在一起的架构--超融合架构。超融合将三层的IT基础设施架构缩小变成了两层。

2019年11月的Gartner超融合产品魔力象限中,领导者象限有5家:Nutanix、DELL、VMware、CISCO、HPE。(其中DELL vxRail一体机里面用的分布式存储软件也是VMware的VSAN,而VMware提供的则是VSAN纯软件的解决方案)

Nutanix能够成为超融合领导者中的领导者,自然是经过市场的充分验证,得到市场的认可。而且由于其公开资料(Nutanix 圣经)比较齐备,因此我们可以通过Nutanix一窥超融合的究竟。

这边就不搬运了,可以直接搜索引擎搜索“Nutanix圣经”或“Nutanix-Bible”,可以找到相应的官方文档。

引用自NUTANIX圣经 -“Nutanix解决方案是一个融合了存储和计算资源于一体的解决方案。该方案是一个软硬件一体化平台,在2U空间中提供2或4个节点。

每个节点运行着hypervisor(支持ESXi, KVM, Hyper-V)和Nutanix控制器虚机(CVM)。Nutanix CVM中运行着Nutanix核心软件,服务于所有虚机和虚机对应的I/O操作。

得益于Intel VT-d(VM直接通路)技术,对于运行着VMware vSphere的Nutanix单元,SCSI控制(管理SSD和HDD设备)被直接传递到CVM。”

个人总结: 从以上官方文档可知,2U的空间可以安装2~4个Nutanix节点(每个节点相当于1台物理服务器),所以设备装机密度非常高。每个节点都安装着虚拟化软件,并且在虚拟化层之上再运行着一台Nutanix的控制虚机(CVM),该虚机主要负责不同的Nutanix节点之间控制平面的通信。单个节点中配置有SSD硬盘与HDD硬盘,替代磁盘阵列作为存储使用,单个节点有独立的CPU与内存,作为计算节点使用。

1、基础架构

以3个Nutanix节点为例,每个节点安装有Hypervisor,在Hypervisor之上运行着客户虚拟机,并且每个节点有一台Nutanix控制器虚机Controller VM,配置有2块SSD与4块HDD,通过SCSI Controller作读写。

2、数据保护

Nuntanix与传统磁盘阵列通过Raid、LVM等方式作数据保护不同,而是与一般的分布式存储一样,通过为数据建立副本,拷贝到其他Nutanix节点存放,来对数据进行保护,Nutanix将副本的数量称作RF(一般RF为2~3)。

当客户虚机写入数据“见图上1a)流程”,数据先写入到本地Nutanix节点的SSD硬盘中划分出来的OpLog逻辑区域(相当于Cache的作用),然后执行“1b)”流程,本地节点的CVM将数据从本地的SSD的OpLog拷贝到其他节点的SSD的OpLog,拷贝份数视RF而定。当其他节点CVM确定数据写入完成,会执行“1c”流程,给出应答写入完成。通过数据副本实现对数据的保护。

数据从SSD中的OpLog写入到SSD以及HDD的Extent Store区域,是按照一定的规则异步进行的,具体详见下面的部分。

3、存储分层

Nutanix数据写入以本地落盘为主要写入原则(核心原则)。

当客户虚机写入数据是,优先考虑写入本地SSD(如果SSD已用容量未达到阀值),如果本地SSD满了,会将本地SSD的最冷的数据,迁移到集群中其他节点的SSD,腾出本地SSD的空间,写入数据。本地落盘的原则,是为了尽量提高虚机访问存储数据的速度,使本地虚机不需要跨节点访问存储数据。(这点应该是与VSAN与其他分布式文件系统最大原理性区别)

当整个集群的SSD已用容量达到阀值(一般是75%),才会将每个节点的SSD数据迁移到该节点的HDD硬盘中。

SSD迁移数据到HDD,并非将所有数据全部迁移到HDD,而是对数据进行访问度冷热的排序,并且将访问较少的冷数据优先迁移到HDD硬盘中。

如SSD容量达到95%的利用率,则迁移20%的冷数据到HDD;如SSD容量达到80%,则默认迁移15%的冷数据到HDD。

4、数据读取与迁移

Nutanix圣经引用-“ <u style="text-decoration: none; border-bottom: 1px dashed grey;">I/O和数据的本地化(data locality),是Nutanix超融合平台强劲性能的关键所在。所有的读、写I/O请求都藉由VM的所在节点的本地CVM所响应处理。所以基本上不会出现虚机在一个节点,而需要访问的存储数据在另外一个物理节点的情况,VM的数据都将由本地的CVM及其所管理的本地磁盘提供服务。</u>

<u style="text-decoration: none; border-bottom: 1px dashed grey;">当VM由一个节点迁移至另一个节点时(或者发生HA切换),此VM的数据又将由现在所在节点中的本地CVM提供服务。当读取旧的数据(存储在之前节点的CVM中)时,I/O请求将通过本地CVM转发至远端CVM。所有的写I/O都将在本地CVM中完成。DFS检测到I/O请求落在其他节点时,将在后台自动将数据移动到本地节点中,从而让所有的读I/O由本地提供服务。数据仅在被读取到才进行搬迁,进而避免过大的网络压力。</u>

个人总结: 即一般虚机读写数据都是读本地节点的硬盘,如果本地节点硬盘没有该数据,会从其他节点先拷贝过来本地节点硬盘,再为本地虚机提供访问,而不是虚机直接访问其他节点。即要贯彻本地落盘的核心思想。

5、Nutanix解决方案的优缺点

Nutanix方案优点:

1) 本地落盘策略,确保虚机访问存储速度:虚机写入的数据都在本物理节点的磁盘上,避免跨节点存储访问,确保访问速度,减轻网络压力。

2) 采用SSD磁盘作为数据缓存,大幅提升IO性能:

见上表数据,从随机的读写来看,SSD的IO及带宽性能比SATA的性能提升了约1000倍。而结合Nutanix的本地落盘策略,虚机数据写入,仅有本地的2块SSD硬盘作为数据缓存负责写入数据。

但由于单块SSD硬盘的IO比传统阵列的SATA高出1000倍,IO性能大幅提升。(相当于要超过2000块SATA硬盘做Raid,才能提供近似的IO性能)。

3)永远优先写入SSD,确保高IO性能

数据写入HDD不参与,即使本地SSD容量满了会将冷数据迁移到集群其他节点SSD,然后还是SSD进行读写,确保高IO。后续异步将SSD冷数据迁移到HDD。

4)数据冷热分层存储

冷数据存放在HDD,热数据保留在SSD,确保热点数据高IO读取。

5)设备密度高,节省机房机架空间

2U可以配置4个节点,包含了存储与计算,比以往机架式/刀片服务器与磁盘阵列的解决方案节省了大量的空间。

Nutanix方案缺点:

1)本地落盘及SSD缓存方案确保了高IO,但是硬盘的带宽得不到保证。

传统磁盘阵列,多块SATA/SAS硬盘加入Raid组,数据写入的时候,将文件拆分为多个block,分布到各个硬盘中,同个Raid组的硬盘同时参与该文件的block的读写。通过多块硬盘的并行读写,从而提升IO与带宽性能。

而Nutanix的解决方案中,单个文件的读写遵循本地落盘的策略,因此不再对文件拆分到多块硬盘进行并行读写,而只有本地节点的SSD硬盘会对该文件进行写入。

虽然SSD硬盘的IO与带宽都是SATA/SAS的数百上千倍,但是SSD对比SATA/SAS硬盘在带宽上面只有2~3倍的速率提升,而传统Raid的方式,多块硬盘并行读写,虽然IO比不上SSD,但是带宽则比单块/两块SSD带宽高出很多。

因此Nutanix的解决方案适合用于高IO需求的业务类型,但是因为它的读写原理,则决定了它不合适低IO、高带宽的业务类型。

三)行业竞争对手对比:

VMWARE EVO RAIL软件包:VMware没有涉足硬件产品,但EVO: RAIL 软件捆绑包可供合格的 EVO: RAIL 合作伙伴使用。合作伙伴转而将硬件与集成的 EVO: RAIL 软件一起出售,并向客户提供所有硬件和软件支持。

而EVO:RAIL的核心,其实就是VSphere虚拟化软件+VSAN软件的打包。

但VSAN与Nutanix最大的一个区别,就是不必须完全遵循Nutanix的本地落盘的策略。可以通过设置条带系数,将本地虚机的数据读写设置为横跨多个节点的硬盘,默认条带系数为1,最大可设置为12个,即一个虚机的数据写入,可以同时采用12个节点的SSD硬盘并行读写。

通过这种方式,VSAN可以一定程度的弥补了Nutanix方案不适用于带宽要求高,IO要求低的业务类型的缺点。

但是这种横跨物理节点的访问流量,在虚机数量众多的情况下,肯定会给网络带来压力,网络带宽可能会成为另一个瓶颈。

其次VSAN可以集成在Hypervisor层,而不需要像Nutanix在Hypervisor上面运行一个控制虚机CVM。

再次,Nutanix支持KVM、Hyper-V、ESXI等多种Hypervisor,而VSAN仅支持自家的ESXI。

其他待补充:由于暂时未对VSAN进行实际部署测试,仅停留在对其原理的研究,因此,关于VSAN的部分待后续平台上线测试完成后继续补充。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 大数据分析一般用什么工具分析

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情