Spark SQL(十):Hive On Spark,第1张

Hive是目前大数据领域,事实上的SQL标准。其底层默认是基于MapReduce实现的,但是由于MapReduce速度实在比较慢,因此这几年,陆续出来了新的SQL查询引擎,包括Spark SQL,Hive On Tez,Hive On Spark等。

Spark SQL与Hive On Spark是不一样的。Spark SQL是Spark自己研发出来的针对各种数据源,包括Hive、JSON、Parquet、JDBC、RDD等都可以执行查询的,一套基于Spark计算引擎的查询引擎。因此它是Spark的一个项目,只不过提供了针对Hive执行查询的工功能而已,适合在一些使用Spark技术栈的大数据应用类系统中使用。

而Hive On Spark,是Hive的一个项目,它是将Spark作为底层的查询引擎(不通过MapReduce作为唯一的查询引擎)。Hive On Spark,只适用于Hive,在可预见的未来,很有可能Hive默认的底层引擎就从MapReduce切换为Spark了;适合于将原有的Hive数据仓库以及数据统计分析替换为Spark引擎,作为全公司通用的大数据统计分析引擎。

Hive On Spark做了一些优化:

1、Map Join

Spark SQL默认对join是支持使用broadcast机制将小表广播到各个节点上,以进行join的。但是问题是,这会给Driver和Worker带来很大的内存开销。因为广播的数据要一直保留在Driver内存中。所以目前采取的是,类似乎MapReduce的Distributed Cache机制,即提高HDFS replica factor的复制因子,以让数据在每个计算节点上都有一个备份,从而可以在本地进行数据读取。

2、Cache Table

对于某些需要对一张表执行多次操作的场景,Hive On Spark内部做了优化,即将要多次操作的表cache到内存中,以便于提升性能。但是这里要注意,并不是对所有的情况都会自动进行cache。所以说,Hive On Spark还有很多不完善的地方。

Hive QL语句 =>

语法分析 => AST =>

生成逻辑执行计划 => Operator Tree =>

优化逻辑执行计划 => Optimized Operator Tree =>

生成物理执行计划 => Task Tree =>

优化物理执行计划 => Optimized Task Tree =>

执行优化后的Optimized Task Tree

Hortonworks 在2014年左右发布了 Stinger Initiative,并进行社区分享,为的是让 Hive 支持更多 SQL,并实现更好的性能。

Tez 是 Apache 开源的支持 DAG(有向无环图) 作业的计算框架,是支持 Hadoop 2x 的重要引擎。它源于 MapReduce 框架,核心思想是将 Map 和 Reduce 两个操作进一步拆分,分解后的元操作可以任意灵活组合,产生新的操作,这些操作经过一些控制程序组装后,可形成一个大的 DAG 作业。

Tez 将 Map task 和 Reduce task 进一步拆分为如下图所示:

Tez 的 task 由 Input、processor、output 阶段组成,可以表达所有复杂的 map、reduce 操作,如下图:

Tez 可以将多个有依赖的作业转换为一个作业(只需写一次 HDFS,中间环节较少),从而大大提升 DAG 作业的性能。Tez 已被 Hortonworks 用于 Hive 引擎的优化,经测试一般小任务比 Hive MR 的 2-3 倍速度左右,大任务 7-10 倍左右,情况不同效果不同。

Tez + Hive 仍采用 MapReduce 计算框架,但对 DAG 的作业依赖关系进行了裁剪,并将多个小作业合并成一个大作业,不仅减少了计算量,而且写 HDFS 次数也大大减少。

保存后将文件复制到集群所有节点

显卡报错104是由于显卡温度过高导致的。

这时我们就需要想办法让显卡温度降下来,在这里我为大家推荐几种可以让显卡降温的方法。

1、更换散热风扇,这是最常见、最有效的方法,更换风扇,加大排热,自然就能降温。

2、买个散热架,现在人都喜欢买个散热架装在电脑上,注意平时不要一直开着,每次用完就要关掉。

3、清理灰尘,主要包括机箱灰尘和显卡灰尘,有灰尘就会导致显卡温度过高。

4、加装风扇,利用机箱结构,合理组成散热风道并且可专门对显卡进行吹。

5、整理机箱,有的机箱内部排线等很乱,会导致挡住出风口或散热风道。

6、加涂导热硅胶,当然首先是要对这些东西足够了解,这个方法不错哦。

7、适度玩大型3D游戏及观看高清**,给电脑减少荷载。

8、在天气闷热的季节,不要过久的使用电脑,要让它适度休息。

执行流程详细解析

Step 1:UI(user interface) 调用 executeQuery 接口,发送 HQL 查询语句给 Driver

Step 2:Driver 为查询语句创建会话句柄,并将查询语句发送给 Compiler, 等待其进行语句解析并生成执行计划

Step 3 and 4:Compiler 从 metastore 获取相关的元数据

Step 5:元数据用于对查询树中的表达式进行类型检查,以及基于查询谓词调整分区,生成计划

Step 6 (61,62,63):由 Compiler 生成的执行计划是阶段性的 DAG,每个阶段都可能会涉及到 Map/Reduce job、元数据的操作、HDFS 文件的操作,Execution Engine 将各个阶段的 DAG 提交给对应的组件执行。

Step 7, 8 and 9:在每个任务(mapper / reducer)中,查询结果会以临时文件的方式存储在 HDFS 中。保存查询结果的临时文件由 Execution Engine 直接从 HDFS 读取,作为从 Driver Fetch API 的返回内容。

hiveon矿池是以太的。

与其它区块链一样,以太坊需要几千人在自己的计算机上运行一个软件,为该网络提供动力。网络中的每个节点(计算机)运行一个叫作以太坊虚拟机(EVM)的软件。

将以太坊虚拟机想象成一个操作系统,它能理解并执行通过以太坊特定编程语言编写的软件。由以太坊虚拟机执行的软件/应用程序被称为“智能合约”。

要在这一世界计算机上做任何事都需付费。不过,付的不是美元或英镑等普通货币,而是该网络自带的加密货币,叫作以太币。以太币与比特币大致相同,除了一点,即以太币可以为在以太坊上执行智能合约而付费。

在以太坊上,无论是人还是智能合约都可作为用户。人类用户能做的事,智能合约也能做,而且还远不止如此。

打不开首先您需要检查网络,

第二app更新到最新版本,

第三手机关机重启再去登陆即可。目前没有服务器的隐患哦HIVEEONPOOL是一款功能强大的Linux挖矿系统,能够帮助用户更加方便快捷的进行各种挖矿,软件只需要很少的驱动即可完成配置,并且有强大的远程控制功能,满足用户的各种挖矿需求。软件支持远程矿机调试功能,让挖矿更加方便快捷。适用于所有系统的一种解决方案,一个简单的安装和设置工具。

矿机上有一个代理,每10秒向服务器发送一次统计信息。

它在系统启动后立即启动。因此,您的设备可能正在运行,但由于某种原因,代理无法访问服务器。或者常见的问题是死文件系统和代理无法保存临时文件来构建它的包。

1检查说明首先确保您的网络连接检查网卡上的LED是否闪烁

2检查您在此网络中的其他设备(如手机或笔记本电脑)上是否有互联网

3尝试使用浏览器从矿机中打开某个站点

4通过ping某个服务器来检查您的连接pinggooglecom,

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » Spark SQL(十):Hive On Spark

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情