为什么苹果华为腾讯,都要把数据中心建在贵州,有什么好处?

为什么苹果华为腾讯,都要把数据中心建在贵州,有什么好处?,第1张

最近两年大数据非常火爆,跟着大数据一起火爆的是贵州省,每年在贵阳举办的大数据峰会更是吸引来了全球各地商界大佬的参与。

而且目前很多知名企业已经在贵阳建设大数据中心或者计划在贵州建设大数据中心,比如在贵安新区中的电子产业信息园内,目前聚集了三大运营商后,戴尔、谷歌、阿里巴巴、腾讯、百度、京东、华为等近300数据项目。

目前贵州是首个国家级大数据综合试验区,贵州已有大数据企业超过9000家,产值超1100亿元,每年有上万名相关人才流入。

那贵州到底有什么魅力,为何能够吸引这么多知名企业来到贵州建设大数据中心,成为大数据中心的一个重要基地之一呢?这里面有主要有几个原因:

贵州的地理环境是非常适合建大数据中心的,这种优势主要体现在以下几个方面。

(1)气候优势。贵州位于北纬24度至29度之间,贵阳更是被称为避暑胜地,冬无严寒,夏无酷暑,夏季平均气温约25℃,冬季平均气温约9℃,温差是比较小的,这种气候非常有利于服务器的维护,减少服务器的能耗。

(2)贵州位于云贵高原地区,境内地貌主要以喀斯特地貌为主,很少有台风,地震,泥石流等地质灾害,这有利于大数据中心的稳定。

(3)贵州境内有众多溶洞,洞里面的恒温恒湿,这个非常适合建立大数据中心,所以目前有很多大数据中心都是直接建在贵州省内的溶洞里面。

大家都知道大数据中心是电老虎,大数据中心的运营成本主要包括机房电费、宽带成本、机房建设及摊销、人工成本及机房租金等,其中的机房电费成本约占据总成本的一半以上 。

之前美国有一个机构曾经做过一个调查,结果发现一个数据中心的用电功率超过了美国的一个中型城镇,比如谷歌位于全球的数据中心的用电功率达到3亿瓦特,这一数字超过了三万户美国家庭。

正因为如此,建立大数据中心最大的一个成本就是电力,而且必须需要该地区有丰富的电力资源。目前贵州的电力资源是比较丰富的,2018年各省发电量排名当中,贵州排在第15位,发电量不是很靠前,但这个发电量跟贵州的经济体量相比还是相对比较丰富的,所以贵州很多电量都是输送到省外。

除了电力资源丰富之外,贵州的电价还非常便宜,为了吸引各大数据中心到贵州投资,贵州各地方政府协调电网给出了一个比较优惠的电价政策,最低的价格达到每度035元,而据工信部统计,目前全国大数据中心平均用电价格为087元/千瓦时,而沿海地区用电价格高达15元/千瓦时,相当于目前贵州的电价只有其他地区的一半,甚至更低,这也是吸引各大巨头大数据中心落户的直接原因之一。

影响大数据中心布局的原因有很多,其中有一个重要的原因就是土地。因为大数据中心不像机房那么简单,随便1栋楼就可以解决问题,大数据中心需要非常大的面积。

比如腾讯贵安七星绿色数据中心位于贵州省贵安新区,总占地面积约为770亩,隧洞面积超过3万平方米。如果这个大数据中心建立在深圳,按照土地均价1万元/平米计算,那光土地成本就需要50亿左右。而贵州作为欠发达地区,目前经济并不是很发达,所以土地成本相对比较低,这770亩土地价格估计也就几个亿左右,这样就可以大大节省大数据中心的建设成本。

最近几年贵州的大数据业务之所以发展迅猛,这里面除了国家政策偏重之外,贵州各地方政府出台的优惠政策也是吸引各大企业落户的重要原因之一。

前几年贵州省就出台相关文件大力支持大数据中心产业的发展,这种政策支持主要体现在以下几个方面:

1、税收优惠。

比如投资1000万元及以上的大数据企业,从企业投产运营之日起3年内,企业所交纳的省级以下税收地方财政留存增量部分,由企业所在地市、县政府全额补给企业;

投产运营3年以上5年以内的,以减半方式给予支持。 而符合国家税收优惠政策规定的大数据企业,可享受第一年至第二年免征企业所得税、第三年至第五年按照25%的法定税率减半征收企业所得税的优惠。

2、补贴政策

为降低企业成本,贵州省还给大数据企业补贴宽带费用,大数据企业自用宽带租赁费由所在市、县政府给予50%的补贴,每户企业每年补贴不超过50万元,补贴期可为3年。

此外,从财政上,贵州省整合贵阳市、贵安新区设立大数据产业发展专项资金,从2014年起连续3年,每年安排不少于1亿元用于支持大数据产业发展。

3、人才政策

大数据本身就是一个高 科技 产业,本身就离不开人才,为了吸引更多的人才来贵州落户以及就业,贵州省推出了很多人才优惠政策。

一是实施“百千万人才引进”计划,鼓励大数据产业人才到贵州创业,认定为大数据企业高层次人才的可享受相关优惠政策,这种人才政策主要体现在以下三个方面。

二是给大数据企业的员工在税收和购房方面发“红包”。对大数据企业员工,在贵州工作时间超过1年、年缴纳个人所得税在3万元及以上的,按其个人所得税地方留存部分,第1至5年给予90%的奖励,第6至10年给予60%的奖励。大数据企业高管人员和核心技术人才,在贵阳市和贵安新区购买住房并签订5年以上本地服务协议的,经认定后由所在地政府每人给予10万元一次性购房补贴。

三是大数据企业高管人员和核心技术人才,在户籍和就医等方面享受优惠和便利,子女在义务教育阶段入学可在省内居住地辖区学校就读。

总之,贵州省大数据之所以能够迅猛发展,吸引那么多世界顶尖企业来落户投资,可以说贵州省综合了天时,地利,人和各方面的优势,所以目前贵州省大数据产业发展越来越好。

贵州被称为中国的大数据“硅谷”,三大运营商、华为、腾讯、苹果纷纷在贵州建立数据中心。为什么这些 科技 巨头纷纷在贵州建立数据中心呢?下文具体说一说。

数据中心最大的特点就是“高能耗” ,电力成本是整个支出成本的50%~70%,其中一半来自于服务器等设备的供电,另一半来自于机器设备散热的“空调费”。

从气温和能源来说,贵州是公认的中国南方最适合建立数据中心的地方。贵州常年气温保持在14℃到16℃,即便最炎热7月份,平均气温也只有237℃,是服务器等设备运行最合适的温度。

根据华为的说法“大数据基地建在北京需要1块钱1度电,贵阳只需要4毛。 我们不需要什么优惠政策,放在贵州,建成运行后一年可以节约上亿的电费 ”。

2013年是中国“大数据元年”,大数据的到来,贵州和北上广的等一线发达地区站在同一起跑线上。贵州专门颁布了一系列政策,用于支持贵州大数据的发展。2014年开始,贵州鼓励奖政府部分的数据迁移到云端,即“云上贵州”,除了特殊需求,不再自建机房,这个在全国范围内都是超前的。

贵州通过政策上的引导,明确了两大基础工程: 一个是数据中心,一个是呼叫中心 。数据中心方面,三大运营商、华为、阿里巴巴、腾讯、苹果等纷纷将南方的数据中心建立在贵州;呼叫方面,华为、蚂蚁金服等都将客服中心放在了贵州,贵阳的呼叫中心坐席达到了30多万席。

总之,贵州发展大数据产业占据了天时地利人和的优势,贵州独特的自然环境和精准有利的政策支持是贵州大数据产业发展的两大法宝。

可是你不知道的是:三大运营商,苹果,华为,腾讯等等都选择将大数据中心落户在贵州!到底贵州有什么魔力呢?毕竟贵州并不是像北上广一样发达。有什么理由留住这些大企业吗?

2013年3月,贵州面向全国优质民营企业进行招商推介时,特意邀请马云。马云这样说:错过三十年前的广东和浙江!也一定不能错过在贵州的发展机遇。

也就是在这一年,三大运营商将大数据中心落户在了贵州;不仅仅是它们,阿里,华为,惠普,IBM,百度,腾讯,戴尔等等都将大数据中心和贵州相连!

这一切的根源在于:贵州对于发展大数据的决心!贵州从最开始就既定了将贵州打造成大数据中心,所以支持力度大,定位精准!

从将贵州打造成全国首个大数据综合试验区,贵州应该是最早一批积极落实《促进大数据发展行动纲要》的地区, 这是贵州能够先人一步的根源!

从2013年三大运营商落户贵州贵安新区,总投资150亿元,规划建设机柜超10万个、服务器超200万台!它们打了头阵,更有利于促成品牌效应,行业巨头纷纷入驻 ,实际上也是吸引华为,腾讯,苹果纷至沓来的原因之一!

你可能不会忽略掉:节约成本!对于任何一个企业来说,成本控制是最基础的!而大数据一个重要的特点就是高耗能!而贵州的水资源丰富,可以说是国内电费最低的省份之一。

可以说对于大数据中心来说,能够节约大约50%-70%的电量!这对于企业来说,这是非常有吸引力的一环。

而且,贵州地处北纬24到29度之间,平均气温在14-16度,冬暖夏凉,地质结构稳定,灾害风险低,森林覆盖率49%,可以说这对于大数据中心所需要的稳定,安全,而且气温适合,对于散热要求大的数据中心很适合!

在贵州大数据产业园,联通负责人这样说:这里有绿色节能、柔性可变、灵活定制、网络通达、安全可靠、专业运营六大特点,这是促使他们选择的原因。

确实,贵州本身的优势不仅仅贵州本身的支持;环境特色,电力成本以及开放的数据资源等等优势,让贵州成了这些企业选择的“钻石矿”!

华为、腾讯等企业把数据中心建在贵州,主要是因为贵州全年平均气温较低,而且电力稳定,空气清洁,更关键的是数据中心安全等级可以建设的更高,而且贵州政府规划和招商引资政策较好。下面来分析一下。

气温较低,对于数据中心的散热非常有好处。贵州即使是夏天,平均温度大概也就在20多度,如果是山区,可能温度会更低,更凉爽一些。气温较低,对于大型数据中心的散热是非常有好处的,大家都知道数据中心的发热量是惊人的,气温较低可以节约大量的空调用电。这样也能节约设备成本,提升数据中心运行稳定性,降低数据中心运行费用。

数据中心是耗电大户,电力供应的稳定性可以说至关重要。贵州电厂众多,本地大型电厂非常多,因此电力供应情况非常充足,原来就是西电东输的起点,可以说电力非常稳定和充足。贵州本地电厂和电网的供电能力充足和稳定,这保证了数据中心的高等级的供电要求。毕竟周边就有稳定的发电厂,这对于数据中心来说更为重要。

数据中心对于空气的清洁度要求也非常高。而贵州空气质量可以说非常好,这对于数据中心的良好运行至关重要,空气不用特别精细的处理就可以很好地满足要求,这又减低了数据中心的运行成本。

贵州数据中心安全等级特别高,甚至可以抵御核弹攻击。数据中心在未来是一个国家的机密,可以说安全是需要考虑非常周全的。一般在贵州建立数据中心,都是在山脚下挖出山洞,作为数据中心,这样把一座大山挖空,可以说安全等级特别高,甚至可以轻松抵御核弹的攻击。这样的安全等级,可以说把数据安全放在了非常高的等级上。这样的数据中心无疑更能够吸引人把数据放在里面。

贵州省这几年充分考虑了自己的资源优势,规划和主导了贵州大数据中心的定位。依托着贵州大数据中心的定位,不断推出招商引资政策和人才引进政策,包括税收方面的优惠,包括土地方面的优惠,包括供电优惠政策等等。这些政策对于企业落户贵州也是起到了非常关键的作用。

综上所述,华为、腾讯等企业把数据中心建在贵州,主要是因为贵州平均气温较低,而且电力供应稳定,空气清洁,更关键的是数据中心安全等级可以建设的更高,而且贵州招商引资政策也是非常好。

感谢阅读!

为了电!首先是省电,你知道北京一个腾讯的数据中心一年的电费是多少吗?十个亿。再有这么大的耗电量,你就是给的起电费电网也不一定能给你做输配电啊。这个不是你想要就有的,像北京的电都是外省输送过来的,你一拍脑袋想砸钱建一个数据中心,国家电网没规划你这块儿,这么大的耗电量,它从哪儿给你送电来啊?贵州这里好处就出来了,有全国最充沛的水利资源,把机房建在河边的山里头,电力,空调的冷却这些问题都解决了。这也是为什么很多比特币的挖矿机矿场都在云贵那边的原因了。建好了水电站电就和白来的差不多了。水利发电站就在边上也没有电网的输配送问题了,至于数据传输反正是光纤,距离根本不是问题。

大家好!

为什么长期以来没有什么发展机遇的贵州,能够成为中国大数据中心。

世界各大巨头公司纷纷把自己的数据中心建立在贵州这块自古以来就荒凉落后的西部山区中。

作为在贵州呆了很长时间的人,我认为有以下几个核心点符合建造大数据中心:

大数据中心里的设备都是极其昂贵的设备,那可是公司的真金白银。更何况比设备更贵重的核心数据、科研成果,更是无价之宝。作为一个公司战略级资产,最核心的考虑点应该是天灾原因。天灾面前人人平等,天灾面前,一切白费。而贵州省在下面几个可以说在世界上都是得天独厚的:

1地震:地震应该是对数据中心,危害最大的自然灾害。但,有史料记载以来,贵州好像没有发生过地震活动。不像现在四川和云南地震频发。

2水灾:贵州林密,沟深,只要选址得当,完全不用担心像长沙那样被水漫金山。

1贵州地处中国内陆,东挨湖南,北接重庆四川,西连云南,南抵广西。属于中国的内陆地区。

2贵州自古以来就是一个被群山环抱,交通闭塞,很少有战乱,非常稳定、孤僻、独立的地方。如,席卷世界的第二次世界大战,贵州就几乎没有受到炮弹的打击。解放战争更是一个地区,一个团就解放了。

“天无三日晴,地无三分平”,一直是贵州写照,地处亚热带,但有处于云贵高原中心地带,而且高原也不太高,平均海拔1000多米。气温常年维持在10℃~30℃之间。对高耗电的大数据中心来说,无形中降低了大量的电费成本。

大自然的空调房,溶洞

贵州是一个资源缺乏的省,煤炭,钢铁,石油等都几乎没有,但唯独水资源丰富。乌江,清水江,赤水河,盘江等等。有高原带来的巨大落差,非常便于水电站的建立。在70十年代,很多农村都是通过自建水电站,发电自给自足。

这是贵州摆脱落后的机会,腾飞的起点。由衷为故乡高兴。

把最赚钱又环保的项目落在扶贫重点地区符合国家策略,很早前就在贵州黔南建设“大碟子”,据说光选址就选了12年,最后才选到这国宝级的“科斯特地形”开始建设,总耗时23年。有这么好的天文设备在这里,当然高 科技 的项目更有理由落在这里啦,天气也是关键,这里全年平均气温23度,夏天不热冬天不冷,当然大多数原因还是国家想要扶持贵州啦,全国各省各县都修高速公路,最费钱耗时难修的就是贵州省了,投资那么多,总要有项目回报吧!以上纯属个人观点哦!

有一个很有意思的消息,微软2018年6月搞了一个名为 Natick的实验性项目。这个项目非常有意思,微软在苏格兰奥克尼群岛海岸线附近的水域中,部署了一个水下数据中心,在一艘长 40 英寸的船内部署了12个机架和864 台服务器。

另外一个很有意思的消息是,VerneGlobal公司和Advania公司在冰岛建立了自己的数据中心,冰岛正在成为越来越多的数据中心首选,冰岛正在打造零碳的绿色数据中心产业

不知道有没有人路过华为的数据中心,在华为的一些数据中心,冬天路过的时候,数据中心上云蒸霞蔚,蔚为壮观。所以,对于数据中心而言,选址首先要考虑的就是散热。数据中心所处的位置,如果气候常年凉爽,对于数据中心而言,可以显著降低整体能耗,节约大量散热所需的能源费用。

如果有朋友去过运营商的机房也可以看到,运营商的机房一般都是没有窗户的,这是为了避免夏天太阳直射产生的热量,所以散热是数据中心的基本需求。微软之所以做实验把数据中心建在水下,也是看重了水下良好的散热条件

数据中心的能耗需求也是刚需,因为数据中心的服务器需要24小时不间断运转。冰岛为何成为全球数据中心建设的热门地点,是因为冰岛的天气凉爽,而且冰岛的地热非常丰富,冰岛的地热发电满足了全冰岛的用电需求并且还有所富余。所以能耗一向是数据中心的刚性需求。以前传说四川大渡河畔是比特币的矿机的挖矿圣地,也是看重了四川富余的水电资源

我们再看看贵州,当地常年气温凉爽,在夏天几乎不用空调,可利用自然条件冷却服务器;而且贵州水电装机量排在全国第四,有充足且便宜的电力资源提供,这些都为贵州作为数据中心建设的最佳地点提供了绝佳的支持

华为在贵州的数据中心,甚至挖空了一座小山,在山腹里建设数据中心,将会更加凉爽,很有可能采用自然散热方式,就可以满足数据中心服务器的散热诉求。所以贵州建设数据中心,是得天独厚的

数据中心选址有几个条件,一是安全,二是成本低,这两点贵州都具备。

所谓企业数据中心,就是一个公司核心数据的存储中心,相当于人的大脑,对安全性要求比较高,一般都是采用容灾备份的方式设置,分散在不同的地区,贵州只是其中一个,别的地方应该也还有。

数据中心的安全性威胁主要来自:自然因素,人为因素、意外因素。和其他地区比较,贵州自然安全因素比较好,台风、地震、雨雪等自然灾害非常少;贵州相对地处偏僻,不繁华,人为因素的概率也比较低;贵州地处云贵高原,周边环境比较稳定,火灾等意外因素也相对少一些。除此之外,网络攻击等其它安全因素在哪里都差不多。

在安全的前提下,能省就省。数据中心属于不太需要人力维护,但是需要精心呵护的地方,除了上面说的安全因素外,对环境、电力、温度、消防要求比较高。

因为工作的原因,我曾经到过很多运营商的机房,里面可以说是戒备森严,因为里面有大量的用户数据,必须保证绝对安全,不能影响用户正常通信。

据了解,这种机房对环境要求非常高,必须做防尘处理,贵州的污染少,防尘成本就会降低;机房还要求24小时供电,双路供电的同时,还要配备柴油发电机组,配备逆变器,而且耗电非常高,还要通过空调调节机房温度接近恒温,因为只有在恒定的温度下机器运行效率才高,寿命也长,贵州电力相对充沛,电费不高,能节省成本。

除此之外,空调也是用电大头,为了节能,在温度适宜的时候,他们都采用新风制冷,就是用自然风冷却机器散热,贵州的半高原环境常年温度偏低,非常适合采用自然条件降温,这对降低空调电费来说是最好的。

正是由于上述原因,很多互联网公司愿意把数据中心建在贵州,贵州也为他们创造了很好的运营条件,包括机房选址,环境开发,人才政策等等,这就形成了一种产业,数据中心和呼叫中心基地。

苹果华为腾讯都要把数据中心建在贵州,有三方面原因,简单点说就是成本低、安全性高、符合大趋势。

接下来我们具体分析这三大原因。

成本有多方面,既然是大数据中心,那么首先要有比较大的空间,需要摆放很多台服务器,需要耗费大量电力,需要保持较低的温度。

贵州地处西部,土地成本低,平均温度也低,还有很多溶洞可以直接利用。此外贵州有煤矿 ,电力充足 ,电力成本较低。

凉爽的温度,一年四季温差小,这种自然气温环境得天独厚,耗电量也非常均衡。

电费占了数据中心近半的成本,相对于其他地区平均08元以上的用电成本,贵州用电成本低至035元,这是非常大的优势。

西部远离沿海,身处内陆,更加安全,即使发生战争也不容易受到影响。

贵州地质条件独特,没有地震、泥石流等危害。

“一带一路”为贵州带来了大机遇,仅贵阳市就有大数据企业1600多家,主营业务收入在2018年达到了1000亿元。

为了吸引投资,贵州对企业的优惠措施也非常到位,企业融资、税收、人才等方面都有政策扶持。

以税收优惠为例,符合国家税收优惠政策规定的大数据企业可享受第一年至第二年免征企业所得税、第三年至第五年按照25%的法定税率减半征收企业所得税的优惠。

以贵安新区为例,企业建设大数据中心可以获得最高1000万元软硬件资源支持,除了阶梯电价优惠外,对于各类人才也有3年内每年最高2万元的租房支持。正因为符合了国家规划,地方重视,企业配合,贵州大数据行业吸引了每年上万人才流入,部分人才还能享受高达10万元的购房补贴。

如今贵州大数据产业规模已经形成,优势会日益明显,成为贵州经济新的经济增长点。

分布式是一门计算机科学,而分布式服务器就是将数据、程序等不同类型的数据分布在不同的服务器。

一般情况下,使用分布式架构搭建一个网站至少需要一台服务器存放数据库,一台服务器存放网站程序。

景安河南最大的多线服务器托管商!提供专业的双机热备、负载均衡等增值服务

看具体什么假设了,放在一个机房做集群,内网吞吐量也大,服务器之间数据传输延迟小,提高这一个点的计算能力,自动化管理也方便。

如果是分布放在不同的机房,就类似CDN,不同节点的服务器服务不同区域的客户,这样使访问速度更快,但不同节点之间的数据同步和管理相对要求高一些。

一、集群的基本概念 有一种常见的方法可以大幅提高服务器的安全性,这就是集群。 Cluster集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。 大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可被所有的网络客户所使用。Cluster必须可以协调管理各分离的组件的错误和失败,并可透明地向Cluster中加入组件。 一个Cluster包含多台(至少二台)拥有共享数据存储空间的服务器。任何一台服务器运行一个应用时,应用数据被存储在共享的数据空间内。每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。 Cluster内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管。当以上任一故障发生时,客户将能很快连接到新的应用服务上。 二、集群的硬件配置 镜像服务器双机 集群中镜像服务器双机系统是硬件配置最简单和价格最低廉的解决方案,通常镜像服务的硬件配置需要两台服务器,在每台服务器有独立操作系统硬盘和数据存贮硬盘,每台服务器有与客户端相连的网卡,另有一对镜像卡或完成镜像功能的网卡。 镜像服务器具有配置简单,使用方便,价格低廉诸多优点,但由于镜像服务器需要采用网络方式镜像数据,通过镜像软件实现数据的同步,因此需要占用网络服务器的CPU及内存资源,镜像服务器的性能比单一服务器的性能要低一些。 有一些镜像服务器集群系统采用内存镜像的技术,这个技术的优点是所有的应用程序和网络操作系统在两台服务器上镜像同步,当主机出现故障时,备份机可以在几乎没有感觉的情况下接管所有应用程序。因为两个服务器的内存完全一致,但当系统应用程序带有缺陷从而导致系统宕机时,两台服务器会同步宕机。这也是内存镜像卡或网卡实现数据同步,在大数据量读写过程中两台服务器在某些状态下会产生数据不同步,因此镜像服务器适合那些预算较少、对集群系统要求不高的用户。 硬件配置范例: 网络服务器 两台 服务器操作系统硬盘 两块 服务器数据存贮硬盘 视用户需要确定 服务器镜像卡(部分软件可使用标准网卡) 两块 网络服务网卡 两块三、双机与磁盘阵列柜 与镜像服务器双机系统相比,双机与磁盘阵列柜互联结构多出了第三方生产的磁盘阵列柜,目前,豪威公司、精业公司等许多公司都生产有磁盘阵列柜,在磁盘阵列柜中安装有磁盘阵列控制卡,阵列柜可以直接将柜中的硬盘配置成为逻辑盘阵。磁盘阵列柜通过SCSI电缆与服务器上普通SCSI卡相连,系统管理员需直接在磁盘柜上配置磁盘阵列。 双机与磁盘阵列柜互联结构不采用内存镜像技术,因此需要有一定的切换时间(通常为60?D?D180秒),它可以有郊的避免由于应用程序自身的缺陷导致系统全部宕机,同时由于所有的数据全部存贮在中置的磁盘阵列柜中,当工作机出现故障时,备份机接替工作机,从磁盘阵列中读取数据,所以不会产生数据不同步的问题,由于这种方案不需要网络镜像同步,因此这种集群方案服务器的性能要比镜像服务器结构高出很多。 双机与磁盘阵列柜互联结构的缺点是在系统当中存在单点错的缺陷,所谓单点错是指当系统中某个部件或某个应用程序出现故障时,导致所有系统全部宕机。在这个系统中磁盘阵列柜是会导致单点错,当磁盘阵列柜出现逻辑或物理故障时,所有存贮的数据会全部丢失,因此,在选配这种方案时,需要选用一个品质与售后服务较好的产品。 硬件配置范例: 网络服务器 两台 服务器操作系统硬盘 两块 第三方生产的磁盘阵列柜 一台 磁盘柜专用SCSI电线 两根 磁盘阵列柜数据存贮硬盘 视用户需求确定 网络服务网卡 两块 除此之外,一些厂商还有更优秀的技术的解决方案,比如 HP 四、HP双机双控容错系统 HP NetServer为双机双控容错系统提供了高品质和高可靠的硬件基础…… HP双机双控容错系统结合了HP服务器产品的安全可靠性与Cluster技术的优点,相互配合二者的优势。

面试题-关于大数据量的分布式处理

题目:生产系统每天会产生一个日志文件F,数据量在5000W行的级别。文件F保存了两列数据,一列是来源渠道,一列是来源渠道上的用户标识。文件F用来记录当日各渠道上的所有访问用户,每访问一次,记录一条。

请问如何快速计算出各渠道上新增的用户?

问题分析:首先本次面试的是有关于分布式数据处理以及数据分析的职位,所以相关的面试题目可能会偏向于使用分布式的思想去解决。但无奈本人当时反应太慢,实在没向分布式处理方向思考。

方案一:

本题最直观的一个处理方法就是,直接拿着当日新增的5000W条访问记录一条一条的去匹配历史访问用户。若存在历史访问记录,则忽略;若不存在访问记录,则保存为新增记录。很明显,假若历史访问用户有2亿条记录,则需要和2亿条数据比较5000W次。比较次数可想而知。

由于本人一直在做基于数据库的数据处理工作,很容易就想到将历史数据保存在数据库的一张表中,并对来源渠道和用户标识这两个字段建立索引,然后遍历日志文件F(5000W次)。根据日志文件F中的每一行去匹配数据库中的历史访问记录。由于历史数据表有索引,单次查询的速度也非常快。但是需要5000W次的数据库查询,很明显效率低下。

方案二:

既然多次单一查询无法满足要求,于是可以先通过一种数据导入技术将当日新增数据导入到数据库的另一张表中,并和历史数据做左外关联。若能关联成功,则表示此用户已存在;若关联失败,则表示此用户不存在。

此方案暂且不说5000W条记录的大表与2亿条记录的大表关联效率有多高以及使用到的数据库缓冲区的资源有多少,单就5000W条访问记录导入数据库表,都是一个不小的时间花费。

方案三:

很明显,面试时方案二的回答并未达到面试官的预期,最初被遗憾的PASS掉。一家很有潜力,自己很看好的公司,并计划做为自己未来发展方向的职位,就这样丢下我,扬长而去了。

这几天又看了下分布式相关的介绍,突然想到这道题。一下子醒悟过来,其实还是因为对题目要考察的点分析得不够透彻。当时以为只是仅仅考数据处理效率的一个题目,其实考的是一种将复杂问题拆分为简单问题的拆分思想。了解到这一层,一种新的方式立马在脑海中浮现出来。具体如下:

假如现在有N(N>=2)个存储块,并存在一个函数f(来源渠道,用户标识),对于给定的一组(来源渠道,用户标识),总能将其分发到一个固定的存储块内。那么可以使用此函数将5000W行访问记录尽量均匀的分发至N个存储块上,并同时使用此函数将历史访问记录也分发至这些存储块上。由于相同的一组记录,肯定会被分配至同一个存储块,所以比较时,只需要分别比较各个存储块上当日新增记录与历史访问用户,然后将N个存储块上比较的结果汇总,即可得到最终结果。

假设历史访问用户数据已通过函数f(来源渠道,用户标识)被分发至了N个历史文件H1、H2、…、HN。则详细处理步骤如下:

1、将F中的内容使用函数f(来源渠道,用户标识),分发至文件F1、F2、…、FN内。(可开M(M>=2)个并行,且若N-M越大,同时向同一文件写入数据的概率越小)

2、将文件F1、F2、…、FN内的访问记录去重。(可开N个并行分别处理对应的N个文件)。

3、将文件Fn(1=<n<=N)去重后的结果与对应的历史文件Hn比较得出新增用户结果Rn。(可开N个并行分别处理对应的N个文件且当N足够大时,实际要处理数据的量级就会相当小)。

4、合并第3步得到的结果R1、R2、…、RN即可得到当日新增用户。(可并行)

5、为使历史数据文件H1、H2、…、HN中的数据最全,将结果R1、R2、…、RN分别写入对应的历史文件中。(可并行)

本方案主要有以下优点:

1、数据的分发、处理、合并都可并行处理,明显提高了处理效率。

2、由于每个存储块上的新增数据,只需要与它对应存储块上的历史数据比较即可,大大减少了比较次数。(对于当日每一条记录来说,都只需要与大约历史的N分之一条数据去比较)

3、基本不需要考虑历史全量数据的保存及获取问题。

本方案缺点:

1、处理方案明显变的复杂许多,不仅需要处理数据的分发,处理,还需要一个并行的快速收集方法。

2、可能需要多台服务器并行处理。

本方案难点:

1、一个稳定(对于相同的一组来源渠道和用户标识,必定会被分发至同一存储块)、快速(根据一条来源渠道和用户标识数据,可以快速的计算出它将要被分发至的存储块)、均匀(当日新增数据及历史数据都能尽量均匀的被分发至N个存储块,最理想的情况是每个存储块上分发到的数据都是总数据的N分之一)的分发函数至关重要。

2、如何分发、并行处理及汇总数据。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 为什么苹果华为腾讯,都要把数据中心建在贵州,有什么好处?

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情