一个PV为200万每日的网站,IP为100万日,IIS并发在20万次的网站,需要多大的服务器,机房来支撑?
你好我来解答下你的问题
无论你是什么类型的网站有这么大的访问量已经不是靠单台服务器可以支撑的了一般情况下一个至强处理器理论最大连接数是一万多个即使是高配置的服务器最多允许连接数也只有几万远不能满足你网站的需求建议你租用一个机柜在上面放多台的机器然后做一个服务器集群这么大规模的网站相信会有很多的分页可以把各个二级页面分布在多台不同的机器上面来存放因为多台机器是同一个机房属于局域网络他们之间相互传输数据的速度还是比较理想的当用户从主站服务器上访问二级页面时实际相当于从旁边的机器上调用数据从而节省了主站服务器的承载量
一般情况下机柜默认配置是100M的带宽若你不是下载**类的网站这个带宽是够用的根据你所选择机房的不同一个机柜的价格从几万到一二十万每年不等
海腾数据杨闯为你解答以上数据仅供参考若有需要帮忙的看我头像来找我我可以给你一些建议
网站的统计数据来源于服务器的log日志?
这个问题,牵扯太多,我整理下思路说下吧。(关于技术的发展史,是需要很长的一个篇幅了,由于我现在没有整理好所以呢先发下面的)
0简要回答
首先,网站的统计数据一部分是来源于 静态服务器的log做日志分析的,但它是原始方法,为什么说是原始方法呢,因为日志分析局限性很多,而且由于互联网信息化的高速发展,多样化的需求统计的出现,导致日志做分析很难去实现特定的统计,再加上大数据的推波助澜,让我们可以相对容易的处理海量数据;
网站统计架构的发展简单史;
从而发展到现在,一般前端(PC、手机、小程序等)统计使用埋点去统计数据,后端使用 主流的大数据集群架构 来实现 数据的统计、处理、筛选、归类等,再加上web框架的展示层做大数据可视化屏幕、前端展现, 中间加上 各种中间件做润滑;(介绍大数据架构也是需要单独的篇幅来说明的,结构如下,这个架构称之为lambda+架构 经典架构)
2、网站统计的经典架构
目前也有一些新型架构的出现了 Kappa之类;本片不做延展了
好了言归正传,现在技术是进步很快的,让我们拆开来一步一步看下 ,就可以很清晰的展示;
3、流程概览
先通过一幅图总体了解下数据收集的基本流程:
首先,用户的行为会触发浏览器对被统计页面的一个http请求,这里姑且先认为行为就是打开网页。当网页被打开,页面中的埋点javascript片段会被执行,用过相关工具的朋友应该知道,一般网站统计工具都会要求用户在网页中加入一小段javascript代码,这个代码片段一般会动态创建一个script标签,并将src指向一个单独的js文件,此时这个单独的js文件(图1中绿色节点)会被浏览器请求到并执行,这个js往往就是真正的数据收集脚本。数据收集完成后,js会请求一个后端的数据收集脚本(图1中的backend),这个脚本一般是一个伪装成的动态脚本程序,可能由php、python或其它服务端语言编写,js会将收集到的数据通过http参数的方式传递给后端脚本,后端脚本解析参数并按固定格式记录到访问日志,同时可能会在http响应中给客户端种植一些用于追踪的cookie。
上面是一个数据收集的大概流程,下面以谷歌/百度分析为例,对每一个阶段进行一个相对详细的分析
4、埋点执行
若要使用谷歌/百度分析(以下简称GA),需要在页面中插入一段它提供的javascript片段,这个片段往往被称为埋点代码。下面是我的网站中所放置的谷歌/百度分析埋点代码截图
5、数据收集脚本执行
数据收集脚本(gajs)被请求后会被执行,这个脚本一般要做如下几件事:
1、通过浏览器内置javascript对象收集信息,如页面title(通过documenttitle)、referrer(上一跳url,通过documentreferrer)、用户显示器分辨率(通过windowsscreen)、cookie信息(通过documentcookie)等等一些信息。
2、解析_gaq收集配置信息。这里面可能会包括用户自定义的事件跟踪、业务数据(如电子商务网站的商品编号等)等。
3、将上面两步收集的数据按预定义格式解析并拼接。
4、请求一个后端脚本,将信息放在http request参数中携带给后端脚本。
6、后端执行数据收集、清洗、筛选、处理等 生成需求数据(也就是我们要看的数据);
下面有个表 就是 一般收集时候的基本数据;
名称 途径 备注
访问时间 web server Nginx $msec
IP web server Nginx $remote_addr
域名 javascript documentdomain
URL javascript documentURL
页面标题 javascript documenttitle
分辨率 javascript windowscreenheight & width
颜色深度 javascript windowscreencolorDepth
Referrer javascript documentreferrer
浏览客户端 web server Nginx $http_user_agent
客户端语言 javascript navigatorlanguage
访客标识 cookie
网站标识 javascript 自定义对象
业务特征值 我们自有业务的特殊需求
后端的处理流程,由最开始的 大数据统计架构 已经展示了。
好了 整体 介绍了个大概, 具体的话 就是需要详细阐述 大数据统计架构的介绍了
我整理完会发布关于 大数据统计架构
但是现在 应该很少人需要自己去处理 这么庞大而复杂的架构了,一般选择都使用 现有的
百度统计、友盟统计、诸葛io、神策、极光、Growingio 等。
10万PV的话好说,5M带宽足够了,但是商城网站怕是不行,保险起见建议10M以上,而且4核CPU8G以上内存,这样才保险一些。腾讯云阿里云百度云都可以。
我们的这个客户 每天5万PV
配置如下:4核4G内存50G硬盘5M带宽,腾讯云的4300每年,我们对系统做过优化,丝毫无压力。
网站统计中的PV(访问量):UV(独立访客):IP(独立IP)的定义与区别
今天使用了雅虎统计,看到里面就有这个,就说说,其实里面的uv大家可能觉得很新奇,但是和站长统计里的独立访客是一样的嘛。
--------首先来看看ip、uv和pv的定义----------
PV(访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次。
UV(独立访客):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。
IP(独立IP):即Internet Protocol,指独立IP数。00:00-24:00内相同IP地址之被计算一次。
----------下面来说ip,pv,uv的区别----------------------
独立IP表示,拥有特定唯一IP地址的计算机访问您的网站的次数,因为这种统计方式比较容易实现,具有较高的真实性,所以成为大多数机构衡量网站流量的重要指标。比如你是ADSL拨号上网的,你拨一次号都自动分配一个ip,这样你进入了本站,那就算一个ip,当你断线了而没清理cookies,之后又拨 了一次号,又自动分配到一个ip,你再进来了本站,那么又统计到一个ip,但是UV(独立访客)没有变,因为2次都是你进入了本站。
来说明一下PV高不一定代表来访者多;PV与来访者的数量成正比,但是PV并不直接决定页面的真实来访者数量。比如一个网站就你一个人进来,通过不断的刷新页面,也可以制造出非常高的PV。
ip在这里是指公用的广域网传输协议族(Tcp/Ip)为每一台处在因特网上的计算机(可以是个人电脑、服务器以 及其他兼容广域网传输协议族规定的 接入设备)都定义了四个段落(例如:1921680255形式,有时会加入第五段落端口号作为描述信息,端口号是介于1-65535之间的数字)共 32位长度二进制代码的标识,叫IP协议地址,简称ip地址,俗称ip,它是一个一台连接着广域网的计算机区别于其他机器的标识,一般情况下,它在同一级别的网络(例如某个局域网、社区网、教学楼网或者INTERNET)范围内是唯一的。
独立访客是指不同的、通过互联网访问、浏览一个网页的自然人。
比 如,在一台电脑上,哥哥打开了微软的官方主页,注册了一个会员。弟弟一会儿也看了看,注册了另一个会员。由于兄弟两个使用的是相同的计算机,那么他们的 ip是一样的,微软的官方计数器记录到一个ip登陆的信息。但是,具有统计功能的统计系统,可以根据其他条件判断出实际使用的用户数量,返回给网站建设者真实、可信和准确的信息。比如通过注册的用户,甚至可以区分出网吧、机房等共享一个ip地址的不同计算机。上面的例子就说明虽然是同一ip,但是有2个独 立访客。再举个例子吧,比如一个网吧里,有100个人都进入了我的网站,但是一个网吧对外都是一个IP的,所以统计系统只统计到一个IP;但是因为网吧里 有100人在访问我的站,尽管他们都仅仅打开我的网站的首页,或者这100人都把我网站所有页面都看过了一遍,统计系统都只统计到100个独立访客。
使用独立用户作为统计量有什么好处?它比ip更加准确吗?
ip是一个反映网络虚拟地址对象的概念,独立用户是一个反映实际使用者的概念,每个独立用户相对于每个ip,更加准确地对应一个实际的浏览者。使用独立用户作为统计量,可以更加准确的了解单位时间内实际上有多少个访问者来到了相应的页面。
使用e5450,一块支持双CPU的主板,加16GECC内存,则可完全满足只有PV200万的访问了,如访问量增加的话则还可以加多个CPU。同时组建raid10的话可以用到企业SATA盘,(4块硬盘)读取性能是4块硬盘的完全并行读取速度,单块测试速度约为95mb/s,4块的并行速度则达到了380mb/s 。 而单块的15k的SAS盘其读取速度为150MB/S,因此200万访问量在用RAID10的sata盘来应付就是小菜一碟了!
估计可以负载日ip100万没有问题。dell的这个配置性价比不高哦。。挺敲竹杠的。你可以看看国产品牌正睿的这款双路四核服务器。标配一颗至强E5620四核八线程处理器(24GHz/586GT/12M缓存),英特尔5500服务器芯片组主板,2G DDR3 REG ECC 1333MHz内存,SATA2 500G硬盘,双千兆网卡,性能可以说是非常不错。如果以后随着业务量的增长,觉得性能不够用了,还可以扩展到两颗处理器,达成8颗处理核心,16条处理线程(在任务管理器处能看到16个处理核心的格子- -~很NB),最大支持24GB DDR3 REG ECC高速容错校验内存。
产品型号:I2496286S-E
产品类型:双路四核机架式服务器
处 理 器:Xeon E5620
内 存:2G DDR3 REG ECC
硬 盘:SATA2 500G
机 构:2U机架式
价 格:¥8999
银牌服务
重庆五年免费上门服务,全国三年免费上门服务,关键部件三年以上免费质保。
把内存加到8GB,硬盘换为1TB 72k 支持热插拔RAID5,价格也就在12000-13000左右吧,肯定比你dell那个便宜多了。
给你推荐的是国产品牌正睿的服务器产品,他们的产品性价比很高,做工很专业,兼容性,质量之类的都有保障,售后也很完善,3年免费质保,3年免费上门服务,在业界口碑很不错。
条件允许情况下按如下方案升级:
1、升级内存,内存嘛!你看以后跑起来吃力就加,开始4G 8G就够了。
2、硬盘,数据量如果大,就是很头疼的问题了,服务器嘛!不至于用Sata硬盘吧,太垃圾了。总得是sas/scsi的吧,这类硬盘速度快,且自己有芯片处理数据,减少CPU工作量。
3、软件方面才是最重要的, net的程序是最容易出问题的,软件方面,程序方面才是最重要的,要不然你 ip10W 消耗的是人家ip100w的资源。
程序最重要,拿单核CPU举例,程序写得不好,运行某程序时候CPU就会达到99%-100%。就算你4核 8核,程序有问题的时候也是好不到哪去的。
所以得有软件策略,当CPU过高的时候要执行某个处理。
0条评论