百度“太仓阳光人才网”,快照日期不一致的问题。
总的来说,是由于百度不同间服务器更新时间不统一造成的。
细细的剖析下,可以延伸三个问题:
1、为什么百度会有不同的服务器
答:百度每天都会抓录很多的数据,每个快照页面几k到几10K不等,导致它的硬盘无限放大,大到一定程度就要加硬盘,加到一定程度就要加服务器了【数据老多,不换服务器就会很慢了】。
2、为什么不同关键词快照不一样
答:为了让搜索更快速、快捷,百度方面将相同关键词的数据放在同一台服务器上,以便达到最快速的搜索结果。由于服务器更新快照时间不一,所以导致了不同间服务器的快照时间出现差异的可能。
【可以简单的理解成“清声”的关键词数据库放在A服务器,“无语”的关键词数据库存放在B服务器,A的服务器更新了,B的服务器还没轮到更新。所以导致你搜索关键词“清声”的时候,是今天的快照,搜索“无语”的时候,就是之前的快照了。】
3、如上说法应该很多首页快照了,为什么我site:网址的时候只会出现一个主页快照,并且是最新的
答:site是百度搜索的高级内部命令,一旦出现正确的site命令,百度搜索程序将调用所有存放该网站的数据,经过对比分析,抛弃相同页面,取该站所有搜录页的最新快照,所以site后的站点快照,永远是最新的,并且是唯一的。
正是由于site后,百度需要查询、调用所有搜录该站点服务器的信息,所以导致了我们的站点显示搜录的页面数是不准确的,通常我们点到搜录的最后一页,又会冒出{提示:为了提供最相关的结果,我们省略了一些内容相似的条目,点击这里可以看到所有搜索结果。},我们再次点击后,才是正确的全部的抓录数据。
0条评论