关于php函数 file_get_contents 的使用问题

关于php函数 file_get_contents 的使用问题,第1张

无论用什么方法都必须去从其他服务器上获取数据,都是一样。

如果目标服务器做了防采集的话,建议使用curl去模拟浏览器访问,如果直接file_get_contents的的话访问量太大可能会被封IP。

希望我的回答对你有帮助。

1内容质量问题

很多朋友应该是也看到过其他对网站建设、网络推广比较关注的站长朋友说过,一个网站的灵bai魂就是提供质量比较高的相关文章浏览者为什么要到我们网站来?因为他们有相关需要咨询的问题,他们有疑问,所以通过搜索某些关键词查找到相应的网站来解决疑问那么一个合格的网站具备的因素之一就是提供相当数量的高质量原创文章如果文章质量有问题,那么可能是影响网站收录的因素之一

2网站站内结构是否合理

那么第二个原因可能就是网站的内部结构存在问题,有一些网站在程序制作的时候由于程序员对于网站推广和seo方面的知识了解比较少,某些程序使用了搜索引擎不喜欢的方式制作了出来比如框架iframe方式同样是在一个页面能够显示相关模块内容,但是这种模块区域的内容其实是调用其他相关页面在本页面显示出来的这种网页排版方式搜索引擎的蜘蛛来爬行我们网站的时候很容易被搞迷糊,不知道通过这个url网页地址该去爬行那个链接(搜索引擎的蜘蛛是通过网站url形式爬行抓取的)那么网站重要区域使用iframe框架调用数据是不合理的另外就是网站的栏目页面或者内部页面也应当调整合理结构我们可以观察一些大门户网站的栏目和新闻页面结构,我们会发现上面有很多内部页面的网页url地址这种方式就是对内页权重的传递方式(上面也提到了搜索引擎的蜘蛛是通过url地址来爬行抓取页面的,这样能够增加内部页面被抓取爬行的几率从而提高网站收录)那么如果你的网站结构不合理?很有可能也是影响网页收录的原因之一

3网站权重过低

前面提到了网站内容原创和网站内部结构合理化都可能是影响网站页面收录的因素之一那么还有一种可能就是自身的网站太新了有一些站长朋友的网站刚刚上线没几天甚至一星期都不到,就提出了这样一个疑问,哎呀,怎么我的网站内容不收录啦!怎么我的网站写的文章都是原创的百度就是不收录也没有排名啊疏不知……百度搜索引擎对于新网站一般都是有一个考核期的,这个考核期大概是3个月左右咱们启凡软件的官方网站提高的时候是前一天晚上提交,第2天收录了内页然后其他内页放出间隔了有20天左右才陆续放出新站权重一般都是比较低的,这个时候不能对于网站的所有内容页面进行收录是一种很正常的表现一定要淡定

一开始,认为,对方服务器做了防采集设置,比如有时间限制之类的。

于是更改程序,原先是直接获取列表页,然后持续循环获得文章列表。改了采集文件结构,

原来是就一个文件,类,数据库连接,数据处理全部在一个文件里,再采集某一篇文章的时候,后天加了一个时间循环。等待5秒的。代码如下

sTime=Timer()

dTime=Timer()-sTime

do while dTime < 5

dTime=Timer()-sTime

loop

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 关于php函数 file_get_contents 的使用问题

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情