python爬虫 如何自己用云服务器上搭建代理服务器 并使用requests测试代理?
1、简介
使用同一个ip频繁爬取一个网站,久了之后会被该网站的服务器屏蔽。所以这个时候需要使用代理服务器。通过ip欺骗的方式去爬取网站
可以使用http://yumiqianyuecomcom/proxy中找到很多服务器代理地址
2、应用
# -coding:utf-8-
from urllib import request
def use_porxy(porxy_addr,url):
porxy = requestProxyHandler({'http':porxy_addr})
opener = requestbuild_opener(porxy, requestProxyHandler)
requestinstall_opener(opener)
data = requesturlopen(url)read()decode('utf-8')
return data
data = use_porxy("11411518259:128","http://wwwbaiducom")
print(len(data))
如果你下面那个可以使用个,你就都加上代理就是了,应该是有的网站限制了爬虫的头部数据。 虽然你可以通过urlopen返回的数据判断,但是不建议做,增加成本。 如果解决了您的问题请采纳! 如果未解决请继续追问
0条评论