商业源码服务器教程 2023-11-27 8:39:01

如何解决爬虫的IP地址受限问题

1、放慢爬取速度，减小对于目标网站造成的压力。但是这样会减少单位时间类的爬取量。

第二种方法是通过设置IP等手段，突破反爬虫机制继续高频率爬取。网站的反爬机制会检查来访的IP地址，为了防止IP被封，这时就可以使用HTTP，来切换不同的IP爬取内容。使用代理IP简单的来讲就是让代理服务器去帮我们得到网页内容，然后再转发回我们的电脑。要选择高匿的ip，IPIDEA提供高匿稳定的IP同时更注重用户隐私的保护，保障用户的信息安全。

2、这样目标网站既不知道我们使用代理，更不会知道我们真实的IP地址。

3、建立IP池，池子尽可能的大，且不同IP均匀轮换。

如果你需要大量爬去数据，建议你使用HTTP代理IP，在IP被封掉之前或者封掉之后迅速换掉该IP，这里有个使用的技巧是循环使用，在一个IP没有被封之前，就换掉，过一会再换回来。这样就可以使用相对较少的IP进行大量访问。

1、简介

使用同一个ip频繁爬取一个网站，久了之后会被该网站的服务器屏蔽。所以这个时候需要使用代理服务器。通过ip欺骗的方式去爬取网站

可以使用http://yumiqianyuecomcom/proxy中找到很多服务器代理地址

2、应用

# -coding:utf-8-

from urllib import request

def use_porxy(porxy_addr,url):

porxy = requestProxyHandler({'http':porxy_addr})

opener = requestbuild_opener(porxy, requestProxyHandler)

requestinstall_opener(opener)

data = requesturlopen(url)read()decode('utf-8')

return data

data = use_porxy("11411518259:128","http://wwwbaiducom")

print(len(data))

先网站上在线提取代理IP，提取数量、代理协议、端口位数等都可以自定义

然后生成api链接，复制或打开链接，就可以使用提取的ip了

import requests

base_url = 'https://wwwbaiducom'

response = requestsget(base_url)

url=请求url，

headers =请求头字典，

params = 请求参数字典。

timeout = 超时时长，

)---->response对象

服务器响应包含：状态行（协议，状态码）、响应头，空行，响应正文

字符串格式：responsetext

bytes类型：responsecontent

responseheaders['cookie']

responsetext获取到的字符串类型的响应正文，

其实是通过下面的步骤获取的：

responsetext = responsecontentdecode(responseencoding)

产生的原因：编码和解码的编码格式不一致造成的。

strencode('编码')---将字符串按指定编码解码成bytes类型

bytesdecode('编码')---将bytes类型按指定编码编码成字符串。

a、responsecontentdecode('页面正确的编码格式')

b、找到正确的编码，设置到responseencoding中

responseencoding = 正确的编码

responsetext--->正确的页面内容。

a、没有请求参数的情况下，只需要确定url和headers字典。

b、get请求是有请求参数。

在chrome浏览器中，下面找query_string_params,

将里面的参数封装到params字典中。

c、分页主要是查看每页中，请求参数页码字段的变化，

找到变化规律，用for循环就可以做到分页。

requestspost(

url=请求url，

headers = 请求头字典，

data=请求数据字典

timeout=超时时长

)---response对象

post请求一般返回数据都是json数据。

（1）responsejson()--->json字符串所对应的python的list或者dict

（2）用 json 模块。

jsonloads(json_str)---->json_data(python的list或者dict)

jsondumps(json_data)--->json_str

post请求能否成功，关键看请求参数。

如何查找是哪个请求参数在影响数据获取？

--->通过对比，找到变化的参数。

变化参数如何找到参数的生成方式，就是解决这个ajax请求数据获取的途径。

寻找的办法有以下几种：

（1）写死在页面。

（2）写在js中。

（3）请求参数是在之前的一条ajax请求的数据里面提前获取好的。

代理形象的说，他是网络信息中转站。

实际上就是在本机和服务器之间架了一座桥。

a、突破自身ip访问现实，可以访问一些平时访问不到网站。

b、访问一些单位或者团体的资源。

c、提高访问速度。代理的服务器主要作用就是中转，

所以一般代理服务里面都是用内存来进行数据存储的。

d、隐藏ip。

FTP代理服务器---21,2121

HTTP代理服务器---80,8080

SSL/TLS代理：主要用访问加密网站。端口：443

telnet代理：主要用telnet远程控制，端口一般为23

高度匿名代理：数据包会原封不动转化，在服务段看来，就好像一个普通用户在访问，做到完全隐藏ip。

普通匿名代理：数据包会做一些改动，服务器有可能找到原ip。

透明代理：不但改动数据，还会告诉服务，是谁访问的。

间谍代理：指组织或者个人用于记录用户传输数据，然后进行研究，监控等目的的代理。

proxies = {

'代理服务器的类型':'**'

}

response = requestsget(proxies = proxies)

代理服务器的类型:http,https,ftp

**:http://ip:port

httpClientgetHostConfiguration()setProxy(dynamicIpgetIp(), dynamicIpgetPort());

这样可以，我这里dynamicIp是从redis里随机取的，有个定时任务去取代理IP放redis里面

参数数据代理服务器字典网站

DABAN RP主题是一个优秀的主题，极致后台体验，无插件，集成会员系统
网站模板库 » 如何解决爬虫的IP地址受限问题

商业源码钻石

分享到：

如何解决爬虫的IP地址受限问题

商业源码钻石

0条评论

发表评论取消回复

商业源码 钻石

商业源码钻石