求助,为什么 Requests 不能获取到知乎的页面?
>>> requests.get("http://github.com")
<Response [200]>
>>> requests.get("https://github.com")
<Response [200]>
>>> requests.get("https://www.baidu.com")
<Response [200]>
>>> requests.get("http://zhihu.com")
<Response [500]>
>>> requests.get("https://zhihu.com")
<Response [500]>
但是用 urlopen 可以,不知道为什么,求解。 ----------------------- 以下是精选回复-----------------------
答:header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.2704.106 Safari/537.36"}
requests.get('http://zhihu.com',headers=header)
<Response [200]>
答:加个 headers 就可以了把
答:知乎现在防爬虫越来越严格了……之前我爬还不需要 headers 就能上。
答:有现成的知乎爬虫: https://github.com/egrcc/zhihu-python
0条评论