Python 多线程爬虫停止条件
多线程爬虫,如何在特定的深度让线程停止呢?
每个线程目前爬取页面后,还会从页面中抓取新的 url 入队 ----------------------- 以下是精选回复-----------------------
每个线程目前爬取页面后,还会从页面中抓取新的 url 入队 ----------------------- 以下是精选回复-----------------------
答:可以每次开新的线程的时候传入一个变量并+1,记录当前的深度,达到一个阈值就不要再开新的线程。
答:downloder 接受 url 参数时顺便传入这个 url 的深度啊,downloader 吐 response 的时候把这个参数吐出来再
答:维护一个 tasks 队列,tasks 队列存 task 类,深度,url,解析规则存在 task 里,
再维护一个线程池,线程池只从 tasks 中取 task,执行 task。
0条评论