【scrapy爬虫实战】Discuz 论坛版块全部帖子信息爬取

【scrapy爬虫实战】Discuz 论坛版块全部帖子信息爬取,第1张

Discuz 是一款由PHP编写的开源论坛

Discuz 官方论坛: https://wwwdiscuznet/forumphp

要爬取的页面地址:

Discuz BUG与问题交流板块; https://wwwdiscuznet/forum-70-1html

应该打开创建项目命令生成的那个目录 如果选择再下层目录 就不能导模块了

遍历帖子列表

时间信息同样有两种状态 第二种带有 "发表于 " 字样

存储

列表遍历完成

获取下一页的url 定义一个类的变量来记录页数

结果存在datajson中

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 【scrapy爬虫实战】Discuz 论坛版块全部帖子信息爬取

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情