Discuz 是一款由PHP编写的开源论坛
Discuz 官方论坛: https://wwwdiscuznet/forumphp
要爬取的页面地址:
Discuz BUG与问题交流板块; https://wwwdiscuznet/forum-70-1html
应该打开创建项目命令生成的那个目录 如果选择再下层目录 就不能导模块了
遍历帖子列表
时间信息同样有两种状态 第二种带有 "发表于 " 字样
存储
列表遍历完成
获取下一页的url 定义一个类的变量来记录页数
结果存在datajson中
DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 »
【scrapy爬虫实战】Discuz 论坛版块全部帖子信息爬取
0条评论