火车头采集器怎么采集网页中未加载的内容?
前沿:
如果你对火车头一点都不知道,你还是去网上自学一点火车头采集的知识,我也不是什么大师,硬着头皮写的,至少能用,在这里我不会教你如何写采集规则,因为写法种类太多,你问我我也不知道,火车头相关文件夹里提供的发布接口内置了马甲发布文章,并且支持远程抓取本地化,和发布文章时间设置(10-70分钟随机)。用户只需关注火车头标题和内容即可,参数值标题(title),内容(content)。
第一步:站点设置里设置下火车头免登录发布接口的全局变量值:
第二步:将发布接口上传覆盖程序根目录:
第三步:登录火车头软件后导入发布模块"
下图更多处下拉--选择导入:
导入后:
上图中,数字1处填写你在网站后台设置的全局变量值。
2 处选择 utf-8 编码。
3 处填写你网站域名,不要带 反斜杠'/'
4处选择不需要登录
5 处点击获取列表--选择你需要入库的分类
6 随便给当前这个发布模块写个名字,后续采集任务模块会用到。
最后点击保存配置按钮。
---------
下面讲解导入采集任务:
新建任务分组后,在该分组下导入任务规则(导入任务至该分组):
选择我们的采集任务规则(ljobx文件):
下一步:双击规则项
点击第三步:修改发布内容设置
修改下你发布的分类:
最后保存即可:
然后右键开始任务采集:
首先,你仔细看看是不是按照这个dede的采集规则一步步操作的。
http://jingyanbaiducom/article/86fae34693d6443c49121af0html
还有下面这个,看看能不能帮到你
首页导航
<li><a href="{dede:globalcfg_cmsurl/}/">首页</a></li>
标签名称:channel
标记简介:织梦常用标记,通常用于网站顶部以获取站点栏目信息,方便网站会员分类浏览整站信息
功能说明:用于获取栏目列表
适用范围:全局使用
基本语法:
{dede:channel type='top' row='8' currentstyle="<li><a href='~typelink~' class='thisclass'>~typename~</a> </li>"}
<li><a href=' http://www63iicom'>小公主</a> </li>
{/dede:channel}
参数说明:
typeid = '0' 栏目ID
reid = '0' 上级栏目ID
row = '100' 调用栏目数
col = '1' 分多少列显示(默认为单列)
type = 'son | sun' son表示下级栏目,self表示同级栏目,top顶级栏目
还有就是如果还是不能解决问题。那就用第三方软件试试,比如火车头就还挺好用的。操作方法也不难。
祝你成功!
八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器,不同于火车头采集器。八爪鱼采集器可以通过智能识别和灵活的自定义采集规则设置来采集网页中未加载的内容。以下是一般的采集步骤:1 打开八爪鱼采集器,并创建一个新的采集任务。2 在任务设置中,输入要采集的网址作为采集的起始网址。3 配置采集规则。可以使用智能识别功能,让八爪鱼自动识别页面的数据结构,或者手动设置采集规则。4 如果手动设置采集规则,可以通过鼠标选择页面上的数据元素,并设置相应的采集规则,以确保正确获取所需的数据。5 设置翻页规则。如果需要采集多页数据,可以设置八爪鱼采集器自动翻页,以获取更多的数据。6 运行采集任务。确认设置无误后,可以启动采集任务,让八爪鱼开始采集数据。7 等待采集完成。八爪鱼将根据设置的规则自动抓取页面上的数据,并将其保存到本地或导出到指定的数据库等。八爪鱼采集器拥有强大的数据采集能力,可以帮助用户轻松采集各类网页数据。了解更多八爪鱼采集器的功能和使用方法,请前往官网教程与帮助了解更多详细信息。
这个问题应该是dedecms的一个bug,53和55都存在这个bug
要解决这个问题的办法是:在网站后台系统基本参数设置里,其它选项,删除非站内链接(选否),然后确定,再清空缓存
0条评论