火车头采集器v9 内容采集如何去掉指定标签
“我采集一个网页的地址,起始找的是一个层,终止也找了一个层 这样不行啊如果没有数字的网址怎么采集呢!如某个网址是list_50html 上图 才 ”
----------------------------
有些网站的列表页翻页参数中,第一个参数是无效的,利用数值变化就无法访问列表页的第一页。
我不知道在火车头里面怎样解决这个问题的。在熊猫采集里面是可以忽略这个问题的,只需要鼠标选择列表页中指向下一页的链接,就能翻页访问。因为熊猫使用的是机器训练的采集设置方式。不需要用户手工设置这些。
少数没有下一页的列表页中,遇到这种情况,可以使用参数列表方式解决。你可以在火车采集器里面找找是否有“参数列表”的翻页方式。
有些采集软件中,可以直接同时输入多个列表页地址。这样也就不必去设置翻页参数,也很简单。熊猫中不支持这种方式,不知道火车采集器是否支持。如果支持,你可以直接输入多个列表页地址,换行区分即可。
火车头只是一个工具。用来做数据采集用的。换句话说,你如果用ctrl c +ctrl v 做了一天的事情,火车头用几分钟就做完了。在网页上呈现的效果都是一样的,百度会知道哪个是你手动发的,哪个是火车头采集的吗。楼主只是问你在火车头里面怎么添加锚文本而已,如果你不知道如何添加你回答来做什么。更加不明白的是居然还选你做正确答案。最不明白的是已经选择答案的问题,问什么还要向我求助,搞得我的qq蹦出来蹦出来的。锚文本的代码:<a href="URL链接">文本关键词</a>你只要在火车头里面设置全局替换就可以了,如果是在单个规则里面设置的话可以用替换规则;如果是针对火车头已经采集好的数据来说,可以使用编辑数据库的方式直接执行数据库语句进行批量替换;当然了,在火车头里面操作会有一些局限性,如果只是增加链接的话,建议在网站上发布之后进行后期处理,类似dedecms和discuz都有关键词链接可以在后台添加。
八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器,不同于火车头采集器v9。八爪鱼采集器提供了多种数据采集功能,包括文字、、视频等多种格式,并且支持智能识别和灵活的自定义采集规则设置。如果您想要去掉指定标签,可以在八爪鱼采集器的采集规则设置中进行操作。具体步骤如下:1 打开八爪鱼采集器,并创建一个新的采集任务。2 在任务设置中,输入要采集的网址作为采集的起始网址。3 配置采集规则。可以使用智能识别功能,让八爪鱼自动识别页面的数据结构,或者手动设置采集规则。4 如果需要去掉指定标签,可以在采集规则设置中选择相应的标签,并将其设置为不采集或者忽略。5 设置其他采集规则,如选择要采集的数据元素、设置翻页规则等。6 运行采集任务。确认设置无误后,可以启动采集任务,让八爪鱼开始采集数据。7 等待采集完成。八爪鱼将根据设置的规则自动抓取页面上的数据,并将其保存到本地或导出到指定的数据库等。八爪鱼为用户准备了一系列简洁易懂的教程,帮助大家快速掌握采集技巧,轻松应对各类网站数据采集,请前往官网教程与帮助了解更多详细信息。
八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器,不同于火车头采集器。八爪鱼采集器可以通过智能识别和灵活的自定义采集规则设置来采集网页中未加载的内容。以下是一般的采集步骤:1 打开八爪鱼采集器,并创建一个新的采集任务。2 在任务设置中,输入要采集的网址作为采集的起始网址。3 配置采集规则。可以使用智能识别功能,让八爪鱼自动识别页面的数据结构,或者手动设置采集规则。4 如果手动设置采集规则,可以通过鼠标选择页面上的数据元素,并设置相应的采集规则,以确保正确获取所需的数据。5 设置翻页规则。如果需要采集多页数据,可以设置八爪鱼采集器自动翻页,以获取更多的数据。6 运行采集任务。确认设置无误后,可以启动采集任务,让八爪鱼开始采集数据。7 等待采集完成。八爪鱼将根据设置的规则自动抓取页面上的数据,并将其保存到本地或导出到指定的数据库等。八爪鱼采集器拥有强大的数据采集能力,可以帮助用户轻松采集各类网页数据。了解更多八爪鱼采集器的功能和使用方法,请前往官网教程与帮助了解更多详细信息。
首先,你仔细看看是不是按照这个dede的采集规则一步步操作的。
http://jingyanbaiducom/article/86fae34693d6443c49121af0html
还有下面这个,看看能不能帮到你
首页导航
<li><a href="{dede:globalcfg_cmsurl/}/">首页</a></li>
标签名称:channel
标记简介:织梦常用标记,通常用于网站顶部以获取站点栏目信息,方便网站会员分类浏览整站信息
功能说明:用于获取栏目列表
适用范围:全局使用
基本语法:
{dede:channel type='top' row='8' currentstyle="<li><a href='~typelink~' class='thisclass'>~typename~</a> </li>"}
<li><a href=' http://www63iicom'>小公主</a> </li>
{/dede:channel}
参数说明:
typeid = '0' 栏目ID
reid = '0' 上级栏目ID
row = '100' 调用栏目数
col = '1' 分多少列显示(默认为单列)
type = 'son | sun' son表示下级栏目,self表示同级栏目,top顶级栏目
还有就是如果还是不能解决问题。那就用第三方软件试试,比如火车头就还挺好用的。操作方法也不难。
祝你成功!
0条评论