火车头采集器怎么采集网页中未加载的内容?
第一步采集网址,下载好火车头采集器后打开,新建一个任务,任务名随意。把需要采集的网站文章列表页网址添加到起始网址。从图中看出该列表页有34页,每页有N篇文章。
2
列表页会一级网址,添加多级网址获取,从而获取二级网址(文章页网址)
设置列表分页获取,3个地方分别是:分页源代码前面和后面还有中间位置。这一步用于获取列表页面链接,因为有34个列表页面。设置完保存。
网址获取选项,这一步用于获取列表页上面文章页的链接,根据自己需要设置需要截取的部分和根据网址的结构设置包含与不包含某些字符。为空即没限制,设置完保存。
设置好链接采集规则后,可以测试网址,看测试结果调整规则。看图可以看到采集链接规则从起始链接到全面列表页再到列表页上的文章页链接都已经成功采集。
第二步是采集内容,首先修改标题规则,在页面源代码里面找到标题的代码,把标题前后代码负责过去截取出标题。保存。
修改内容采集规则,跟标题规则差不多,也是源代码里面找到内容的前后代码。这里内容会有一些其他html标签,所以得添加一个html标签排除的规则。
完成后,测试看一下结果,从测试结果来调试规则,直到测试结果是自己想要的内容为止。
第三步是采集导出。前面1、2两步把规则设置好,最后就要把文章导出了。先做一个导出的模版。
然后选择方式二,把每一篇文章都分别记录到一个txt文本,保存位置自己选择,模板选择刚刚做好的导出模版保存的文件名用文章标题为命名。其他默认,保存。
把采集网址,采集内容,发布3个选项框都勾选,然后开始采集。完成后文本就自动生成在刚刚保存的文件夹里面了。
火车头采集器采集文章教程到此就完成了,由于每个网站都是不一样的,所以这里只能用一个网站演示,只是一个方法思路,自己采集文章还需要灵活变通。
1
大家都知道php有个函数htmlspecialchars()是将预定义字符串做转换的,而htmlspecialchars()这个函数在php54默认为utf8编码的
2
一般建站新手站长搭建织梦环境都是用的dedeampz织梦集成环境一键搭建的织梦环境,原因就在这里了,dedeampz搭建完成的CMS网站默认的编码格式是gbk的
3
如果你安装的是织梦53或者56可能没事,因为dede56之前的版本其中php的版本默认配置的是53版本的php,但是织梦57开始集成其中的php是54版本的,而这时的php54默认编码格式跟环境的编码格式冲突(格式不一致)
4
格式不一致的时候如果你输入的标题是纯英文+数字,这没问题,能正常使用,因为编码格式utf-8跟gbk的区别在于中文字符
5
如果你输入的是中文字符,那么htmlspecialchars()函数在转换的时候因为编码格式不同导致的乱码是他不识别,所以就直接输出空,因为他什么也没有转过来,这也就是为什么你输入汉语标题提交,却提示“标题不能为空”的原因!
6
问题分析清楚了,解决方法也很明显了,下面提供两种解决方法
第一种:将php的版本切换回53版本或者比53更早的版本的,这个问题自然就解决了
7
第二种:给htmlspecialchars(函数)添加ENT_COMPAT ,'GB2312'
就是给php的这个函数强制设定编码格式,这样也能解决这个问题,具体对应的位置是
①:dede/article_addphp 这个php文件中查找
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen));
改成
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen),ENT_COMPAT ,'GB2312');
②:然后再找到dede/article_editphp这个php文件中查找
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen));
改成
$title = htmlspecialchars(cn_substrR($title,$cfg_title_maxlen),ENT_COMPAT ,'GB2312');
③:include/ckeditor/ckeditor_php5php 查找
htmlspecialchars($value)
改为htmlspecialchars($value, ENT_COMPAT ,'GB2312')
这样也能解决以上问题
本文采用http://jingyanbaiducom/article/11c17a2c60027df446e39d0chtml站点信息
解决的请点赞
八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器,不同于火车头采集器。八爪鱼采集器可以通过智能识别和灵活的自定义采集规则设置来采集网页中未加载的内容。以下是一般的采集步骤:1 打开八爪鱼采集器,并创建一个新的采集任务。2 在任务设置中,输入要采集的网址作为采集的起始网址。3 配置采集规则。可以使用智能识别功能,让八爪鱼自动识别页面的数据结构,或者手动设置采集规则。4 如果手动设置采集规则,可以通过鼠标选择页面上的数据元素,并设置相应的采集规则,以确保正确获取所需的数据。5 设置翻页规则。如果需要采集多页数据,可以设置八爪鱼采集器自动翻页,以获取更多的数据。6 运行采集任务。确认设置无误后,可以启动采集任务,让八爪鱼开始采集数据。7 等待采集完成。八爪鱼将根据设置的规则自动抓取页面上的数据,并将其保存到本地或导出到指定的数据库等。八爪鱼采集器拥有强大的数据采集能力,可以帮助用户轻松采集各类网页数据。了解更多八爪鱼采集器的功能和使用方法,请前往官网教程与帮助了解更多详细信息。
火车头采集器通常是一种网页数据抓取工具,它可以帮助用户从网页上提取并整理所需的数据。有时候,火车头采集器下来的文章没有换行,可能有以下原因:
1 原始网页格式问题:如果原始网页的文章格式不包含换行符,那么火车头采集器抓取到的文章自然也就没有换行。这可能是因为原始网页使用了特殊的HTML标记语言或者CSS样式,导致换行符被忽略或者隐藏。
2 火车头采集器设置问题:另外,如果火车头采集器在处理抓取的数据时,没有正确地解析HTML标记语言或者CSS样式,也可能导致文章没有换行。这可能是因为火车头采集器的设置不正确或者存在bug。
3 数据处理问题:在采集数据后,往往需要对数据进行清洗和整理,以便进一步分析和使用。如果在处理过程中,数据处理软件或脚本忽略了换行符或者将其转换为其他标记,也会导致文章没有换行。
如果遇到火车头采集器下来的文章没有换行的情况,可以尝试以下解决方法:
1 检查原始网页格式:首先,需要确认原始网页的文章格式是否包含换行符。可以尝试在浏览器中直接查看原始网页的HTML代码,以确定是否存在换行符。
2 检查火车头采集器设置:如果确认原始网页包含换行符,那么就需要检查火车头采集器的设置是否正确。可以查看火车头采集器的文档或者帮助文件,确认是否设置了忽略换行符或者将其转换为其他标记。
3 检查数据处理过程:如果以上两步都没有解决问题,那么就需要检查数据处理过程是否存在问题。可以尝试在数据处理过程中增加一些日志或者调试信息,以便找到问题所在。
总之,解决火车头采集器下来的文章没有换行的问题需要根据具体情况进行分析和处理。首先需要确定问题的原因,然后根据原因采取相应的解决方案。
dedecms在采集时如果遇到会自动采集和它的属性的(譬如头条,幻灯片,推荐等) 但如果没有就只能显示无省略图了,这个没办法改变的, 如果觉得不美观你可以在修改时添加相关的并作相应的设置
0条评论