火车采集器怎么处理数据 火车采集器数据处理介绍
标签编辑
对数据内容标签进行编辑定义,数据的获取方式有
A)从源码中获取数据
B)生成固定格式的数据
C)已有标签组合
A)从源码中获取数据:可精确地设置标签的来源是从默认页的源码、返回头信息和网页地址中,
或者是分页、循环分块、多页中。
其数据提取方式包括:
Aa)前后截取
Ab)正则提取
Ac)正文提取
Ad)Xpath提取
Ae)JSON提取
B)生成固定格式的数据:可生成固定的字符串、系统时间、随机字符串、随机数字、系统时间戳、随机抽取信息
C)已有标签组合:可通过组合已有的标签,来生成新的标签内容
Aa)前后截取
通过设置开始字符串和结束字符串,来获取中间的字符,可以在开始和结束字符串中设置通配符()
Ab)正则提取
支持两种正则,一个纯正则,一个参数正则。
先介绍纯正则,举个例子,
如:前字符串(<content>[\s\S])后字符串,这个正则其实效果跟前后截取一样,
如需要获取全部代码,则为^(<content>[\s\S])$,此功能运用需有一定的正则基础。
关于参数正则,是通过参数组合,来生成内容。
比如说要匹配标题为“新用户注册”和作者“神秘嘉宾”,代码如下:
<divclass="content">
<h2>新用户注册</h2>
你可以做一个图形界面(可以是网页或者是桌面程序),然后下载指定的网页内容,并且显示在浏览器中。
然后你就像往常一样,输入这个网页上所有的内容,包括当时生成的验证码,并且把Post的地址指向你自己的程序。
这样,当你的程序得到Post的请求之后,你就可以获得全部的HTML变量参数名,然后你就如实地把所有的参数,按照Post的方式传回到对方的服务器,这必须在对方的验证码失效之前完成。这样就完成了登录的过程,并且你保存所有的对方服务器传回来的HTTP Head中的内容。
然后你就可以直接去调用那些需要登录才能够查看的页面,并且在每次调用的时候,都把刚才获得的Head中的内容原封不动地传回去,这样,你就相当于已经“登录”了一样,可以获得那些需要登录才能够查看的内容了。
但是你最少要保证,每30分钟去请求一次对方服务器的资源,因为如果你闲置了一段时间的话,你保存的Head信息有可能就会失效(Session timeout),就需要像一开始一样重新来一次了。
对从内容页面提取的数据进行进一步处理,可以同时添加多个操作,按照从上到下的顺序来执行。
也就是说,上个步骤的结果会作为下个步骤的参数。
1)提取内容为空:如果提取内容为空,则使用正则匹配从原始页面中再次提取
2)内容替换/排除:将采集到的内容进行字符串替换,如需排除,则替换为空字符串即可
3)html标签过滤:过滤指定html标签,比如<a,<font
4)字符截取:通过开始和结束字符串对内容进行截取
5)纯正则替换:通过强大的正则表达式进行复杂的替换。
6)数据转换:包括将结果简转繁、将结果繁转简、自动转化为拼音和时间修正转化
7)智能提取:包括提取第一张、智能提取时间、智能提取邮箱、智能提取手机号码、智能提取电话号码
8)高级功能:包括自动摘要、自动分词、Http请求、字符编码转换、同义词替换、空内容缺省值、内容加前后缀、随机插入、运行C#代码、批量内容替换,统计标签字符串长度等一系列功能。
9)补全单网址:将当前内容作为一个网址进行补全。
10)文件下载:可以自动探测并下载文件,可设置下载路径和文件名样式。
11)内容过滤:对于一些不符合条件的记录,可以通过设置内容过滤来删除或标记为未采。
关于采集的优与却点,这个主要看个人是怎么认为的,基本上国内的cms系统都带采集,因方便快捷,普遍被站长们接受,因选择采集过后,就不需要挖空心思的去想如何创建站内容。当然采集不好是因为大家都去采集,可以说大量的内容堆积形成了一个垃圾圈,当然搜索引擎也是拒绝收录或者被k掉。这里我们就不谈采集优点与缺点,因为我自己也是很矛盾的,虽然我认为采集不够好,但我每天仍然会用到它。以下仅仅是我个人的看法,希望能给新手一定的帮助。
采集也就是我们把别人网站上的内容给弄到自己的网站上去。你可以用Ctrl+C 然后再Ctrl+V。但是复制与粘贴不同的是,它批量的,是程序智能化的。你手工能在一分钟能复制多少文章可想而知,当然还要分开文章标题和内容,甚至发布时间,作者等。如果用采集就不一样了,在性能允许的情况下,它可以一分钟采集几百篇文章。从而大大减轻了站长们的时间。
国内的cms一般都带采集功能,并且都在不断完善提升之中,还有一些原来没有的采集功能的论坛及博客程序,都会有人开发出采集插件。因个人比较喜欢使用dedecms也就是(织梦)所以对其他的cms系统不是很了解,但是网络上相关教程很多,大家可以自行查找后,阅读以下即可。除此之外还有哪些程序自带采集了,我们可以百度以下看看,很多的如php168、phpcms、帝国cms、动易、新云、等等。
下面会讲一个比较强大的采集器,那就是火车头,火车采集器是用来批量采集网页,论坛等的内容,直接保存到数据库或发布到网站的一种工具,他们可以根据用户设定的规则自动采集原网页,获取格式网页中需要的内容。
DEDECMS:功能强大,新手需要多学习,才能掌握。功能无比强大,相信用过的人都知道。不过DEDE有词语替换,只要你导入词语替换数据,那么它就可以执行替换了,这对伪原创还是比较好的。
php168:
1自带新浪新闻采集系统,可以很方便自由的采集新浪国内、国际、社会、娱乐、科技、财经、军事、体育精选新闻。
2可以自由添加采集参数,并且可以共享采集参数,即可把采集参数导出来,分享给其他人。
3可以很方便的采集类似奇虎这样的新闻,也就是说你可以做一个像奇虎这样的站。
帝国cms:
1使用简单:无需会任何程序,只需在相应的内容加上相应的标签即可。
2多重过滤:同一链接可设置不重复采集;设置采集关键字(不包含不采集);内容字符替换;广告过滤;过滤相似信息;过滤标题相同信息;可设置采集前几条记录。
phpcms:整个站点内容页(注意是内容页,就是文章的详细展示页面)的通用规则,这里如果设置好后,以后添加采集任务时,会自动继承这个规则,就会省很多工作量。
火车头:功能强大自定义参数,不过新手可以参照官方教程一步步操作。像这种采集软件,一般只要在网站程序没有采集功能,或者功能不够强大达不到自己要求的朋友可以去使用看看。个人感觉,火车头是比较不错的采集软件。
采集的优缺点
虽然本文章没有提到,这里还是给新手朋友们仔细的分析一下。
优点:可以花少量的时间来完成很多文章的分布。一个小时可以发上千篇文章。减少了网站维护和写作时间,给站长提供了方便。
缺点:内容高度重复,因为你是采集别人的文章,所以你和别人的文章大量的重复,就算你是伪原创也同样,你想想如果100个人都使用伪原创工具,那和采集的不还是同样的吗先不谈伪原创工具的好与不好,如果互联网上充斥着那样的文章,却一点可读性的价值都没有,你觉得你的网站能留得住客户吗网站内容的重复带来的结果就只有,收录少,排名低。
建议新手朋友们的方法
在网上看到一些人说做网站是很简单的,只要把程序安装上去,然后采集就ok了。还说什么采集比较适合新手,个人觉得就是扯淡,一个网站没有可读性,有价值的文章,你觉得你这样能留住客户吗我希望的是新手尽可能的少用采集,多充实一些比较有价值的文章,也就是你的原创文章,不要一咕噜的采集。以下说几点希望对新手有用。
1新手用了采集,那么就会产生惰性,以后就算做站,都会选用采集器。
2新手建站本身就是个学习的过程。自己写文章是很重要的。先不说你是否具备能写,或者你写不出来,你改别人的文章也是好的。这样不仅比伪原创的程序高,而且可读性也较高。最重要的是新手朋友可以从中不断学习与提升自己的知识。
3 误导了新手对建站的看法。本来建站就是服务网民,给自己带来收益。而使用采集过后,特别是那些伪原创工具一旦使用过后,那就是向前看,而不管网民是否喜欢。这样会让新手变得目光短浅,不利于长期的发展。
4 不利于新手学习seo,如果用采集器,那基本上就用不到seo了,seo是一个理论+实践的过程。只有在实践中论证理论,改变自身错误的看法,才能真正的把握seo的核心部分。
个人认为新手尽量靠自己的手来写文章,尽管写的不好,我相信以后会好的,如果是想赚钱,那也不要是使用采集器,因为网络上赚钱不是你想的那么简单。别以为,建个网站,就有钱了。这个方法如果在前两年还行得通,而现在却行不通了。如果你要想赚钱,必须有一个过程。所以对新手说,每天写一篇文章都可以,然后不停地学习、实践,我相信目标会离你越来越近。
这个有两种可能的原因:
你的发布接口有问题,你要检查你的发布接口的版本,你用的网站系统的版本,仔细核对
你的火车头采集器发布的时候没有处理好。
不止只是发布模块 要写admin (当前你要确认后台有这个账户 且 系统设置里金刚模式关闭 其它安全也可以试着关闭)
连php的发布文件也要检查 看看你们有没有代码是关于用户名的 (比如我的定制接口就是可以以很多用户发布的) 检查接口发布配置有无错误 最好重新配置1-多次 细心
0条评论