火车头采集入库什么意思,这样与普通采集发布有什么优点?
入库只是说,通过mysql 或mssql ,sql语法,直接把数据写入到你网站的数据库中
这样的优点就是速度快
而缺点就是这个需要你对你网站的程序熟悉不然写出来的模块很容易出错或写系统不兼容
同时如用直接入库的方法有些功能不能达到 如火车头就没有discuz的入库模块因为这个数据表的关联很多
楼主可以依自己的情况选择如不清楚可以补充具体cms系统本人原意答疑
回答补充:
入库的资料还是需要采集的这和普通的采集一样都需采集唯一的同的是发布到你站的方式
入库是直接用数据库语法
普通的是通过系统文件
前沿:
如果你对火车头一点都不知道,你还是去网上自学一点火车头采集的知识,我也不是什么大师,硬着头皮写的,至少能用,在这里我不会教你如何写采集规则,因为写法种类太多,你问我我也不知道,火车头相关文件夹里提供的发布接口内置了马甲发布文章,并且支持远程抓取本地化,和发布文章时间设置(10-70分钟随机)。用户只需关注火车头标题和内容即可,参数值标题(title),内容(content)。
第一步:站点设置里设置下火车头免登录发布接口的全局变量值:
第二步:将发布接口上传覆盖程序根目录:
第三步:登录火车头软件后导入发布模块"
下图更多处下拉--选择导入:
导入后:
上图中,数字1处填写你在网站后台设置的全局变量值。
2 处选择 utf-8 编码。
3 处填写你网站域名,不要带 反斜杠'/'
4处选择不需要登录
5 处点击获取列表--选择你需要入库的分类
6 随便给当前这个发布模块写个名字,后续采集任务模块会用到。
最后点击保存配置按钮。
---------
下面讲解导入采集任务:
新建任务分组后,在该分组下导入任务规则(导入任务至该分组):
选择我们的采集任务规则(ljobx文件):
下一步:双击规则项
点击第三步:修改发布内容设置
修改下你发布的分类:
最后保存即可:
然后右键开始任务采集:
火车头是一款可以大量采集原创文章的软件。
火车头采集器有哪些好处?
1、通用性强
无论新闻、论坛、视频、黄页、、下载类网站,只要通过浏览器能看到的结构化的内容,通过指定匹配规则,都能采集到您所需要的内容。
2、稳定、高效
七年磨一剑,软件不断更新进步,采集速度快,性能稳定,占用资源少。
3、扩展性强、适用范围广
自定义web发布,自定义主流的数据库的保存和发布,自定义本地php及net外部编程接口处理数据,让数据都能为你所用。
火车头采集器怎么用?
1、首先打开火车头软件,打开之后在左边空白处右键新建分组,在箭头处随便填写一个分组名称,保存。如图所示:
2、右键你刚才创建的分组,点击新建任务,会弹出一个窗口如下:任务名称可以填写你网站的名称,方便以后采集,站点多了好区分。自动识别不用改,然后第一步点击右边的添加,把你要采集的网站网址添加进去完成即可。下边还一个添加是添加你要采集的规则,从哪个地方采集到哪个地方。比如:ul
li火车头采集器/li
li火车头采集器/li
li火车头采集器/li
li火车头采集器/li
li火车头采集器/li
/ul
采集规则就这么填写 第一个框填写ul,第二个框就填写/ul,明白了吧。
3、填写好之后点击下边的测试网址采集。就到了如下图:点开加号出现你要采集的文章。
4、随便双击一个网址进入第二步,如图所示:左边有标题和内容两个板块,需要你设置一下,就是你要采集的标题和内容,内容的话,你可以点击一篇文章查看源文件进去看看文章的起始代码位置,去截取这段代码,放到里边,跟第一步的设置规则类似,这里就不详细说明了。设置好之后就可以点击测试一下效果了。
5、弄好之后来到第三步,如图所示:选中启用这个框
6、点击web发布配置管理进入下一个窗口,选择你要发布的模块,选择编码,然后把你的网站后台登录地址写进去,然后点击在内置浏览器登录会出现一个小窗口,登录后台账号密码登录成功后点击确定回到当天窗口,点击获取列表,会出现你网站的栏目。配置名写上你的网站名称即可,点击保存。关闭本窗口。
7、到这里火车头采集器的规则就设置好了 接下来就要采集发布了。选中三个复选框,点击发布软件就可以开始运行了,采集发布成功后,进你的网站后台就可以看到你采集到的文章了。
主要是看你用的是什么程序做的论坛。
如果是discuz,可以去应用中心安装 DXC采集 30,进行采集。
如果是phpwind,也可以用DXC采集插件,可以去到phpwind官方论坛下载
其他的论坛程序,可以安装火车头采集器,具体的使用请到火车头官网了解
if( $thread['attachment'] ) {
if(preg_match_all("/\[attach\](\d+)\[\/attach\]/i", $thread['message'], $matchaids)) {
$attachpids = $matchaids[1];
}
$thread['imagelist'] = C::t('forum_attachment_n')->fetch_all_by_id('tid:'$thread['tid'], 'tid', $thread['tid'], '', true);
}
加在forumdisplayphp 812行后
说下我做采集的方式哈,我这边主要有两种方式,第一个,常规站点,内容很全,那就先找一个采集源,然后爬取整站数据,注意,这种方式,如果源站小说比较多的话,会非常耗时,按火车头十个进程来计算的话,一个进程可以开十个线程,也就是一个火车头最多可以跑100个线程,平均采集一章大概时间为1秒(加上列表采集所耗时间进行平均),10万本书的站,大概5000万加的章节,数据采集完毕大概需要一周时间,这是在你服务器配置比较好的情况下。然后就是发布,发布不能多线程,那么时间就得翻倍,也就是差不多两个多月时间吧。这也是为什么有人说火车采集小说比较慢的原因了。原始内容采集完了,然后每天就采集更新了,方式如第二点。
那么第二个,就是直接采集每日更新,以前的旧书就不采集了。这样的话,速度会比较快。当时就能用。火车头设置好定时任务,自动触发。
这是火车头采集小说网站的传统方式。
我研究火车头采集一个月,找到一个比较合适的快速采集方式,经多方位,多客户测试,采集10万本书,发布完毕,大概就是两天的时间。
具体时间跟服务器配置有一定的关系,比如,硬盘读写速度快慢、网络带宽(火车头放在服务器上的可以忽略)等,测试2H4G美国服务器,10万本大概两天加几个小时,采集需要花几个小时,发布大概接近两天时间。然后每日定时更新即可。
可百度搜索“九七阅读”查看站点,有书库频道,时间一看就知道了。
有这样的程序 像Discuz的一些插件都可以实现这样的功能 还有之前的一些ASP的程序也是可以的
不过不建议你这样做的 对优化不好
现在的搜索引擎很聪明了 他只会收集原创(第一次发)的内容 你这样做以后蜘蛛就不会到你网站爬网了
建议自己发原创
希望可以帮到你,杨建龙祝您好运!
0条评论