dedecms用火车头采集问题?

dedecms用火车头采集问题?,第1张

方法/步骤

1、网站标题seo优化技巧:

列表页标题优化技巧:把列表文件中的<title></title>改为栏目名称-seo标题-网站名称即<title>{dede:fieldtitle/}-{dede:fieldseotitle

/}-{dede:globalcfg_webname/}</title>

2、内容页标题优化技巧:把内容页文件中的<title></title>改为文章标题-网站名称<title>{dede:fieldtitle/}-{dede:globalcfg_webname/}</title>

3、网站url路径的优化技巧:dede默认的路径名称是栏目的拼音,然而栏目下的文章内容的默认url路径是栏目路径/年/月日/文章id的形式,文章的路径默认就增加了(年/月日/)2层目录,不利于搜索引擎的抓取,应该让网址规范化改为栏目路径/文章idhtml。

具体操作方法如下:在栏目修改哪里的高级选项里有个文章命名规则:默认是这样的{typedir}/{Y}/{M}{D}/{aid}html,把它改成{typedir}/{aid}html或者你把内容都放在一个文件夹里

a/{aid}html这样的话路径就比较规范化了,有利于搜索引擎的抓取。

4、做一个404页面:在主机控制面板开启404功能,然后做一个404文件并上传404htm页面并放入到根目录下

5、做好robots文件并上传网站根目录,文件内容:模板里的,css等不需要蜘蛛爬行,upload里的附件不需要蜘蛛爬行,具体格式:

6、js广告的优化:网站通用的js可以保存到一个文件比如把常用的函数保存到commonjs里,尽量不用dede默认的广告插件,我发现那个广告插件不如直接自己写js速度快。另外如果网站头部有js广告的话,打开的时候可能影响速度,解决方法:可以用一个层,把js放到底部,然后用css绝对定位到头部你需要的位置这样就不影响速度了。另外给大家提醒下,广告文件名和文件目录最好别用ad

ads

guanggao之类的名称,因为如果用这类名称会导致遨游浏览器屏蔽你的广告,虽说遨游用户不多,但是细节问题也要注意啊。

7、织梦dedecms网站seo优化技巧一般就这几项,做好这些会提高网站的收录量,优化知识到此结束,希望可以帮助大家。

完全没看懂你想问什么,你是想说需要采集某个标签然后发布到DEDE还是其他的意思?

如果是采集标签,首先讲采集部分,需要针对该采集部分添加一个标签去采集,具体的就是在火车头的那个采集规则里添加,

发布部分需要在DEDE中后台添加字段,然后修改火车头发布模块(如果dede原本就带有的话就不需要修改)

dedecms在采集时如果遇到会自动采集和它的属性的(譬如头条,幻灯片,推荐等) 但如果没有就只能显示无省略图了,这个没办法改变的, 如果觉得不美观你可以在修改时添加相关的并作相应的设置

dede数据库字段说明:dede_addonarticle 附加文章表

aid int(11) 文章编号

typeid int(11) 分类栏目编号

body mediumtext 文章内容

dede_addonflash 附加Flash表

aid int(11) FLASH编号

typeid int(11) 分类栏目编号

filesize varchar(10) 文件大小

playtime varchar(10) 播放时长

flashtype varchar(10) 作品类型

flashrank smallint(6) 作品等级

width smallint(6) 影片宽度

height smallint(6) 影片高度

flashurl varchar(80) FLASH地址

dede_addonimages 附加图集表

aid int(11) 图集编号

typeid int(11) 分类栏目编号

pagestyle smallint(6) 表现方式(1单页显示 2分多页显示 3多行多列展示)

maxwidth smallint(6) 大图限制宽度

imgurls text 集内容(标签存放)

row smallint(6) 多列式参数(行)

col smallint(6) 多列式参数(列)

isrm smallint(6) 是否下载远程

ddmaxwidth smallint(6) 小宽度限制

dede_addonsoft 附加软件表

aid int(11) 软件编号

typeid int(11) 分类栏目编号

filetype varchar(10) 文件类型

language varchar(10) 界面语言

softtype varchar(10) 软件类型

accredit varchar(10) 授权方式

os varchar(30) 运行环境

softrank int(11) 软件等级

officialUrl varchar(30) 官方网址

officialDemo varchar(50) 程序演示地址

softsize varchar(10) 软件大小

softlinks text 软件下载链接列表

introduce text 软件介绍

dede_addonspec 附加专题表

aid int(11) 专题编号

typeid int(11) 分类栏目编号

note text 专题内容(仅存放标签代码)

dede_admin管理员信息表

ID int(10) 自动编号

usertype int(10) 用户类型

userid varchar(30) 用户登录ID

pwd varchar(50) 用户密码

uname varchar(20) 用户笔名

tname varchar(30) 真实姓名

email varchar(30) 电子邮箱

typeid int(11) 负责频道(0表示全部)

logintime datetime 登录时间

loginip varchar(20) 登录IP

dede_admintype 系统用户组管理表

rank smallint(6) 组级别编号

typename varchar(30) 组名称

system smallint(6) 是否为系统默认组

purviews text 权限列表

dede_arcatt文档自定义属性表

att smallint(6) 编号

attname varchar(30) 属性名称

dede_archives 文章表

ID int(11) 自动编号

typeid int(11) 所属主栏目编号

typeid2 int(11) 所属副栏目编号

sortrank int(11) 文章排序(置顶方法)

iscommend smallint(6) 是否推荐

ismake smallint(6) 是否生成静态

channel int(11) 文章所属模型

arcrank smallint(6) 阅读权限

click int(11) 点击次数

money smallint(6) 消费点数

title varchar(80) 标题

shorttitle varchar(36) 简略标题

color varchar(10) 标题颜色

writer varchar(30) 作者

source varchar(50) 来源

litpic varchar(100) 缩略图

pubdate int(11) 录入时间

senddate int(11) 发布时间

arcatt smallint(6) 自定属性(att)

adminID int(11) 发布管理员ID

memberID int(11) 发布会员ID

description varchar(250) 摘要

keywords varchar(60) 关键词

templet varchar(60) 文档模板

lastpost int(11) 最近评论时间

postnum int(11) 评论数目

redirecturl varchar(150) 跳转网址

mtype int(11) 用户自定义分类

userip varchar(20) 用户IP

locklikeid smallint(6) 是否锁定相关文章

likeid varchar(240) 相关文章ID

dede_arcrank 阅读权限表

ID int(10) 自动编号

rank smallint(10) 权限等级

membername varchar(20) 等级名称

adminrank smallint(10) 管理等级

money int(11) 消费点数

dede_arctype 栏目管理表

ID int(10) 栏目编号(自动编号)

reID int(10) 父栏目编号

topID int(10)

sortrank smallint(6) 排序编号

typename varchar(30) 栏目名称

typedir varchar(100) 栏目目录

isdefault smallint(6) 栏目列表选项(1链接到默认页 0链接到列表第一页 -1使用动态页)

defaultname varchar(20) 默认页的名称

issend smallint(6) 是否支持投稿

channeltype smallint(6) 频道类型

maxpage int(11) 保留

ispart smallint(6) 栏目属性

corank smallint(6) 浏览权限

tempindex varchar(60) 封面模板

templist varchar(60) 列表模板

temparticle varchar(60) 文章模板

tempone varchar(60) 单独页面模板

namerule varchar(50) 文章命名规则

namerule2 varchar(50) 列表命名规则

modname varchar(30) 模板名称

description varchar(200) 栏目介绍

keywords varchar(100) 关键词

moresite smallint(6) 多站点支持

siterefer smallint(6) 多站点站点根目录属性

sitepath varchar(60) 多站点站点根目录

siteurl varchar(60) 多站点绑定域名

ishidden smallint(6) 是否隐藏栏目

dede_sgpage 单页

上面是一些常用字段,可以在dede后台-》系统-》SQL命令行工具执行sql语句来批量修改!

  关于采集的优与却点,这个主要看个人是怎么认为的,基本上国内的cms系统都带采集,因方便快捷,普遍被站长们接受,因选择采集过后,就不需要挖空心思的去想如何创建站内容。当然采集不好是因为大家都去采集,可以说大量的内容堆积形成了一个垃圾圈,当然搜索引擎也是拒绝收录或者被k掉。这里我们就不谈采集优点与缺点,因为我自己也是很矛盾的,虽然我认为采集不够好,但我每天仍然会用到它。以下仅仅是我个人的看法,希望能给新手一定的帮助。

  采集也就是我们把别人网站上的内容给弄到自己的网站上去。你可以用Ctrl+C 然后再Ctrl+V。但是复制与粘贴不同的是,它批量的,是程序智能化的。你手工能在一分钟能复制多少文章可想而知,当然还要分开文章标题和内容,甚至发布时间,作者等。如果用采集就不一样了,在性能允许的情况下,它可以一分钟采集几百篇文章。从而大大减轻了站长们的时间。

  国内的cms一般都带采集功能,并且都在不断完善提升之中,还有一些原来没有的采集功能的论坛及博客程序,都会有人开发出采集插件。因个人比较喜欢使用dedecms也就是(织梦)所以对其他的cms系统不是很了解,但是网络上相关教程很多,大家可以自行查找后,阅读以下即可。除此之外还有哪些程序自带采集了,我们可以百度以下看看,很多的如php168、phpcms、帝国cms、动易、新云、等等。

  下面会讲一个比较强大的采集器,那就是火车头,火车采集器是用来批量采集网页,论坛等的内容,直接保存到数据库或发布到网站的一种工具,他们可以根据用户设定的规则自动采集原网页,获取格式网页中需要的内容。

  DEDECMS:功能强大,新手需要多学习,才能掌握。功能无比强大,相信用过的人都知道。不过DEDE有词语替换,只要你导入词语替换数据,那么它就可以执行替换了,这对伪原创还是比较好的。

  php168:

  1自带新浪新闻采集系统,可以很方便自由的采集新浪国内、国际、社会、娱乐、科技、财经、军事、体育精选新闻。

  2可以自由添加采集参数,并且可以共享采集参数,即可把采集参数导出来,分享给其他人。

  3可以很方便的采集类似奇虎这样的新闻,也就是说你可以做一个像奇虎这样的站。

  帝国cms:

  1使用简单:无需会任何程序,只需在相应的内容加上相应的标签即可。

  2多重过滤:同一链接可设置不重复采集;设置采集关键字(不包含不采集);内容字符替换;广告过滤;过滤相似信息;过滤标题相同信息;可设置采集前几条记录。

  phpcms:整个站点内容页(注意是内容页,就是文章的详细展示页面)的通用规则,这里如果设置好后,以后添加采集任务时,会自动继承这个规则,就会省很多工作量。

  火车头:功能强大自定义参数,不过新手可以参照官方教程一步步操作。像这种采集软件,一般只要在网站程序没有采集功能,或者功能不够强大达不到自己要求的朋友可以去使用看看。个人感觉,火车头是比较不错的采集软件。

  采集的优缺点

  虽然本文章没有提到,这里还是给新手朋友们仔细的分析一下。

  优点:可以花少量的时间来完成很多文章的分布。一个小时可以发上千篇文章。减少了网站维护和写作时间,给站长提供了方便。

  缺点:内容高度重复,因为你是采集别人的文章,所以你和别人的文章大量的重复,就算你是伪原创也同样,你想想如果100个人都使用伪原创工具,那和采集的不还是同样的吗先不谈伪原创工具的好与不好,如果互联网上充斥着那样的文章,却一点可读性的价值都没有,你觉得你的网站能留得住客户吗网站内容的重复带来的结果就只有,收录少,排名低。

  建议新手朋友们的方法

  在网上看到一些人说做网站是很简单的,只要把程序安装上去,然后采集就ok了。还说什么采集比较适合新手,个人觉得就是扯淡,一个网站没有可读性,有价值的文章,你觉得你这样能留住客户吗我希望的是新手尽可能的少用采集,多充实一些比较有价值的文章,也就是你的原创文章,不要一咕噜的采集。以下说几点希望对新手有用。

  1新手用了采集,那么就会产生惰性,以后就算做站,都会选用采集器。

  2新手建站本身就是个学习的过程。自己写文章是很重要的。先不说你是否具备能写,或者你写不出来,你改别人的文章也是好的。这样不仅比伪原创的程序高,而且可读性也较高。最重要的是新手朋友可以从中不断学习与提升自己的知识。

  3 误导了新手对建站的看法。本来建站就是服务网民,给自己带来收益。而使用采集过后,特别是那些伪原创工具一旦使用过后,那就是向前看,而不管网民是否喜欢。这样会让新手变得目光短浅,不利于长期的发展。

  4 不利于新手学习seo,如果用采集器,那基本上就用不到seo了,seo是一个理论+实践的过程。只有在实践中论证理论,改变自身错误的看法,才能真正的把握seo的核心部分。

  个人认为新手尽量靠自己的手来写文章,尽管写的不好,我相信以后会好的,如果是想赚钱,那也不要是使用采集器,因为网络上赚钱不是你想的那么简单。别以为,建个网站,就有钱了。这个方法如果在前两年还行得通,而现在却行不通了。如果你要想赚钱,必须有一个过程。所以对新手说,每天写一篇文章都可以,然后不停地学习、实践,我相信目标会离你越来越近。

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » dedecms用火车头采集问题?

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情