商业源码织梦教程 2023-09-15 23:16:01

dede文章网址匹配规则不能包含怎么为多项

这个问题应该是dedecms的一个bug，53和55都存在这个bug

要解决这个问题的办法是：在网站后台系统基本参数设置里，其它选项，删除非站内链接（选否），然后确定，再清空缓存

首先，你仔细看看是不是按照这个dede的采集规则一步步操作的。

http://jingyanbaiducom/article/86fae34693d6443c49121af0html

还有下面这个，看看能不能帮到你

首页导航

标签名称：channel

标记简介：织梦常用标记，通常用于网站顶部以获取站点栏目信息，方便网站会员分类浏览整站信息

功能说明：用于获取栏目列表

适用范围：全局使用

基本语法：

{dede:channel type='top' row='8' currentstyle="<li><a href='~typelink~' class='thisclass'>~typename~</a> </li>"}

{/dede:channel}

参数说明：

typeid = '0' 栏目ID

reid = '0' 上级栏目ID

row = '100' 调用栏目数

col = '1' 分多少列显示（默认为单列）

type = 'son | sun' son表示下级栏目,self表示同级栏目,top顶级栏目

还有就是如果还是不能解决问题。那就用第三方软件试试，比如火车头就还挺好用的。操作方法也不难。

祝你成功!

1、织梦CMS文章采集

　　新建一个文章采集节点，后台——采集——采集节点管理——增加新节点，选择内容模型为普通文章。

　　设置节点基本信息。目标源码同上篇文章所说，通过查看目标网站源代码后设置，区域匹配模式默认字符串，只有在字符串无法确定区域的时候才用正则表达式，不过一般都用不上。最后就是织梦cms采集的特点之一防盗链模式，如果目标网站有防盗链功能则开启次功能可以成功采集，但是会降低采集速度。次测试目标网站没防盗链功能，所以不开启。

　　列表网站获取规则。同上篇文章分析，列表网址是有规律的可批量生成。这里要说下dedecms的强大之处，不仅获取列表网址的方式能灵活组合，而且如果目标网站整站使用的都是同一个模板，就可以启用“多栏目通配(#)”功能，通过设置后一个采集规则就可以采集整站并发布不同栏目了，而不需要一个栏目对应一个规则。(此功能小编会另外单独写一篇教程)

　　文章网址匹配规则。查看目标列表页源代码，设置要采集文章网址区域的开始和结束的html，接下来又是dedecms特点之一，如果采集网址页面链接有可直接设置采集为缩略图，非常方便。对区域网址进行再次筛选功能也有特色，除支持正则表达式外还声明了“必须包含”和“不能包含”的优先级，本篇体验目标站无干扰网址，所以留空。

　　保存并测试，系统会应用前面的设置测试采集网址，完整无误后保存信息并进入下一步内容采集设置。

　网页内容获取规则。系统会默认一个采集url为预览网址，另外内容分页导航所在的区域匹配规则也很灵活，除了和phpcms一样有全“部列出的分页列表模式”、“上下页形式或不完整的分页列表模式”外，还多了一个“分页列表规则”。

　　各字段内容采集，dedecms的内容匹配规则和phpcms一样：“起始无重复HTML[内容]结尾无重复HTML”，[内容]即为所采内容。过滤规则是{dede:trim replace=""}规则{/dede:trim}，多个规则的话一个一行，如果要替换成指定的值，则只要在replace=""的引号里设置即可。

　　其中，内容摘要、关键字、缩略图系统会用正则进行自动匹配，我们只需设置过滤内容即可。其余字段分别设置匹配规则和过滤规则，系统同样自带了几个常用的过滤规则，但是点击“常用规则”后为弹出小窗口模式，稍微有点不方便。针对本测试的标题采集，以下两种方式都是可以的，如图：

　　文章作者、文章来源和发布时间字段一样采集，但是此版本dedecms在这几个字段下没有“自定义处理接口”了，如果有的话会稍显灵活，例如设置固定值可直接用“@me="固定值"”实现。现在不能用自定义处理接口设定固定值，也没有字段值设置，只能通过采集网页某一固定值然后用替换。如图：

　　dedecms的文章内容采集非常强大，除了匹配规则和过滤规则，还有个“自定义处理接口”。如果你有php基础的话，可以通过此功能对采集结果@me进行各种处理，强大到不行啊。以后小编会专门发一篇此功能的讲解文章。最后，不能直接在采集管理处新增采集字段，只能在对应内容模型管理中增加字段，采集管理会自动增加。如小编在“普通文章”内容模型那增加了一个“chinaz字段”，则采集设置中自动增了一个“chinaz字段”项目。

　　保存并测试，查看列表测试信息和网页规则测试，检查是否正确，无误后确定并开始采集。进入采集指定节点设置页面，因为小编之前有测试一遍，所以有60个历史种子网址，即小编之前已经采集了60个网址，另外还有几个选项大家按需求选择。

　　点开始采集网页，出现此采集提示信息显示采集进度，不知道是小编人品不好还是dede采集本身缺点，经常会浏览器没反应，采集停止在那，只有手动点击了才会继续。

采集完成后点右上角的“导出数据”，然后选择导出栏目，如果你在前面启用了“多栏目通配(#)”并指定了栏目ID，则要勾选此处的“批量采集选项”，其余选项根据自己需求选择，然后确定。如果勾选了“完成后自动生成导入内容HTML”则会在导入完后自动更新网站，否则就要先手动去生成。

　　关于采集的优与却点，这个主要看个人是怎么认为的，基本上国内的cms系统都带采集，因方便快捷，普遍被站长们接受，因选择采集过后，就不需要挖空心思的去想如何创建站内容。当然采集不好是因为大家都去采集，可以说大量的内容堆积形成了一个垃圾圈，当然搜索引擎也是拒绝收录或者被k掉。这里我们就不谈采集优点与缺点，因为我自己也是很矛盾的，虽然我认为采集不够好，但我每天仍然会用到它。以下仅仅是我个人的看法，希望能给新手一定的帮助。

　　采集也就是我们把别人网站上的内容给弄到自己的网站上去。你可以用Ctrl+C 然后再Ctrl+V。但是复制与粘贴不同的是，它批量的，是程序智能化的。你手工能在一分钟能复制多少文章可想而知，当然还要分开文章标题和内容，甚至发布时间，作者等。如果用采集就不一样了，在性能允许的情况下，它可以一分钟采集几百篇文章。从而大大减轻了站长们的时间。

　　国内的cms一般都带采集功能，并且都在不断完善提升之中，还有一些原来没有的采集功能的论坛及博客程序，都会有人开发出采集插件。因个人比较喜欢使用dedecms也就是(织梦)所以对其他的cms系统不是很了解，但是网络上相关教程很多，大家可以自行查找后，阅读以下即可。除此之外还有哪些程序自带采集了，我们可以百度以下看看，很多的如php168、phpcms、帝国cms、动易、新云、等等。

　　下面会讲一个比较强大的采集器，那就是火车头，火车采集器是用来批量采集网页，论坛等的内容，直接保存到数据库或发布到网站的一种工具，他们可以根据用户设定的规则自动采集原网页，获取格式网页中需要的内容。

　　DEDECMS:功能强大，新手需要多学习，才能掌握。功能无比强大，相信用过的人都知道。不过DEDE有词语替换，只要你导入词语替换数据，那么它就可以执行替换了，这对伪原创还是比较好的。

　　php168:

　　1自带新浪新闻采集系统,可以很方便自由的采集新浪国内、国际、社会、娱乐、科技、财经、军事、体育精选新闻。

　　2可以自由添加采集参数,并且可以共享采集参数,即可把采集参数导出来,分享给其他人。

　　3可以很方便的采集类似奇虎这样的新闻，也就是说你可以做一个像奇虎这样的站。

　　帝国cms:

　　1使用简单：无需会任何程序，只需在相应的内容加上相应的标签即可。

　　2多重过滤：同一链接可设置不重复采集;设置采集关键字(不包含不采集);内容字符替换;广告过滤;过滤相似信息;过滤标题相同信息;可设置采集前几条记录。

　　phpcms：整个站点内容页(注意是内容页，就是文章的详细展示页面)的通用规则，这里如果设置好后，以后添加采集任务时，会自动继承这个规则，就会省很多工作量。

　　火车头：功能强大自定义参数，不过新手可以参照官方教程一步步操作。像这种采集软件，一般只要在网站程序没有采集功能，或者功能不够强大达不到自己要求的朋友可以去使用看看。个人感觉，火车头是比较不错的采集软件。

　　采集的优缺点

　　虽然本文章没有提到，这里还是给新手朋友们仔细的分析一下。

　　优点：可以花少量的时间来完成很多文章的分布。一个小时可以发上千篇文章。减少了网站维护和写作时间，给站长提供了方便。

　　缺点：内容高度重复，因为你是采集别人的文章，所以你和别人的文章大量的重复，就算你是伪原创也同样，你想想如果100个人都使用伪原创工具，那和采集的不还是同样的吗先不谈伪原创工具的好与不好，如果互联网上充斥着那样的文章，却一点可读性的价值都没有，你觉得你的网站能留得住客户吗网站内容的重复带来的结果就只有，收录少，排名低。

　　建议新手朋友们的方法

　　在网上看到一些人说做网站是很简单的，只要把程序安装上去，然后采集就ok了。还说什么采集比较适合新手，个人觉得就是扯淡，一个网站没有可读性，有价值的文章，你觉得你这样能留住客户吗我希望的是新手尽可能的少用采集，多充实一些比较有价值的文章，也就是你的原创文章，不要一咕噜的采集。以下说几点希望对新手有用。

　　1新手用了采集，那么就会产生惰性，以后就算做站，都会选用采集器。

　　2新手建站本身就是个学习的过程。自己写文章是很重要的。先不说你是否具备能写，或者你写不出来，你改别人的文章也是好的。这样不仅比伪原创的程序高，而且可读性也较高。最重要的是新手朋友可以从中不断学习与提升自己的知识。

　　3 误导了新手对建站的看法。本来建站就是服务网民，给自己带来收益。而使用采集过后，特别是那些伪原创工具一旦使用过后，那就是向前看，而不管网民是否喜欢。这样会让新手变得目光短浅，不利于长期的发展。

　　4 不利于新手学习seo，如果用采集器，那基本上就用不到seo了，seo是一个理论+实践的过程。只有在实践中论证理论，改变自身错误的看法，才能真正的把握seo的核心部分。

　　个人认为新手尽量靠自己的手来写文章，尽管写的不好，我相信以后会好的，如果是想赚钱，那也不要是使用采集器，因为网络上赚钱不是你想的那么简单。别以为，建个网站，就有钱了。这个方法如果在前两年还行得通，而现在却行不通了。如果你要想赚钱，必须有一个过程。所以对新手说，每天写一篇文章都可以，然后不停地学习、实践，我相信目标会离你越来越近。

dedecms在采集时如果遇到会自动采集和它的属性的(譬如头条,幻灯片,推荐等) 但如果没有就只能显示无省略图了,这个没办法改变的, 如果觉得不美观你可以在修改时添加相关的并作相应的设置

如果你要启用字符串混淆来防采集，请在文档模板需要的字段加上 function='RndString(@me)' 属性，如：{dede:field name='body' function='RndString(@me)'/}。

更新缓存，再更新html

1、建议尝试arcpagelist 标签，示例如下：

{dede:arclist flag='c' titlelen=42 row='16' tagid='dedecms' pagesize='8'}

<li><a href="[field:arcurl/]">[field:title/]</a></li>{/dede:arclist}

</ul>

<div>{dede:arcpagelist tagid='dedecms'/}</div>

2、使用php语句编写

3、一次读取20条-100条，数目不超过1000条，基本资源影响不大，用js做分页。

规则内容文章如果新手

DABAN RP主题是一个优秀的主题，极致后台体验，无插件，集成会员系统
网站模板库 » dede文章网址匹配规则不能包含怎么为多项

商业源码钻石

分享到：

dede文章网址匹配规则不能包含怎么为多项

商业源码钻石

0条评论

发表评论取消回复

商业源码 钻石

商业源码钻石