帝国cms用火车头采集的文章 不自动提取文章简介和

帝国cms用火车头采集的文章 不自动提取文章简介和,第1张

这个问题应该是dedecms的一个bug,53和55都存在这个bug

要解决这个问题的办法是:在网站后台系统基本参数设置里,其它选项,删除非站内链接(选否),然后确定,再清空缓存

首先,你仔细看看是不是按照这个dede的采集规则一步步操作的。

http://jingyanbaiducom/article/86fae34693d6443c49121af0html

还有下面这个,看看能不能帮到你

首页导航

<li><a href="{dede:globalcfg_cmsurl/}/">首页</a></li>

标签名称:channel

标记简介:织梦常用标记,通常用于网站顶部以获取站点栏目信息,方便网站会员分类浏览整站信息

功能说明:用于获取栏目列表

适用范围:全局使用

基本语法:

{dede:channel type='top' row='8' currentstyle="<li><a href='~typelink~' class='thisclass'>~typename~</a> </li>"}

<li><a href=' http://www63iicom'>小公主</a> </li>

{/dede:channel}

参数说明:

typeid = '0' 栏目ID

reid = '0' 上级栏目ID

row = '100' 调用栏目数

col = '1' 分多少列显示(默认为单列)

type = 'son | sun' son表示下级栏目,self表示同级栏目,top顶级栏目

还有就是如果还是不能解决问题。那就用第三方软件试试,比如火车头就还挺好用的。操作方法也不难。

祝你成功!

这个要在火车头里面设置,因为你的火车头发布模块已经有了 内容简介标签,如果你要帝国cms自己提取内容简介, 那火车头里的 内容标签 就要采集内容是空的。那发上去就没有内容了,帝国cms就动提取了。 第二就是在火车头 内容标签 采集好 内容简介内容 然后发布。

关于,你的火车头帝国cms发布模块配置 要支持 帝国cms远程保存,取第一张为标题图。

或者是 直接采集一个 地址放上去。

为了得到一个标准的内容,在采集上必须下足功夫才行!

我对标准内容的衡量:

1每一个段落都是

2没有多余的HTML标签和与主题无关的字符

提取数据方式

选择 正则提取,组合结果填[参数1]

有些内容开始和结尾并没有p标签,换行是用br标签来完成,所以我们要创造p标签

数据处理

第一步把火车头默认的HTML标签排除中没有的标签都替换为空;如果发布到免费平台,还要过滤些无法转换的HTML特殊字符;另外就是与正文无关的内容,如中间的广告什么的也可在这里清除。

纯正则替换 |||[\s\S] 为空

其中'[\s\S]'是去除与正文内容无关的规则案例,不用的话可以去掉;要去除HTML特殊字符,在末尾加入'|&;'即可

第二步:把非标准的段落标签替换为标准的p标签。

1、把普通换行替换为段落换行,用内容替换

2、把形式的标签都替换成,同时也要替换为

内容替换 div()> 为 p> 内容替换为

那么这里我为什么不用纯正则 div>|p> 替换为 p> 呢,因为比较常出现的

第三步:清理工作

1、HTML标签排除

点击全选,把 '所有标签

2、清理p标签前后的空白字符,如果不清理干净会影响到后面的规则

纯正则替换 \s()\s 为 $1

3、删除所有空段落

一般情况下只要设置了 内容替换当文中出现嵌套标签

如果这组嵌套标签出现在正文中间,这问题不难解决,只要在

){2,}|(){2,} 为 $1$2 这样无论嵌套多少层标签,最终都只剩下一对,之后内容替换

如果出现在文章开头或结尾,那就比较麻烦了。为了照顾非p标签换行的文章,我们在正则提取时已经设置好 组合结果为

[参数1],那么一旦出现嵌套标签,会出现如下情况

1、针对采集页的规则,从一开始就把这些嵌套标签替换为空。缺点是不同网站的采集页规则不同,工作量就增强了。

2、进行多次

符合我们的要求。一般设置3次够了,大多数网站的标签不会超过3次嵌套。需要注意的是,采用这种方法就需要把多个p标签替换为1个的正则替换规则往后移。

3、清理多余的p标签,纯正则替换

只要连续出现2个以上的或都会替换成一个

4、清理可能出现的标签,并把文中所有连续2个以上的空格过滤掉

纯正则替换 |\s{2,} 为空

p标签和img标签外的所有标签都会被过滤掉,不用担心有杂七杂八的标签出现

为什么要选择2个以上的空格替换为空呢?因为文章中出现一个空格是有利于整洁的,如果包含英文那就更需要留这个空格了,而2个以上的空格一般是多余的,对正文没有意义。

{dede:field name='pdfurl' runphp='yes'} if(@me=='') { @me = '' ;} else { @me = "<iframe src='https://chengkaoahcn/pdf/web/viewerhtmlfile=@me' width="100%"height="800px"></iframe>"; } {/dede:field}

DABAN RP主题是一个优秀的主题,极致后台体验,无插件,集成会员系统
网站模板库 » 帝国cms用火车头采集的文章 不自动提取文章简介和

0条评论

发表评论

提供最优质的资源集合

立即查看 了解详情