WordPress个别文章怎么禁止蜘蛛抓取
WordPress由于是开源的博客程序,全世界很多用户喜爱。也就会产生许多个性需求。
例如,一些文章我们可能不希望搜索引擎抓取,这可以通过robots实现,但很麻烦。 代码添加一个屏蔽功能更为方便
一、设置方法
方法依然很简单,几段代码就实现了。我们在自己主题文件中找到“functions.php”文件,不保证每个主题文件名称都完全一致,但是绝大多数是的。
然后把下面代码添加到functions.php”文件中。提示:如果你的WordPress站点开启了页面缓存,此功能无效!!
// 站点开启了页面缓存,此功能无效
function ludouse_add_custom_box() {
if (function_exists('add_meta_box')) {
add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'post', 'side', 'low');
add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'page', 'side', 'low');
}
}
add_action('add_meta_boxes', 'ludouse_add_custom_box');
function ludou_allow_se() {
global $post;
//添加验证字段
wp_nonce_field('ludou_allow_se', 'ludou_allow_se_nonce');
$meta_value = get_post_meta($post->ID, 'ludou_allow_se', true);
if($meta_value)
echo '<input name="ludou-allow-se" type="checkbox" checked="checked" value="1" /> 屏蔽搜索引擎';
else
echo '<input name="ludou-allow-se" type="checkbox" value="1" /> 屏蔽搜索引擎';
}
// 保存选项设置
function ludouse_save_postdata($post_id) {
// 验证
if ( !isset( $_POST['ludou_allow_se_nonce']))
return $post_id;
$nonce = $_POST['ludou_allow_se_nonce'];
// 验证字段是否合法
if (!wp_verify_nonce( $nonce, 'ludou_allow_se'))
return $post_id;
// 判断是否自动保存
if (defined('DOING_AUTOSAVE') && DOING_AUTOSAVE)
return $post_id;
// 验证用户权限
if ('page' == $_POST['post_type']) {
if ( !current_user_can('edit_page', $post_id))
return $post_id;
}
else {
if (!current_user_can('edit_post', $post_id))
return $post_id;
}
// 更新设置
if(!empty($_POST['ludou-allow-se']))
update_post_meta($post_id, 'ludou_allow_se', '1');
else
update_post_meta($post_id, 'ludou_allow_se', '0');
}
add_action('save_post', 'ludouse_save_postdata');
// 对于设置不允许抓取文章和页面
// 禁止搜索引擎抓取,返回404
function do_ludou_allow_se() {
// 本功能只对文章和页面有效
if(is_singular()) {
global $post;
$is_robots = 0;
$ludou_allow_se = get_post_meta($post->ID, 'ludou_allow_se', true);
if(!empty($ludou_allow_se)) {
// 下面是爬虫Agent判断关键字数组
// 有点简单,自己优化一下吧
$bots = array(
'spider',
'bot',
'crawl',
'Slurp',
'yahoo-blogs',
'Yandex',
'Yeti',
'blogsearch',
'ia_archive',
'Google',
'baidu'
);
$useragent = $_SERVER['HTTP_USER_AGENT'];
if(!empty($useragent)) {
foreach ($bots as $lookfor) {
if (stristr($useragent, $lookfor) !== false) {
$is_robots = 1;
break;
}
}
}
// 如果当前文章/页面禁止搜索引擎抓取,返回404
// 当然你可以改成403
if($is_robots) {
status_header(404);
exit;
}
}
}
}
add_action('wp', 'do_ludou_allow_se');
二、优化方法
当我们把上面代码添加到主题“functions.php”后,在WordPress后台的文章编辑页面就会出现一个文件屏蔽搜索引擎按钮,如果你想某篇文章不被搜索引擎抓取勾选即可。
但上面的代码是当勾选后,勾选的文章被搜索引擎访问时返回的状态是404,如果你担心返回404死链会影响SEO,那么我们可以使用下面代码。
但前提你先在主题文件的“header.php”中添加meta声明告诉搜索引擎不要收录本页面。
<meta name="robots" content="noindex,noarchive" />
并且你主题header.php文件中必须有以下代码:
wp_head();
然后再在主题“functions.php”文件中添加下面优化代码。当然如果出现问题的话,我们可以不选择使用优化代码,因为你设置不要收录的页面绝对是极少数的,所以对搜索引擎也起不了多大的影响。
// 站点开启了页面缓存,此功能无效
function ludouse_add_custom_box() {
if (function_exists('add_meta_box')) {
add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'post', 'side', 'low');
add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'page', 'side', 'low');
}
}
add_action('add_meta_boxes', 'ludouse_add_custom_box');
function ludou_allow_se() {
global $post;
//添加验证字段
wp_nonce_field('ludou_allow_se', 'ludou_allow_se_nonce');
$meta_value = get_post_meta($post->ID, 'ludou_allow_se', true);
if($meta_value)
echo '<input name="ludou-allow-se" type="checkbox" checked="checked" value="1" /> 屏蔽搜索引擎';
else
echo '<input name="ludou-allow-se" type="checkbox" value="1" /> 屏蔽搜索引擎';
}
// 保存选项设置
function ludouse_save_postdata($post_id) {
// 验证
if ( !isset( $_POST['ludou_allow_se_nonce']))
return $post_id;
$nonce = $_POST['ludou_allow_se_nonce'];
// 验证字段是否合法
if (!wp_verify_nonce( $nonce, 'ludou_allow_se'))
return $post_id;
// 判断是否自动保存
if (defined('DOING_AUTOSAVE') && DOING_AUTOSAVE)
return $post_id;
// 验证用户权限
if ('page' == $_POST['post_type']) {
if ( !current_user_can('edit_page', $post_id))
return $post_id;
}
else {
if (!current_user_can('edit_post', $post_id))
return $post_id;
}
// 更新设置
if(!empty($_POST['ludou-allow-se']))
update_post_meta($post_id, 'ludou_allow_se', '1');
else
update_post_meta($post_id, 'ludou_allow_se', '0');
}
add_action('save_post', 'ludouse_save_postdata');
// 对于设置不允许抓取文章和页面
// 禁止搜索引擎抓取,返回404
function do_ludou_allow_se() {
// 本功能只对文章和页面有效
if(is_singular()) {
global $post;
$is_robots = 0;
$ludou_allow_se = get_post_meta($post->ID, 'ludou_allow_se', true);
if(!empty($ludou_allow_se)) {
// 下面是爬虫Agent判断关键字数组
// 有点简单,自己优化一下吧
$bots = array(
'spider',
'bot',
'crawl',
'Slurp',
'yahoo-blogs',
'Yandex',
'Yeti',
'blogsearch',
'ia_archive',
'Google',
'baidu'
);
$useragent = $_SERVER['HTTP_USER_AGENT'];
if(!empty($useragent)) {
foreach ($bots as $lookfor) {
if (stristr($useragent, $lookfor) !== false) {
$is_robots = 1;
break;
}
}
}
// 如果当前文章/页面禁止搜索引擎抓取,返回404
// 当然你可以改成403
if($is_robots) {
echo "<meta name="robots" content="noindex,noarchive" />\n";
}
}
}
}
add_action('wp_head', 'do_ludou_allow_se');
0条评论