由于我的博客在言论方向可能会比较敏感,同时也为了避免快递上门,我给这个博客的robots设置屏蔽百度等搜索引擎。

我没有屏蔽谷歌等搜索引擎,因为我觉得在允许的范围内可以让别人方便的找到我。

但是有的文章即使我公开它,也不想让这篇文章的内容或部分被搜索引擎或爬虫抓取。

因为我以前在腾讯微博黑历史很多,到最后不得不删号保平安。

但即使删号,我发表的内容仍然有很多被爬虫抓取并且挂在所谓的爬虫站点……

此时此刻我当然不希望我的WP博客文章也被这种流氓的东西抓取。

所以这时候就需要一些东西来帮助我的博文免受爬虫访问。

这个东西的原理就是当该页面被访问的时候如果识别访问者是爬虫则返回一个404错误,当然也可以改成其他的。

很简单的一个原理,在博客当前所用的主题的functions.php里直接添加如下代码就可以。

//指定文章屏蔽搜索引擎
// 文章/页面编辑页面添加选项
function ludouse_add_custom_box() {
  if (function_exists('add_meta_box')) {    
    add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'post', 'side', 'low');
    add_meta_box('ludou_allow_se', '搜索引擎', 'ludou_allow_se', 'page', 'side', 'low');
  }
}
add_action('add_meta_boxes', 'ludouse_add_custom_box');
function ludou_allow_se() {
  global $post;
 
  //添加验证字段
  wp_nonce_field('ludou_allow_se', 'ludou_allow_se_nonce');
 
  $meta_value = get_post_meta($post->ID, 'ludou_allow_se', true);
  if($meta_value)
    echo '<input name="ludou-allow-se" type="checkbox" checked="checked" value="1" /> 屏蔽搜索引擎';
  else
    echo '<input name="ludou-allow-se" type="checkbox" value="1" /> 屏蔽搜索引擎';
}
// 保存选项设置
function ludouse_save_postdata($post_id) {
  // 验证
  if ( !isset( $_POST['ludou_allow_se_nonce']))
    return $post_id;
  $nonce = $_POST['ludou_allow_se_nonce'];
  // 验证字段是否合法
  if (!wp_verify_nonce( $nonce, 'ludou_allow_se'))
    return $post_id;
  // 判断是否自动保存
  if (defined('DOING_AUTOSAVE') && DOING_AUTOSAVE)
      return $post_id;
  // 验证用户权限
  if ('page' == $_POST['post_type']) {
    if ( !current_user_can('edit_page', $post_id))
      return $post_id;
  }
  else {
    if (!current_user_can('edit_post', $post_id))
      return $post_id;
  }
 
  // 更新设置
  if(!empty($_POST['ludou-allow-se']))
    update_post_meta($post_id, 'ludou_allow_se', '1');
  else
    update_post_meta($post_id, 'ludou_allow_se', '0');
}
add_action('save_post', 'ludouse_save_postdata');
// 对于设置不允许抓取文章和页面
// 禁止搜索引擎抓取,返回404
function do_ludou_allow_se() {
  // 本功能只对文章和页面有效
  if(is_singular()) {
    global $post;
    $is_robots = 0;
    $ludou_allow_se = get_post_meta($post->ID, 'ludou_allow_se', true);
    if(!empty($ludou_allow_se)) {
      // 下面是搜索引擎Agent判断关键字数组
      // 有点简单,自己优化一下吧
      $bots = array(
            'Baiduspider',
            'Googlebot',
            'sogou spider',
            'Sogou web spider',
            'YodaoBot',
            'Bingbot',
            'Slurp',
            'MSNBot',
            'yahoo-blogs',
            'psbot',
            'Yandex',
            'Yeti',
            'blogsearch',
            'EasouSpider',
            'Mediapartners-Google'
            );
   
      $useragent = $_SERVER['HTTP_USER_AGENT'];
   
      foreach ($bots as $lookfor) {
        if (stristr($useragent, $lookfor) !== false) {
          $is_robots = 1;
          break;
        }
      }
      // 如果当前文章/页面禁止搜索引擎抓取,返回404
      if($is_robots) {
        status_header(404);
        exit;
      }
    }
  }
}
add_action('wp', 'do_ludou_allow_se');

添加保存之后在仪表盘编辑文章页面的右侧最下方有一个屏蔽搜索引擎的选项,勾选就可以了

事实上我一个礼拜之前就使用了这段代码,不过今天刚更新了一下主题就发现失效了。

没关系,重新加上就好了。

2016年1月21日 01:46:27