解决使用七牛云存储导致镜像网站被收录的问题

网站自从放弃了360CDN,使用了七牛云存储和百度云CDN,发现网站访问速度快了不少,但是缓存太详细,导致网站几乎成为静态的了,更新文章也刷新不出来。后来重新设置了缓存程度和时间,发现有一定改善。这次主要谈谈使用七牛云存储后robots.txt如何设置,才不会被搜索引擎收录。这个问题曾苦恼了很长时间,后来看了张戈的博客,明白了不少,在此简单说给大家!

qiniujingxiang

如图所示,我的七牛镜像站点域名已被收录,和源站点内容大致一样,造成重复收录,另外镜像站点与源站点不同步,镜像站点内容有些陈旧。这些都不是我们想看到的,如何解决呢?

要想镜像站点与源站点同步,首先登录七牛云存储,设置个性CDN域名下的缓存机制,改为与源站同步,并且删除之前空间的所有内容,刷新缓存等待更新完毕。

要解决七牛镜像站点被收录的问题,首先要了解robots文件:robots文件可以告诉搜索引擎您网站的哪些页面可以被抓取(Allow),哪些页面不可以被抓取(Disallow)。新建一个robots.txt文件,并添加以下代码,保存后上传到七牛云存储,利用水煮鱼的七牛插件也行。以下代码意思是允许七牛的图片可以被收录,而其他内容不允许被收录。
简单的写法如下:

  1. user-agent: *
  2. Allow: /robots.txt
  3. Allow: /*.ico$
  4. Allow: /*.png$
  5. Allow: /*.jpg$
  6. Allow: /*.jpeg$
  7. Allow: /*.bmp$
  8. Allow: /wp-content/
  9. Disallow: /

然后到百度站长平台检测并更新镜像站点的robots文件,校验是否网站能被收录,如图所示
baiduzhanzhangrobots

Visant

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: