深圳网站设计建设-电商代运运营公司-网站排名SEO优化-实战营网络

robots.txt文件禁止抓取为什么还被收录

翁源SEO 来源:www.shizhanying.net

  偶然候没有愿望搜寻引擎抓与某些内容能够写robots.txt文件放到根目次,按理蜘蛛会起首读与那个文件,依照robots协定抓与响应的内容。然则很多站少们发明,蜘蛛其实不太遵照那个协定。

  为考证那个题目,做了测试后发明,若是蜘蛛已抓与并有索引、快照了,那个时刻再写robots.txt文件便没有遵照那个协定了,正常正在robots中制止抓与文件夹以下,

  Disallow:/about/

  借没有释怀,正在页里里增长<meta>申明

  <meta name="robots" content="noindex,follow" />

  那个申明的意义是通知蜘蛛没有竖立索引,能够沿着途径继承抓与内容。认为那就可以让已支录的快照删除,有网友道那需求守候,时光皆道欠好。

  百度有个划定规矩是判定页里品质,若是多个页里反复内容过多,会被降权,以至移出索引库。守候很少人间才会被移出索引库,正常调解过的网站的支录量会增加,但没有是年夜幅度增加,是由于有些渣滓页里正在算法更新后被移出索引库罢了,那关于正规SEO做法的站少来讲是坏事,渣滓页里会影响到网站的排名。

  robots战nofollow标签皆能掌握蜘蛛抓与局限,而两个的用法没有尽雷同。

  简朴道,nofollow重要是为了集合某个页里的权重,而robots.txt文件是掌握全部网站的蜘蛛抓与局限。那么题目去了,为何许多时刻蜘蛛没有遵照咱们的robots协定呢烦忙(一些渣滓蜘蛛是完整没有遵照robots协定的)咱们道的蜘蛛重要指百度蜘蛛取谷歌蜘蛛。

  一、誊写毛病

  robots.txt文件的誊写花样是一止一止的写,不克不及连着写,如

  User-agent: * Disallow: /cgi-bin/ Disallow: /tmp/

  二、准确誊写

  每一个纪录皆需求另起一止,每一个纪录里没有许可空止,空止用去支解差别的纪录。如;

  User-agent: *

  Disallow: /cgi-bin/

  Disallow: /tmp/

  许多时刻搜寻引擎抓与了您 robots.txt 文件没有许可抓与的内容没有是由于机械人没有遵照,而是从抓与到索引到展示那个历程需求一段时光,当搜寻引擎已抓与了,您才更新,那么之前抓与的是没有会那么快删失落的,删除周期其实不纪律,通常为算法更新后失效的状况多些。

更多相关推荐