重点内容摘要

robots概述

robot指的是网络机器人,即搜索引擎蜘蛛。它的作用是发现和抓取网页上的内容和文件类型,从而在搜索引擎结果页面中展现出相关结果。robots.txt文件是网站和搜索引擎之间的协议和通信标准。用于告诉搜索引擎抓取网站上的哪些页面。

我们都知道每一个服务器,每一个网站的抓取IP资源是有限的。我们要做的就是尽可能的让蜘蛛抓取那些需要参与排名的页面,对于那些无关紧要的页面尽量屏蔽抓取,避免浪费资源。

robots-txt.jpg

robots.txt写法示例

1、默认允许所有引擎全站抓取

Markup
User-agent:*
Disallow:

或者

Markup
User-agent:*
Allow:/

2、禁止所有搜索引擎抓取

Markup
User-agent:*
Disallow:/

禁止抓取还可以在网页表头写上<meta name=”robots” content=”none” />也可以起到不收录的作用。

3、禁止个别搜索引擎抓取

比如你的站是中文网站,并且也没有任何国外的业务,可以考虑禁止谷歌和必应的的蜘蛛抓取,但其他国内的蜘蛛可以正常抓取和索引

Markup
User-agent:Googlebot
Disallow:/
User-agent:bingbot
Disallow:/
User-agent:*
Disallow:

常见蜘蛛:

百度—-Baiduspider

360—-360Spider

神马—-YisouSpider

搜狗—-Sogou web spider

谷歌—-Googlebot

搜搜—-Sosospider

有道—-YoudaoBot

必应—-bingbot

雅虎—-Yahoo! Slurp

Alexa—-Alexa

Ahrefs蜘蛛—-AhrefsBot

4、禁止搜索引擎索引某个目录

最常见的协议之一,比如个人中心、联系我们,关于我们等页面,或者网站的一些敏感目录不需要被索引的都可以禁止。

Markup
User-agent:*
Disallow:/css/
Disallow:/admin/
Disallow:/images/
Disallow:/adout/
Disallow:/author/
Disallow:/lianxixwomen/

5.禁止搜索引擎索引特定类型的文件

如果我们禁止蜘蛛访问我们网站的某些特定文件的话,可以直接禁止蜘蛛索引某一后缀的文件。

Markup
User-agent:*
Disallow:.jpg$
Disallow:.gif$
Disallow:.png$
Disallow:.php$
Disallow:.js$
Disallow:.css$

我们看某些网站的robots.txt里的Disallow或者Allow里会看很多的符号,比如问号星号什么的,如果使用“*”,主要是限制访问某个后缀的域名,禁止访问/html/目录下的所有以”.htm”为后缀的URL(包含子目录)。

6.禁止搜索引擎索引动态网址

如果你的网站是动态地址,例如index.php?id=1、xxx.com/?id=1,同时采用了伪静态的网址路径的话,那么最好设置以下规则,避免蜘蛛索引动态链接。

Markup
User-agent:*
Disallow:/*?*

7.禁止搜索引擎索引某一目录下的某一类型页面

Markup
User-agent:*
Disallow:/update/*.html //禁止访问update目录下的所有html文件
Disallow:/plus/feed.php? //禁止访问plus目录下所有包含feed.php的文件
Disallow:/plus/.php$ //禁止访问plus目录下所有后缀是php的文件

接下来让我听听你的想法

如你所见,本文已经被阅读了{阅读次数变量}次,不知道本文对你有没有帮助呢?

如果你有《主题变量》的问题不妨在下方的评论框打出来,让我与你一起解决。

本站内容不多这让我有时间关注每一个页面和朋友的话题,一切排名都离不开需求解决,我希望通过你的评论反馈来确定内容对你是否合适。

相关文章
    95

获取行业营销方案

下方填写信息即可获取专属行业营销全案

最多阅读
最受欢迎
最新文章
级别
热源汇盈

添加客服微信 了解更多业务