robots.txt-seo站内优化之robots协议基础语法

robots概述

robot指的是网络机器人，即搜索引擎蜘蛛。它的作用是发现和抓取网页上的内容和文件类型，从而在搜索引擎结果页面中展现出相关结果。robots.txt文件是网站和搜索引擎之间的协议和通信标准。用于告诉搜索引擎抓取网站上的哪些页面。

我们都知道每一个服务器，每一个网站的抓取IP资源是有限的。我们要做的就是尽可能的让蜘蛛抓取那些需要参与排名的页面，对于那些无关紧要的页面尽量屏蔽抓取，避免浪费资源。

robots.txt写法示例

1、默认允许所有引擎全站抓取

Markup

User-agent:*
Disallow:

或者

Markup

User-agent:*
Allow:/

2、禁止所有搜索引擎抓取

Markup

User-agent:*
Disallow:/

禁止抓取还可以在网页表头写上<meta name=”robots” content=”none” />也可以起到不收录的作用。

3、禁止个别搜索引擎抓取

比如你的站是中文网站，并且也没有任何国外的业务，可以考虑禁止谷歌和必应的的蜘蛛抓取，但其他国内的蜘蛛可以正常抓取和索引

Markup

User-agent:Googlebot
Disallow:/
User-agent:bingbot
Disallow:/
User-agent:*
Disallow:

常见蜘蛛：

百度—-Baiduspider

360—-360Spider

神马—-YisouSpider

搜狗—-Sogou web spider

谷歌—-Googlebot

搜搜—-Sosospider

有道—-YoudaoBot

必应—-bingbot

雅虎—-Yahoo! Slurp

Alexa—-Alexa

Ahrefs蜘蛛—-AhrefsBot

4、禁止搜索引擎索引某个目录

最常见的协议之一，比如个人中心、联系我们，关于我们等页面，或者网站的一些敏感目录不需要被索引的都可以禁止。

Markup

User-agent:*
Disallow:/css/
Disallow:/admin/
Disallow:/images/
Disallow:/adout/
Disallow:/author/
Disallow:/lianxixwomen/

5.禁止搜索引擎索引特定类型的文件

如果我们禁止蜘蛛访问我们网站的某些特定文件的话，可以直接禁止蜘蛛索引某一后缀的文件。

Markup

User-agent:*
Disallow:.jpg$
Disallow:.gif$
Disallow:.png$
Disallow:.php$
Disallow:.js$
Disallow:.css$

我们看某些网站的robots.txt里的Disallow或者Allow里会看很多的符号，比如问号星号什么的，如果使用“*”，主要是限制访问某个后缀的域名，禁止访问/html/目录下的所有以”.htm”为后缀的URL(包含子目录)。

6.禁止搜索引擎索引动态网址

如果你的网站是动态地址，例如index.php?id=1、xxx.com/?id=1，同时采用了伪静态的网址路径的话，那么最好设置以下规则，避免蜘蛛索引动态链接。

Markup

User-agent:*
Disallow:/*?*

7.禁止搜索引擎索引某一目录下的某一类型页面

Markup

User-agent:*
Disallow:/update/*.html //禁止访问update目录下的所有html文件
Disallow:/plus/feed.php? //禁止访问plus目录下所有包含feed.php的文件
Disallow:/plus/.php$ //禁止访问plus目录下所有后缀是php的文件

接下来让我听听你的想法

如你所见，本文已经被阅读了{阅读次数变量}次，不知道本文对你有没有帮助呢？

如果你有《主题变量》的问题不妨在下方的评论框打出来，让我与你一起解决。

本站内容不多这让我有时间关注每一个页面和朋友的话题，一切排名都离不开需求解决，我希望通过你的评论反馈来确定内容对你是否合适。