robots.txt文件的作用

全栈程序员-用户IM • 2022年5月8日下午4:20 • 未分类

大家好，又见面了，我是你们的朋友全栈君。

Robots.txt文件的作用：

1、屏蔽网站内的死链接。

2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。

3、阻止搜索引擎索引网站隐私性的内容。

因此建立robots.txt文件是很有必要的，网站中重复的内容、页面或者404信息过多，搜索引擎蜘蛛就会认为该网站价值较低，从而降低对该网站的“印象分”，这就是我们经常听到的“降低权重”，这样网站的排名就不好了。

robots.txt文件需要注意的最大问题是：必须放置在一个站点的根目录下，而且文件名必须全部小写。

robots.txt文件的基本语法只有两条，第一条是：User-agent，即搜索引擎蜘蛛的名称；第二条是：Disallow，即要拦截的部分。

下面我们看一下撰写基本的robots.txt文件所需要知道的一些语法和作用。

（1），允许所有的搜索引擎访问网站的所有部分或者建立一个空白的文本文档，命名为robots.txt。

User-agent:*Disallow:或者User-agent:*Allow:/

（2），禁止所有搜索引擎访问网站的所有部分。

User-agent:*Disallow:/

（3），禁止百度索引你的网站。

User-agent:BaiduspiderDisallow:/

（4），禁止Google索引你的网站。

User-agent:GooglebotDisallow:/

（5），禁止除百度以外的一切搜索引擎索引你的网站。

User-agent:BaiduspiderDisallow:User-agent:*Disallow:/

（6），禁止除Google以外的一切搜索引擎索引你的网站。

User-agent:GooglebotDisallow:User-agent:*Disallow:/

（7），禁止和允许搜索引擎访问某个目录，如：禁止访问admin目录；允许访问images目录。

User-agent:*Disallow:/admin/Allow:/images/

（8），禁止和允许搜索引擎访问某个后缀，如：禁止访问admin目录下所有php文件；允许访问asp文件。

User-agent:*Disallow:/admin/*.php$Allow:/admin/*.asp$

（9），禁止索引网站中所有的动态页面（这里限制的是有“？”的域名，如：index.php?id=8）。

User-agent:*Disallow:/*?*

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/140661.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...