robots.txt用法

robots.txt用法robots.txt的主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。robots.txt不是一种规范,是约定俗成的,主流的搜索引擎都是遵循robots.txt的规则来索引页面,但是一些spam爬虫不会遵循,所…

大家好,又见面了,我是你们的朋友全栈君。

robots.txt的主要作用是告诉蜘蛛爬虫该网站下哪些内容能抓取,哪些内容不能抓取。虽然可以没有robots.txt这个文件,默认就抓取该网站的所有文件,对搜索引擎爬虫没有任何的影响,但是如果你想控制蜘蛛的检索间隔,你就必须用robots.txt来控制。

robots.txt不是一种规范,是约定俗成的,主流的搜索引擎都是遵循robots.txt的规则来索引页面,但是一些spam爬虫不会遵循,所以说robots.txt只能防君子,不能防小人,如果目录下有隐私的文件夹,建议设置密码或者登陆用户才能访问。

robots.txt基本用法

User-agent

User-agent是用来匹配爬虫的,每个爬虫都会有一个名字,如果你有安装awstats统计工具,你就能查看到爬虫的名字,比如百度的爬虫叫BaiDuSpider,Google的爬虫叫Googlebot,*表示所有爬虫。

 

 

Disallow

Disallow表示禁止爬虫访问的目录。Disallow: / 表示拦截整站。

Allow

Allow表示允许爬虫访问的目录。Allow: / 表示允许整站。

Sitemap

Sitemap用来指定sitemap的位置。

Crawl-delay

Crawl-delay用来告诉爬虫两次访问的间隔,单位是秒。爬虫如果爬得很勤,对动态网站来说,压力有点大,可能会导致服务器负载增高,用户访问变慢。

在计算Crawl-delay时间的时候,要稍微计算一下,ysearchblog上有篇日志,介绍得很清楚。

通配符|wildcard match

*:匹配任意多个字符

$:表示URL的结尾

注意|notice

  • URL区分大小写,所以 /abc/ 和 /Abc/ 表示不同的目录。
  • 后面有没有斜杠也是不一样的,/private 和 /private/也表示两个不同的地址。

例子|examples

不管是Disallow,Allow还是Sitemap,每行只能写一条规则。Google本身就有一个robots.txt,值得大家参考。

拦截部分文件或目录

User-agent: * 
Disallow: /cgi-bin/ 
Disallow: /aaa.html

允许爬虫访问所有的目录,有两种写法

User-agent: * 
Disallow:

User-agent: * 
Allow: /

通配符的使用,拦截.gif文件

User-agent: * 
Disallow: /*.gif$

拦截带有?的文件

User-agent: * 
Disallow: /*?

Sitemap例子

Sitemap: http://www.ezloo.com/sitemap.xml

参考资料|reference

转载于:https://www.cnblogs.com/oray/p/3746750.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/133473.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 什么是代理服务器(Proxy)

    什么是代理服务器(Proxy)以类似代理人的身份去取得用户所需要的数据就是了!但是由于它的『代理』能力,使得我们可以透过代理服务器来达成防火墙功能与用户浏览数据的分析! 此外,也可以藉由代理服务器来达成节省带宽的目的,以及加快内部网络对因特网的WWW访问速度  17.1.1什么是代理服务器 我们或许会帮忙家人去办理一些杂务吧!举个例子来说,例如缴费或者是申办提款卡等等的,由于你并不是『

  • 使用Pycharm安装numpy库「建议收藏」

    使用Pycharm安装numpy库「建议收藏」如何在Pycharm中安装numpy库?笔者使用的是PyCharmCommunityEdition2020.2.1第一步打开Pycharm,在上方找到File,在打开的界面中找到Settings。或者直接使用Ctrl+Alt+S快捷键打开settings。第二步在左侧以此找到Project,PythonInterpreter。第三步在上方的搜索框内搜索numpy,选择第一个,并点击下方的InstallPackage。待安装完成后,下方会显示InstallSuccessfully

  • 网页中使用opencv 人脸识别[通俗易懂]

    网页中使用opencv 人脸识别[通俗易懂]一.准备1.编译出opencv.js文件opencv.js没有现成的,需要编译,根据官网下载编译程序编译https://blog.csdn.net/zbl744949461/article/details/100150138如果不想自己编译,或者编译完的文件,在浏览器中有问题,可以直接从官网网站上自己下下来(F12,把js文件保存在本地)https:/…

  • MNIST数据集 & CIFAR10数据集

    MNIST数据集 & CIFAR10数据集http://www.cs.toronto.edu/~kriz/cifar.html

  • linux时间戳转换成时间指令_shell脚本获取时间戳

    linux时间戳转换成时间指令_shell脚本获取时间戳1、时间戳转换为正常显示的时间格式

  • js 字符串截取指定字符

    js 字符串截取指定字符letstr=’helloworld’//如截取hello//indexOf,查找字符串,有返回下标,没有返回-1letindex=str.indexOf(‘hello’)//substring,参数是从哪截取到哪,不接受负数letcutOut1=str.substring(index,index+5)/…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号