robots txt防爬虫[通俗易懂]

robots txt防爬虫[通俗易懂]title:robots.txt防爬虫date:2018-07-1218:20:00tags:防坑指南categories:防坑指南事因:公司内部项目在百度搜索上输入名字会出现在搜索结果中,大佬们肯定不愿意啊,就需要禁止爬虫爬取。在项目根目录加入这个文件就行了。WHAT?::::::robots.txt是一个纯文本文件,是爬虫抓取网站的时候要查看的第一个文件,…

大家好,又见面了,我是你们的朋友全栈君。


title: robots.txt防爬虫 date: 2018-07-12 18:20:00 tags:

  • 防坑指南 categories:
  • 防坑指南

事因: 公司内部项目在百度搜索上输入名字会出现在搜索结果中,大佬们肯定不愿意啊,就需要禁止爬虫爬取。在项目根目录加入这个文件就行了。

WHAT?

::::::

robots.txt是一个纯文本文件,是爬虫抓取网站的时候要查看的第一个文件,一般位于网站的根目录下。robots.txt文件定义了爬虫在爬取该网站时存在的限制,哪些部分爬虫可以爬取,哪些不可以爬取(防君子不防小人)。

robots.txt中的参数含义:

  1. User-agent:描述搜索引擎spider的名字。在“robots.txt“文件中,如果有多条 User-agent记录,说明有多个robot会受到该协议的约束。所以,“robots.txt”文件中至少要有一条User- agent记录。如果该项的值设为*(通配符),则该协议对任何搜索引擎机器人均有效。在“robots.txt”文件 中,“User-agent:*”这样的记录只能有一条。
  2. Disallow: / 禁止访问的路径
例如:

Disallow: /home/news/data/,代表爬虫不能访问/home/news/data/后的所有URL,但能访问/home/news/data123

Disallow: /home/news/data,代表爬虫不能访问/home/news/data123、/home/news/datadasf等一系列以data开头的URL。

前者是精确屏蔽,后者是相对屏蔽
复制代码

3.Allow:/允许访问的路径

例如:

Disallow:/home/后面有news、video、image等多个路径

接着使用Allow:/home/news,代表禁止访问/home/后的一切路径,但可以访问/home/news路径
复制代码

介绍感兴趣就看看,不感兴趣的话直接复制下面的放在根目录就可以了。

robots.txt:

User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
复制代码
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/134218.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • android官方原生主题,原生Android可以更换系统主题吗?

    android官方原生主题,原生Android可以更换系统主题吗?现在越来越多的智能手机用户喜欢使用原生的Android系统,因为原生Android系统更加纯净流畅,没有乱七八糟的第三方厂商软件预装,安全性更高,最重要的是原生Android可以最快获得系统更新。也有人喜欢用第三方定制的安卓系统,是因为它的可玩性更高,而其中可更换主题的功能更是受一众玩家欢迎。不过对于原生Android系统的用户来说,想要平时随随便便更换主题可不是件容易的事。原生Android用户…

  • mac idea svn配置_idea提交代码到svn

    mac idea svn配置_idea提交代码到svn最近更换了生产力,初次使用mac安装开发环境记录一下版本下载安装带激活教材【推荐使用官方正版】下载地址安装idea集成svn环境CommandLineTools,看网上大多数教程都说需要安装XCODE,内存太大了十多个G而且一般用idea也用不上这个工具的。所以建议直接通过这个网站直接进行下载下载commandlinetools下载好后中idea中添加自己项目的svn路径就行了…

  • 学了那么久爬虫,快来看看这些反爬,你能攻破多少?【对应看看自己修炼到了哪个等级~】

    ????在爬虫技术泛滥的今天,有不少小伙伴或是因为兴趣,或是因为工作所需,决定去学习爬虫,一入爬虫坑~????《一篇万字博文带你入坑爬虫这条不归路【万字图文】》????<-????但是,从最近我的技术交流群内粉丝们交流的一些问题中,我发现了一个很严重很严重的大问题——他们只是单纯想爬,却连一些最基础的反爬技术都不知晓。????->????《两万字博文教你python爬虫requests库【详解篇】》《万字博文教你python爬虫BeautifulSoup库【详解篇】》《万字博

  • pycharm新建anaconda_anaconda怎么创建虚拟环境

    pycharm新建anaconda_anaconda怎么创建虚拟环境在anaconda中已经有了一个比较全的环境,希望在Pycharm中使用,但百度后发现网上的一些方法已经在新版Pycharm中不一样的,在此记录下:File-&gt;Settings-&gt;Project:[当前项目名称]单击设置图标,然后选择【Add…】然后就是定位到anaconda中已有环境的python.exe所在目录了假设环境名称是tensorflow,一般路径是:C:\Users\…

  • CSS3 transition的使用

    CSS3 transition的使用一、CSS3中transition的定义transition:propertydurationtiming-functiondelay;transition属性是一个简写属性,主要用于设置四个过渡属性: 值描述transition-property规定设置过渡效果的CSS属性的名称。transitio

  • kettle 教程(四):自定义 Java 代码

    kettle 教程(四):自定义 Java 代码kettle拥有很多自带的组件,能帮我们实现很多的功能。但是我们总有一些很复(qi)杂(pa)的需求,用自带的组件实现不了,或者说实现起来很复杂。那么这时我们就要用到万能的组件了(Java代码),通过自己写代码来实现任何想要的功能。自定义Java代码假设有这样一个需…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号