Urllib库的基本用法

Urllib库的基本用法

1、什么是url?

统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。

基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名,如“协议://授权/路径?查询”。完整的、带有授权部分的普通统一资源标志符语法看上去如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志

2、什么是Urllib库?

Urllib是python内置的处理URL的库,
包括以下模块
urllib.request 打开、读URLs
urllib.error 包含了request出现的异常
urllib.parse url解析模块
urllib.robotparser robots.txt解析模块(spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件。您可以在您的网站中创建一个纯文本文件robots.txt,在文件中声明该网站中不想被robot访问的部分或者指定搜索引擎只收录特定的部分)

 

3、实例

(1)读一个网页

import urllib.request
with urllib.request.urlopen('http://www.baidu.com') as f:
    print(f.read(20).decode('utf8'))

  其中,urlopen返回的是一个字节类型的对象,这是由于urlopen不知道从服务器上读的数据该如何解码,需要我们自己对字符串解码。

如上,可以打开百度的界面,

<span>Urllib库的基本用法</span>

可以看到,此页面用utf-8编码。

 

当然,你也可以把代码改为:

import urllib.request
req = urllib.request.Request(url = 'http://www.baidu.com')
with urllib.request.urlopen(req) as f:
    print(f.read(20).decode('utf8'))

  访问请求放置在Request类中,该类包含一些属性,可以传递数据等,此处不过于深究。

(2)登陆动作(使用基础的HTTP身份验证)

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/119475.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • virsh 命令_vim命令

    virsh 命令_vim命令下文domain表示虚拟机名字或id或uuid 1.列出虚拟机的所有网口:virshdomiflistdomain结果如下:Interface Type      Source    Model      MAC——————————————————-vnet0     bridge    br0     v…

  • Python实现自动发送邮件(详解)

    Python实现自动发送邮件(详解)Python实现自动发送邮件1.开启SMTP服务为了实现自动发送邮件的目的,我们需要在邮箱中开启SMTP服务:这点很关键,别忘了去开启SMTP,别忘了去开启SMTP,否则邮件是无法发送成功的。然后你还需要点击下面生成授权码,这个授权码才是使用Python发送邮件时的真正密码。2.python发邮件需要掌握两个模块smtplib和email,这俩模块是python自带的,只需import即可使用。smtplib模块主要负责发送邮件,email模块主要负责构造邮件。smtplib模块主要

    2022年10月26日
  • nginx和gateway什么关系_api网关和redis的关系

    nginx和gateway什么关系_api网关和redis的关系经常遇到别人问我,有了nginx做网关,为啥还要用到gateway呢首先这两种网关的定义不一样用户访问的总入口,也就是前端页面的容器,流量网关gateway的定义是针对每一个业务微服务来得,属于业务网关借鉴一个图对于具体的后端业务应用或者是服务和业务有一定关联性的策略网关就是上图左边的架构模型——业务网关。业务网关针对具体的业务需要提供特定的流控策略、缓存策略、鉴权认证策略等等。与业务网关相反,定义全局性的、跟具体的后端业务应用和服务完全无关的策略网关就是上图右边所示的架构模型

    2022年10月11日
  • 时间轮在Kafka的实践「建议收藏」

    时间轮在Kafka的实践「建议收藏」桔妹导读:时间轮是一个应用场景很广的组件,在很多高性能中间件中都有它的身影,如Netty、Quartz、Akka,当然也包括Kafka,本文主要介绍时间轮在kafka的应用和实战,从核心…

  • 【Java 网络编程】UDP 服务器 客户端 通信 ( DatagramSocket | DatagramPacket | UDP 发送数据包 | UDP 接收数据包 | 端口号分配使用机制 )[通俗易懂]

    【Java 网络编程】UDP 服务器 客户端 通信 ( DatagramSocket | DatagramPacket | UDP 发送数据包 | UDP 接收数据包 | 端口号分配使用机制 )[通俗易懂]IUDP信息发送接收原理IIUDP发送和接收端口相同IIIUDP发送信息代码示例IVUDP接收信息代码示例VUDP服务器端代码示例VIUDP客户端代码示例VII客户端服务器端通信

  • apache tomcat 闪退[通俗易懂]

    apache tomcat 闪退[通俗易懂]网上介绍了很多解决办法,下面是我自己的解决办法:1. 我的apache-tomcat是解压缩版(解压了后配置一下就可以用)。 路径:D:\apache-tomcat-8.0.5\ 2. 找到conf文件夹,打开server.xml文件,下拉右手边的滚动条至最下面。 3. 查看上面有没有配置。 4. 我原来有个项目在这个位置配置过,删除后,再运行就没有再出现闪退的

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号