Python爬虫—-网页下载器和urllib2模块及对应的实例

Python爬虫—-网页下载器和urllib2模块及对应的实例网页下载器:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件未完。。。

大家好,又见面了,我是你们的朋友全栈君。

网页下载器:将互联网上URL对应的网页下载到本地的工具,是爬虫的核心组件

Python爬虫----网页下载器和urllib2模块及对应的实例

Python爬虫----网页下载器和urllib2模块及对应的实例

urllib2下载网页的三种方法

Python爬虫----网页下载器和urllib2模块及对应的实例

对应实例代码如下:

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '第一种方法 --> 直接请求 '
response1 = urllib2.urlopen(url)  
      
#获取状态码,如果是200表示获取成功  
print response1.getcode()  
      
# 获取读取到的内容的长度 
print len(response1.read() )

第一种方法 –> 直接请求
200
4305

Python爬虫----网页下载器和urllib2模块及对应的实例

#coding:utf8

import urllib2  
     
url =  'http://www.baidu.com'

print '第二种方法:'
#创建Request对象
request= urllib2.Request(url)

#添加http的header
request.add_header('User-Agent' , 'Mozilla/5.0')

# 发送请求获取结果
response2 = urllib2.urlopen(request)

print response2.getcode()
print len(response2.read())

第二种方法:
200
4305

Python爬虫----网页下载器和urllib2模块及对应的实例

#coding:utf8

import urllib
import urllib2
import cookielib 
     
url =  'http://www.baidu.com'

print '第三种方法:'

#创建cookie容器
cj = cookielib.CookieJar()

#创建1个opener
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))

# 给urllib2安装opener
urllib2.install_opener(opener)

# 使用带有cookie的urllib2访问网页
response3 = urllib2.urlopen(url)

print response3.getcode()
print cj
print response3.read()
第三种方法:
200
<CookieJar[]>
<!DOCTYPE html PUBLIC “-//W3C//DTD XHTML 1.0 Transitional//EN” “http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd”>
<html xmlns=”http://www.w3.org/1999/xhtml”>
<head>
……

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/140793.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 页面ValidateRequest=false设置在asp.net4.0下失效

    页面ValidateRequest=false设置在asp.net4.0下失效
    ASP.NET请求验证功能可以给我提供应用程序的安全保证,避免站点受到XSS的攻击。但是在一些情况下,我们需要禁用这个功能,比如我们需要使用HtmlEditor来让用户输入一些HTML文本,这时候ASP.NET2.0允许我们可以通过在web.config设置validateRequest=”false”。或者在MVC中,我们可以通过在Controller或者Action上设置[ValidateRequest(false)]这个特性来达到禁用的上的。但是在当你把站点从旧版本升级到ASP.NET

  • idea 2021 激活码(破解版激活)

    idea 2021 激活码(破解版激活),https://javaforall.cn/100143.html。详细ieda激活码不妨到全栈程序员必看教程网一起来了解一下吧!

  • linux安装yarn

    linux安装yarn这里介绍使用yum的方式:先要安装node.js,用node-v可以查看是否安装了node。1、添加yarn仓库wgethttps://dl.yarnpkg.com/rpm/yarn.repo-O/etc/yum.repos.d/yarn.repo2、安装yarnyum-yinstallyarn安装完成后,yarn-v可以查看版本。…

  • Tomcat 的类加载机制

    Tomcat 的类加载机制Tomcat实际上只有WebAppClassLoader加载器中打破了双亲委派,其他类加载器还是遵循双亲委派的。这样做最主要原因是保证同个Web容器中的不同Web应用程序所使用的类库相互独立,避免相互影响

  • 怎么改变pycharm的背景颜色_pycharm设置成白底

    怎么改变pycharm的背景颜色_pycharm设置成白底进入软件点击File选择Settings点击点击Edito左下角的三角形点击ColorScheme左下角的三角形选择ConsoleFoot点击点击Scheme的选择框选择完毕之后点Ok,会弹出一个选择框,yes代表全部改变,no代表编辑框的背景颜色改变

  • idea激活码永久有效-激活码分享

    (idea激活码永久有效)最近有小伙伴私信我,问我这边有没有免费的intellijIdea的激活码,然后我将全栈君台教程分享给他了。激活成功之后他一直表示感谢,哈哈~IntelliJ2021最新激活注册码,破解教程可免费永久激活,亲测有效,下面是详细链接哦~https://javaforall.cn/100143.html9A…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号