Python 爬虫 校花网[通俗易懂]

Python 爬虫 校花网[通俗易懂]爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。福利来了校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢你懂得…。1.第一步

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

 爬虫:是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。

 福利来了  校花网 ,首先说为什么要爬这个网站呢,第一这个网站简单爬起来容易,不会受到打击,第二呢 你懂得…。


 

1.第一步,需要下载爬虫所用

Requests模块,当安装Python的时候会自动安装上pip管理包工具,要是没有的话自己下载一下,地址

 

1.1  第二步打开的cmd 运行 pip install requests 命令,然后回车,会自动下载。

  Python 爬虫 校花网[通俗易懂]

 

2.打开你的Pycharm,引入你的requests包,requests模块是可以模拟发送请求的一个模块,也有其他模块比如:urllib、httplib、Queue…等等。

    另外 re 是正则模块,还有 os 对文件操作模块都引用上。

 

  Python 爬虫 校花网[通俗易懂]

3.然后定义一个方法SaveImage(),用户保存获取图片的方法。

  3.1 由于不可能保存一张图片,所以图片url和name都写成参数形式。

  3.2 with open as 关键字是对操作文件的一种封装,包括异常处理和释放资源都有 。

  3.3  write()  是写入二进制,所以 response.content 返回的是二进制。

Python 爬虫 校花网[通俗易懂]

 

 

4. 上面说到不可能只保存一直图片,所以要定义一个方法GetImage()获取当前页面所有图片的url和name。

    4.1 首页先Get请求校花网其中一个导航栏中的url。

    4.2 然后设置编码格式,可以右键在源代码中的 charset 查看,这里是 “gbk” 编码格式。

    4.3 然后使用正则的 findall()方法,参数是一个正则和一个网页源代码,用 page.text可以获取到,返回一个字典类型。

    4.5 然后循环打印 url和name,并调用上面写的保存图片的SaveImage()存起来。

Python 爬虫 校花网[通俗易懂]

 

5.到目前为止可以获取到整页的图片和名字了,那么有许多页怎么办呢,很简单….

  5.1 为什么要把第一页的url拿出来呢,因为是这个网站的第一页和其他页的url规则不一样,所以单独处理一下。

  5.2 然后for循环,循环 range(),这里 1,13 代表从1开始,到13前的一个数结束。

  5.3 在循环的过程中调用获取GetImage()方法.

  5.4 最后一步,每次循环的时候 使用 %s 占位符 改变翻页的url。然后Ctrl+Shift+F10 完成!

Python 爬虫 校花网[通俗易懂]

 

6. 然后把这些零碎的代码串起来就可以了。

  

 1 import requests,re,os
 2 
 3 #文件夹名称
 4 FileName= 'download'
 5 #保存图片
 6 def SaveImage(image,name="temp"):
 7     #图片存放路径
 8      fpath = os.path.join(FileName, name+'.jpg')
 9      response=requests.get("http://www.xiaohuar.com/d/file/"+image).content
10      #写入图片
11      with open(fpath+'.jpg', 'wb+') as f:
12          f.write(response)
13 
14 #获取当前页图片Url集合
15 def GetImage(fanyeUr):
16     #请求页面
17     page =requests.get(fanyeUr)
18     #设置编码
19     page.encoding='gbk'
20     #正则获取图片集合
21     imglist = re.findall('alt="(.*?)" src="/d/file/(.*?\.jpg)"', page.text)
22     #循环保存图片
23     for name,url in imglist:
24         print(url,name)
25         SaveImage(url,name)
26 
27 #判断文件夹是否存在
28 if not os.path.exists(os.path.join(os.getcwd(), FileName)):
29     #新建文件夹
30     os.mkdir(os.path.join(os.getcwd(),FileName))
31 
32 #请求第一页
33 fanyeUr='http://www.xiaohuar.com/p/suyan/index.html'
34 #循环翻页
35 for faye in range(1,13):
36     #获取翻页Url
37     GetImage(fanyeUr)
38     fanyeUr='http://www.xiaohuar.com/p/suyan/index_%s.html' % faye

 

7.查看效果完成,爬的照片就不贴了,好好学习,天天向上

Python 爬虫 校花网[通俗易懂]

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/167642.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • python开发mbus程序_关于MBUS MSG指令

    python开发mbus程序_关于MBUS MSG指令在MBUSMSG指令里有一个错误位,我看了手册上说1-8的低位,其中0是无错误,那Q0.0有输出到底是对还是不对,还有Q0.2是不用的意思,它是一直为1的吗?我现在程序测试过程中,发现Q0.1和Q0.2都有输出,不知道是什么错误啊图片说明:1,佳答案1、有关MBUS_MSG指令错误代码:Error错误代码:只有在Done位为1时,错误代码才有效0=无错误1=响应校验错误2…

    2022年10月16日
  • 解决java:找不到符号办法

    解决java:找不到符号办法有时候遇到自己的接口或者类明明在项目中,编译的时候就出现找不到符号,提示找不到就说明项目没有识别到,先检查下pom.xml文件没问题,移除moudle再重新导入,ReimportAllMaven.有问题的欢迎评论一起解决。…

  • java线程优先级_java线程优先级有几级

    java线程优先级_java线程优先级有几级1.yield方法yield()方法的作用是放弃当前的CPU资源,将它让给其他的任务去占用CPU执行时间。当放弃的时间不确定,有可能刚刚放弃,马上又获得CPU时间片。2.线程的优先级在操作系统中,线程可以划分优先级,优先级较高的线程得到的CPU资源越多,也就是CPU优先执行优先级较高的线程对象中的任务。在Java中,线程的优先级分为1~10这10个等级,如果小于1或大于10,则JDK抛出异常thrownewIllegalArgumentException()。JDK中使用3个

    2022年10月15日
  • php跨域访问的session_php跳转到另一个php

    php跨域访问的session_php跳转到另一个phpphp跨域问题解决判断参考文章:php跨域:https://blog.csdn.net/ouxiaoxian/article/details/89332027预检请求是什么:https://www.jianshu.com/p/89a377c52b48什么时候会发送options请求:https://juejin.im/post/5cb3eedcf265da038f7734c41.什么是跨…

  • ubuntu下安装pycharm教程_可以在开始菜单中创建快捷方式吗

    ubuntu下安装pycharm教程_可以在开始菜单中创建快捷方式吗在Ubuntu18中安装Pycharm及创建Pycharm快捷方式一、在Ubuntu18.04中安装Pycharm1.到PyCharm网站下载pycharmprofessional2018.2.4版本:https://www.jetbrains.com/pycharm/点击DOWNLOADNOW按钮,进入系统版本下载页面图片1图片2点击专业版下载2.将下载的这个安装包解…

  • 抽奖之手机大转盘_抽奖转盘在线制作

    抽奖之手机大转盘_抽奖转盘在线制作直接看效果点这里HTML<!DOCTYPEhtml><html><head><metacharset=”utf-8″><metacontent=”width=device-width,initial-scale=1.0,minimum-scale=1.0,maximum-scale=1…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号