关于部分动态爬虫「建议收藏」

关于部分动态爬虫「建议收藏」前言爬虫的动态处理方法(我用较为简单的一些网址举例比如豆瓣的热门电影)一、动态爬虫动态爬虫与静态爬虫的最大区别就是源代码与网页内容不同,动态爬虫可以通过抓包(就是直接利用浏览器的F12进行network抓包,获取相关对应的文件)二、使用步骤1.先通过网址找到需要的东西截图如下(示例):按F12进入开发者模式,第二步点击左上角刷新重新加载一下内容,第三步在红框里选取需要的内容,可以通过“预览”来查看是否对应查找正确之后然后在“标头”里找到“请求URL”以及“User-Agent”,把这些找到

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

前言

爬虫的动态处理方法(我用较为简单的一些网址举例 比如豆瓣的热门电影)


一、动态爬虫

动态爬虫与静态爬虫的最大区别就是源代码与网页内容不同,动态爬虫可以通过抓包(就是直接利用浏览器的F12进行network抓包,获取相关对应的文件)

二、使用步骤

1.先通过网址找到需要的东西在这里插入图片描述

截图如下(示例):按F12进入开发者模式,第二步点击左上角刷新重新加载一下内容,第三步在红框里选取需要的内容,可以通过“预览”来查看是否对应在这里插入图片描述查找正确之后然后在“标头”里找到“请求URL”以及“User-Agent”,把这些找到后基本工作就差不多完成了

2.代码部分

先引入所需要的库
代码如下:

import re
import urllib.request
import pandas as pd

这是我常用的几个库

url=('https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0')
headers={ 
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.82 Safari/537.36' }
requests=urllib.request.Request(url,headers=headers)
respon=urllib.request.urlopen(requests)
html=respon.read().decode('utf-8')

以上代码就是获取对应网页的内容
然后之后在对所需内容进行查找就行了。

3.全代码

url=('https://movie.douban.com/j/search_subjects?type=movie&tag=%E7%83%AD%E9%97%A8&page_limit=50&page_start=0')
headers={ 
   'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/99.0.4844.82 Safari/537.36' }
requests=urllib.request.Request(url,headers=headers)
respon=urllib.request.urlopen(requests)
html=respon.read().decode('utf-8')
photo=re.compile(r'"cover":"(.*?),"id"')
list1=re.findall(photo,html)
name=re.compile(r'"title":"(.*?)",')
list2=re.findall(name,html)
# print(html)
rat=re.compile(r'"rate":"(.*?),')
list3=re.findall(rat,html)
xx={ 
   '电影名':list2,'评分':list3}
df=pd.DataFrame(xx,index=range(1,51))
print(df)

总结

以上就是今天要讲的内容,本文仅仅简单介绍了动态爬虫的方法,希望可以有所帮助

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/159472.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • matlab中doc是什么意思_求和符号在matlab中怎么表示

    matlab中doc是什么意思_求和符号在matlab中怎么表示苹果OSX系统在界面与使用上相比我们熟悉的Windows系统有很大的区别,很多刚接触苹果电脑的朋友会觉得Mac电脑桌面下的Dock栏很酷,使用也很方便。但大多数用户都不知道Dock栏是什么,该如何用好,今天我们将详细为大家介绍下Dock栏使用技巧。Dock栏是什么?Dock栏是苹果Mac电脑OSX系统桌面下方的那那一排快捷操作键,类似于Windows电脑的任务栏,我们可以将一些经常需要用到的应用放…

  • Stata Kendall 相关系数作图

    Stata Kendall 相关系数作图StataKendall相关系数作图回答Superficial.的问题,测试CSDN的markdown发帖功能如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML图表FLowchart流程图导出与导入导出导入此帖目的有二:回答Superficial.的问题,测试CSDN的markdown发帖功能如何插入一段漂亮的代码片去博客设置页面,选择

  • druid简单详解[通俗易懂]

    druid简单详解[通俗易懂]druid简单详解

  • 不止编码,还要好好生活和思考[通俗易懂]

    做一个积极的人编码、改bug、提升自己我有一个乐园,面向编程,春暖花开!2019年4月最后一天,不写技术,谈谈我的乐园,我喜欢的一首诗,分享给你!面朝大海,春暖花开[作者] 海子从明天起,做一个幸福的人喂马,劈柴,周游世界从明天起,关心粮食和蔬菜我有一所房子,面朝大海,春暖花开从明天起,和每一个亲人通信告诉他们我的幸福那幸福的闪电告诉我的我将告诉每一个人给每一条河…

  • linux fork函数浅析

    linux fork函数浅析

    2021年11月28日
  • spring注解有哪些_Spring 注解

    spring注解有哪些_Spring 注解Spring注解@Configuration一.@Configuration的作用二.@Configuration的Spring容器启动方式三.不加@Configuration的@Bean的解

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号