python爬虫常用库

python爬虫常用库python爬虫常用库请求库:1.requests这个库是爬虫最常用的一个库2.SeleniumSelenium是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下

大家好,又见面了,我是你们的朋友全栈君。

python爬虫常用库

请求库:

1. requests 这个库是爬虫最常用的一个库

2. Selenium Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作 对于一些用JS做谊染的页面来说,这种抓取方式是非常有效的。

3.ChomeDrive 安装了这个库,才能驱动Chrome浏览器完成相应的操作

4.GeckoDriver 使用W3C WebDriver兼容客户端与基于Gecko的浏览器进行交互的代理。

5.PhantomJS

PhantomJS 是一个无界面 、可脚本编程的 WebKit 浏览器引擎,它原生支持多种Web标准:Dom操作,css选择器,json,Canvas以及SVG。

6.aiohttp 之前接收requests库是一个阻塞式HTTP请求库,当我们发送一个请求后。程序会一直等待服务器响应,直到服务器响应后,程序才会最下一步处理。其实,这个过程比较耗时间。如果程序可以在等待的过程中做一些其他的事情,如进行请求的调度,响应的处理等,那么爬虫的效率就会比之前的那种方式有很大的提升。 而aiohttp就是这样一个提供异步web服务的库。使用说这个库用起来还是相当方便的。

 

解析库:

1.lxml lxml是python的一个解析库,这个库支持HTML和xml的解析,支持XPath的解析方式,而且效率也是非常高的,深受广大程序员的热爱

2.Beautiful Soup

Beautiful Soup也是python里一个HTML或XMl的解析库,它可以很方便的懂网页中提取数据,拥有强大的API和多种解析方式。

3.pyquery 同样是一个强大的网页解析工具,它提供了和 jQuery 类似的语法来解析HTML 文梢,

 

数据库:

1.mysql 数据库

2.MongoDB:是由 ++语言编写的非关系型数据库, 是一个基于分布式文件存储的开源数据库系统内容存储形式类似 JSON 对象,它的字段值可以包含其他文档、数组及文档数组,非常灵活

3.Redis 是一个基于 存的高效的非关系型数据库,

 

存储库:

1.PyMySOL

2.PyMongo3.redis-py

4.RedisDump

 

web库:

1.Flask 是一个轻量级的Web服务程序,它简单,易用,灵活

2.Tornado 是一个支持异步的Web框架,通过使用非阻塞I/O流,可以支持成千上万的开放式连接。

 

APP爬取相关库:

1.Charles 是一个网络抓包工具,相比 Fiddler,其功能更为强大 且跨平台支持得更好。

2.mitmproxy 是一个支持HTTP和HTTPS的抓包工具,类似于Fiddler,Charles的功能,只不过它通过控制台的形式操作。

3.Android

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/155880.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 简述设计的意义是什么_定义和概念的最大区别

    简述设计的意义是什么_定义和概念的最大区别究竟啥叫设计?让我们来先看个故事。      你开着一辆车。      在一个暴风雨的晚上。      你经过一个车站。      有三个人正在焦急的等公共汽车。      一个是快要临死的老人,他需要马上去医院      一个是医生,他曾救过你的命,你做梦都想报答他。      还有一个女人/男人,她/他是你做梦都想嫁/娶的人,也许错过

  • QML入门教程:一、QML和QtQuick简介以及QML实例

    QML入门教程:一、QML和QtQuick简介以及QML实例从Qt4.7开始,Qt引入了一种声明式脚本语言,称为QML(QtMetaLanguage或者QtModelingLanguage),作为C++语言的一种替代。而QtQuick就是使用QML构建的一套类库。QML是一种基于JavaScript的声明式语言。在Qt5中,QML有了长足进步,并且同C++并列…

    2022年10月23日
  • Java进阶学习路线图「建议收藏」

    Java进阶学习路线图「建议收藏」第一阶段技术名称技术内容J2SE(Java基础部分)java开发前奏计算机基本原理,Java语言发展简史以及开发环境的搭建,体验Java程序的开发,环境变量的设置,程序的执行过程,相关反编译工具介绍,java开发工具Eclipse的安装和使用,javadoc的说明。Java基

  • 背景图片的精灵图的使用

    背景图片的精灵图的使用<!DOCTYPEhtml><html><head><metacharset="utf-8"/><metahttp-equiv="X-UA-Compatible"content="IE=edge"><title>背景图片的精灵图的使用<

  • 苹果备忘录导出到android,怎么把苹果的备忘录转到安卓系统?[通俗易懂]

    苹果备忘录导出到android,怎么把苹果的备忘录转到安卓系统?[通俗易懂]原标题:怎么把苹果的备忘录转到安卓系统?我的闺蜜小张之前一直使用的是苹果手机,她使用过苹果6s和iPhone8plus,不过最近这次在更换手机的时候,小张为了支持国产手机,就入手了一款华为手机。在试用了一两天的新华为手机后,小张表示这款华为手机也是比较好用的,于是小张就想把之前的苹果手机备忘录内容转到安卓系统中以便继续使用。彩色便签不过小张发现苹果自带备忘录内容是不支持授权一键导出所有数据的,这…

  • js全局变量污染

    js全局变量污染一.定义全局变量命名空间只创建一个全局变量,并定义该变量为当前应用容器,把其他全局变量追加在该命名空间下varmy={};my.name={big_name:”zhangsan”,small_name:”lisi”};my.work={school_work:”study”,family_work:”weare”};…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号