python常见的5种框架

python常见的5种框架1.scrapy框架scrapy框架是一套比较成熟的python爬虫框架,是使用python开发的快速、高层次的信息爬取框架,可以高效率地爬取web页面并提取出我们关注的结构化数据。scrapy框架的应用领域有许多,比如网络爬虫,数据挖掘、数据监测、自动化测试等。scrapy框架是一套开源的框架,…

大家好,又见面了,我是你们的朋友全栈君。

1.scrapy框架

               scrapy框架是一套比较成熟的python爬虫框架,是使用python开发的快速、高层次的信息爬取框架,可以高效率地爬取web页面并提取出我们关注的结构化数据。

               scrapy框架的应用领域有许多,比如网络爬虫,数据挖掘、数据监测、自动化测试等。

               scrapy框架是一套开源的框架,开源也就意味着我们能够看到并且免费试用scrapy的所有代码。

2.crawley框架

               crawley也是使用python开发出来的一款爬虫框架,该框架致力于改变人们从互联网中提取数据的方式,让大家可以更高效地从互联网中爬取对应内容。

                crawley框架的主要特点有:

                1>高速爬取对应网站内容

                 2> 可以将爬取到内容轻松地存储到数据库中,比如:postgres,mysql,oracle,sqlite等数据库

                 3>可以将爬取到的数据导出为json,xml等格式

                 4>支持非关系型数据库,比如:mongodb,couchdb等

                 5>支持使用命令行工具

                 6>可以使用你喜欢的工具提取数据,比如使用xpath或者pyquery等工具

                 7>支持使用cookie登陆并访问哪些只有登陆才能够访问的网页

                 8>简单易学

3.portia框架

                  portia框架是一款允许没有任何编程基础的用户可视化地爬取网页的爬虫框架,给出你要爬取的网页中感兴趣的数据内容,通过portia框架,可以将你所需要的信息从相似的网页中自动提取出来,如果需要,可以子啊github上的主页进行获取。如果需要,上百度自己查吧,,具体的我就不写了。

 4.newspaper框架

                   newspaper框架是一种用来提取新闻、文章以及内容分析的python爬虫框架。更准确地说,newspaper是一个python的库,只不过这个库是由第三方开发的,可以归为一种框架。

                    newspaper框架在的主要特点:

                     1>比较简单

                     2>速度比较快

                     3>支持多线程

                     4>支持十多种语言

                     由此我们可以知道newspaper框架是轻量级框架,并且就爬取文章信息这一功能来说,使用起来很方便

5.Python-goose框架

                      coose本来是一款用java写的文章提取工具,Xavier Grangier用python重写了goose,并将重写后goose命名为python-goose。

                      所以,python-coose框架实现的功能同样是进行文章提取。

 

 

以上是python常用的5种框架,这是我知道,,如果各位大神,还有其他的 ,也可以留言,相互沟通,学习。另外后面3种框架可以再github上找到。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/134623.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 背包问题详解:01背包、完全背包、多重背包「建议收藏」

    背包问题详解:01背包、完全背包、多重背包「建议收藏」参考链接:http://www.cnblogs.com/fengty90/p/3768845.htmlhttp://blog.csdn.net/mu399/article/details/7722810http://blog.csdn.net/xiaowei_cqu/article/details/8191808http://blog.csdn.net/insistgogo/article/

  • JAVA事件适配器的作用

    JAVA事件适配器的作用适配器 其实从接口事件演变尔来的。相当于触发器,说简单点,它就是一些动作。例如说鼠标的按下点击还有键盘等等。适配器就是实现接口事件的类不过,不是真的实现,只是空实现,没有具体的方法体。适配器主要是为了方便程序员操作,避免了代码的重复性。只要一个对象或者属性添加了这个适配器,那么它就会监视这对象或属性。例如说一个按纽。按纽添加一个MouseAdap

  • 张钹:人工智能技术已进入第三代

    张钹:人工智能技术已进入第三代原文编注:近日,中科院院士、清华大学人工智能研究院院长张钹教授接受记者采访时认为,目前基于深度学习的人工智能在技术上已经触及天花板。从长远来看,必须得走人类智能这条路,最…

  • JS新规范padStart()详解,自己实现一个简单的padStart()

    JS新规范padStart()详解,自己实现一个简单的padStart()ES2017引入了字符串补全长度的功能。如果某个字符串不够指定长度,会在头部或尾部补全。padStart()用于头部补全,padEnd()用于尾部补全。

  • 2021机械组培训

    2021机械组培训NBUT大一培训文档

  • linux 重命名文件名_centos7重命名文件

    linux 重命名文件名_centos7重命名文件在这个简短的教程中,我们将向您展示如何在Linux中重命名文件。通常,这些命令在云服务器上使用,并且在大多数基于Unix的系统(包括CentOS和Ubuntu)上运行。这是我们一系列简短的Linux教程中的第一篇教程。使用mv命令重命名文件在Linux中重命名命令的最基本(相对最简单)的方法是使用mv命令。语法如下:mv[选项]oldfilenamenewfilename这是一个真实的示例…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号