python 多线程测试_【Python】多线程网站死链检测工具

python 多线程测试_【Python】多线程网站死链检测工具最新作品,一个python写的多线程爬虫+链接检测,其实可以分开用。实测系统:30个线程(10个爬虫,20个检测)深度3MacOS64bit√CentOS64bit√Fedora1732bit√Windows764bit√思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测。第一天,大致设计,…

大家好,又见面了,我是你们的朋友全栈君。

最新作品,一个python写的多线程爬虫+链接检测,其实可以分开用。

实测系统:

30个线程(10个爬虫,20个检测)

深度3

MacOS 64bit √

CentOS 64bit √

Fedora17 32bit √

Windows7 64 bit √

思路:通过线程管理器,触发爬虫线程按照广度优先爬取链接,另一方面触发检测线程用来检测爬取的链接。爬过的链接如果正常不用再检测,否则需要再检测。

第一天,大致设计,确定模块和编码。

第二天,处理多线程,将list换成set

第三天,第四天整合爬虫线程和检测线程,处理未释放锁引起的阻塞,添加辅助功能,继续优化。

日志记录,链接超时,还有链接去重问题。

第五天,继续改bug,处理网页编码问题,继续整理,优化代码。

定时功能没有添加,考虑到可以使用windows的任务计划,或者linux的crontab

还有很多可以继续优化的地方,比如,当检测链接成百万的时候,把链接放入数据库中,或者放入hadoop里

运行程序方法:python main.py

运行效果图:

python 多线程测试_【Python】多线程网站死链检测工具

python 多线程测试_【Python】多线程网站死链检测工具

项目地址:https://github.com/Flowerowl/pylinktester

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/163370.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • 小议AutoEventWireup属性「建议收藏」

    小议AutoEventWireup属性「建议收藏」1.在web页面添加一个label和button控件ViewCode<%@PageLanguage="C#"AutoEventWireup="false

  • Django(21)migrate报错的解决方案

    Django(21)migrate报错的解决方案前言在讲解如何解决migrate报错原因前,我们先要了解migrate做了什么事情,migrate:将新生成的迁移脚本。映射到数据库中。创建新的表或者修改表的结构。问题1:migrate怎么判断哪

  • intellij idea 全局搜索_idea设置全局搜索

    intellij idea 全局搜索_idea设置全局搜索IntelliJIDEA使用教程(总目录篇)我们用Eclipse或者IntelliJIDEA编程,有时候需要将整个项目的某个字符串替换成其他的。全局搜索我会,我还给调成ctrl+g了呢,但是遇到要全局(整个项目)替换字符串。哎哟,我有点蒙了。这不换了编辑器吗。我用的是eclipse的keymap而且电脑又不是mac。那么问题来啦。怎么找快捷键呢。如下;额,顺便说下…

  • 他们做了个艰难的决定

    他们做了个艰难的决定
    可口可乐做了个艰难的决定,如果监测到用户胃里有百事可乐,将自动释放农药和汞。
    中石化做了个艰难的决定,如果监测到用户汽车油箱里有中石油,将自动释放电火花。
    肯德基做了个艰难的决定,如果监测到用户吃过有麦当劳,将自动释放牛屎。
    百度做了个艰难的决定,如果监测到用户浏览Google,将自动封禁百度ID。。。
    联通做了个艰难的决定,如果方圆百米内检测到有移动用户将使这些用户不间断自动拨打110
    郭小四做了一个艰难的决定,如果发现读者的脑袋里

  • ggplot2数据分析与图形艺术_plot画多条曲线

    ggplot2数据分析与图形艺术_plot画多条曲线接着我们之前复现过的一篇NC文章(复现《naturecommunications》散点小提琴图+蜜蜂图),有一张关于差异蛋白的火山图,但是不同的是他的阈值设定不是我们普通的横向纵向,而是曲线阈值!image.png本来我以为这是一个个例,本篇文章作者博眼球的做法,但是检索了一下发现我付肤浅了,有很多文章,但是有一个特点,双曲线阈值应用在蛋白组差异基因的筛选上,这样的方式类似与“软阈值”吧,能够找到更显著的蛋白,值得在自己的研究中使用。image.png(Reference:ProteomicsofMe

  • Linux中top命令参数详解

    Linux中top命令参数详解top命令用法top命令经常用来监控linux的系统状况,是常用的性能分析工具,能够实时显示系统中各个进程的资源占用情况。top的使用方式top[-dnumber]|top[-bnp]参数解释:-d:number代表秒数,表示top命令显示的页面更新一次的间隔。默认是5秒。-b:以批次的方式执行top。-n:与-b配合使用,表示需要进行几次top命令的输出结果。-…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号