阿里云服务器定时在线运行python爬虫代码「建议收藏」

全栈程序员-用户IM • 2022年5月18日上午11:20 • 未分类

大家好，又见面了，我是你们的朋友全栈君。

前言

这是我听老师讲课做的笔记

作者：神的孩子都在跳舞

关注我的csdn博客，更多python知识还在更新

前言：

为了参加计算机设计大赛，我和我的团队做了个数据分析项目，由于涉及到数据的爬取，实时更新等，所以有了这一篇文章

思路：

其实定时爬取并不难，无非就是在linux上跑程序，加上一个时间给它，如果你学过linux那么一定听说过这个cron服务，接下来我们就用它弄个定时任务就可以了

服务器：centos
任务管理：cron服务
环境：python3.7

对于cron服务不了解的可以看我这篇文章cron服务——Linux计划任务管理

使用xshell连接服务器

如果是active说明开启了否则需要start启动

crontab -e

定时运行python爬虫文件的设置命令是这样的

分钟 小时 天数 月份 星期 python 运行文件名

由于我的项目已经在服务器上部署好了，项目运行是在虚拟环境下面的,所以我需要进入指定目录和环境

0 0 * * 7 cd /www/wwwroot/RecruitDataVsible-master1 && source ./ccccc_venv/bin/activate && python dataView/数据爬取/总的爬取项目/conten2.py

我这里的意思是每个星期天0点0分（就是晚上12点整）cd进入项目文件，source启动进入环境，使用python命令运行conten2.py这个文件

具体的修改查看命令可以看上面的文章

目前我的项目是这样子的，总共有九个类别的数据

现在我们让它爬取两个类别，看看设定定时任务后能否自动爬取，然后存入数据库，自行展示
在这里插入图片描述
为了方便演示我这里设定了每分钟爬一次，’/’就是每的意思

*/1 * * * *

在这里插入图片描述

然后我们等一分钟，在我们没有做任何操作的情况下数据发生了改变，之前的数据被替换了，这就起到了定时爬取页面展示的效果

也可以手动运行代码
在这里插入图片描述

本人博客：https://blog.csdn.net/weixin_46654114
本人b站求关注：https://space.bilibili.com/391105864
转载说明：跟我说明，务必注明来源，附带本人博客连接。

请给我点个赞鼓励我吧
在这里插入图片描述

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/144967.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...