Python简单爬虫入门一

全栈程序员-用户IM • 2022年2月22日下午4:00 • 未分类

Python简单爬虫入门一

大家好，又见面了，我是全栈君。

为大家介绍一个简单的爬虫工具BeautifulSoup

BeautifulSoup拥有强大的解析网页及查找元素的功能本次测试环境为python3.4（由于python2.7编码格式问题）

此工具在搜索你想爬的数据匹配的方式就是html标签嵌套的顺序(html介绍在其它随笔内）

首先来聊聊BeautifulSoup的安装pip install python-bs4 包含BeautifulSoup方法

再来安装依赖工具requests和解析格式lxml下载安装包解压进入目录 python setup.py install此方法是请求服务

先来写一个简单的网页解析代码如下:

#!/usr/bin/env python
# -*- coding:utf-8 -*-

from bs4 import BeautifulSoup
import requests


headers = {
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36',
}
url = "http://www.jd.com/"

wb_data = requests.get(url,headers=headers)
soup = BeautifulSoup(wb_data.text,'lxml')
print(soup)

来简单说明下每行代码得作用:

from从bs4库里import导入BeautifulSoup方法

import导入requests方法

headers表示头文件，伪装成浏览器浏览网页，当然我这里写得简单还没写全

url网页地址

wb_data网页数据requests.get请求访问(url网页京东,headers伪装的头文件）

soup解析后的数据BeautifulSoup解析数据(wb_data网页数据,lxml解析的格式按这个要求解析)

print答应soup解析后的网页数据也就是网页源代码如下由于网页源代码很长所以这里截图只能显示一部分

Python简单爬虫入门一

学好基础包括html的结构标签的嵌套还有CSS的名字在网页位置等后教你们怎么去抓电影等网站并且把内容归类好方便查阅

下面是我抓去某电影网站的数据及归类效果掩饰：

Python简单爬虫入门一

转载于:https://www.cnblogs.com/cookie1026/p/6065384.html

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/108780.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

VUE学习笔记

VUE学习笔记

全栈程序员-用户IM
2021年7月11日
NMF-matlab

NMF-matlabmatlab练习程序（非负矩阵分解）　　这个算法是Lee和Seung在1999年发表在nature杂志上的。具体论文看这里：http://www.seas.upenn.edu/~ddlee/Papers/nmf.pdf。　　看不懂英文没关系，可以看这个中文的介绍：http://wenku.baidu.com/view/94c8af0bf78a6529647d5331.html。

全栈程序员-用户IM
2022年6月16日
查看linux执行的命令记录_history命令详解

查看linux执行的命令记录_history命令详解前言我们每次敲打linux命令的时候，有时候想用之前用过的命令，一般情况下，我们都会按↑↓箭头来寻找历史的命令记录，那如果我想用1天前执行的某条命令，难道还要按↑100次？显示这样是不现实的，我们可

全栈程序员-用户IM
2022年7月29日
单例模式与静态方法_静态内部类单例模式原理

单例模式与静态方法_静态内部类单例模式原理本文主要介绍java的单例模式，以及详细剖析静态内部类之所以能够实现单例的原理。OK，废话不多说，进入正文。首先我们要先了解下单例的四大原则：1.构造私有。2.以静态方法或者枚举返回实例。3.确保实例只有一个，尤其是多线程环境。4.确保反序列换时不会重新构建对象。我们常用的单例模式有：饿汉模式、懒汉模式、双重锁懒汉模式、静态内部类模式、枚举模式，我们来逐一分析下这些模式的…

全栈程序员-用户IM
2022年10月11日
double保留小数点后两位_double截取两位小数

double保留小数点后两位_double截取两位小数publicclassDoubleTest{//保留两位小数第三位如果大于4会进一位（四舍五入）doublef=6.23556;/***使用精确小数BigDecimal*/publicvoidfun1(){BigDecimalbg=newBigDecimal(f);/…

全栈程序员-用户IM
2022年10月20日
SpringBoot上传文件实现

SpringBoot上传文件实现前言上传文件需求也是日常开发必不可少的操作，今天就稍微总结下，一般如果是上传图片操作，很多稍微大点的公司都有专门的图片服务器可直接将图片上传至那边即可，如果没有图片服务器的话，那么此处把图片也一并归为文件进行讲解。本文代码以springBoot为准上传到哪？这个问题想必我们在实现需求时也必定会思考，那么如果能确定该项目是一个单服务器结构，那为了方便起见，可采用上传至本地服务器的项…

全栈程序员-用户IM
2022年6月10日

发表回复

关注全栈程序员社区公众号