大家好,又见面了,我是你们的朋友全栈君。
pyquery的强大之处就在于它有强大的CSS选择器,要初始化一个pyquery对象,首先需要传入一个HTML文本,它的初始化方式有多种,比如传入字符串、URL、文件名等。
字符串初始化:
我们先来看一个例子:
from pyquery import PyQuery as pq#引入PyQuery对象
html = '''
<div class="global-nav-items">
<ul>
<li class="on">
<a href="https://www.douban.com" data-moreurl-dict="{"from":"top-nav-click-main","uid":"0"}">豆瓣</a>
</li>
<li class="">
<a href="https://book.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-book","uid":"0"}">读书</a>
</li>
<li class="">
<a href="https://movie.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-movie","uid":"0"}">电影</a>
</li>
<li class="">
<a href="https://music.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-music","uid":"0"}">音乐</a>
</li>
<li class="">
<a href="https://www.douban.com/location" target="_blank" data-moreurl-dict="{"from":"top-nav-click-location","uid":"0"}">同城</a>
</li>
<li class="">
<a href="https://www.douban.com/group" target="_blank" data-moreurl-dict="{"from":"top-nav-click-group","uid":"0"}">小组</a>
</li>
<li class="">
<a href="https://read.douban.com/?dcs=top-nav&dcm=douban" target="_blank" data-moreurl-dict="{"from":"top-nav-click-read","uid":"0"}">阅读</a>
</li>
<li class="">
<a href="https://douban.fm/?from_=shire_top_nav" target="_blank" data-moreurl-dict="{"from":"top-nav-click-fm","uid":"0"}">FM</a>
</li>
</ul>
</div>
'''
doc = pq(html)
print(doc('li'))#将初始化好的对象传入CSS选择器获取li标签
<li class="on">
<a href="https://www.douban.com" data-moreurl-dict="{"from":"top-nav-click-main","uid":"0"}">豆瓣</a>
</li>
<li class="">
<a href="https://book.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-book","uid":"0"}">读书</a>
</li>
<li class="">
<a href="https://movie.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-movie","uid":"0"}">电影</a>
</li>
<li class="">
<a href="https://music.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-music","uid":"0"}">音乐</a>
</li>
<li class="">
<a href="https://www.douban.com/location" target="_blank" data-moreurl-dict="{"from":"top-nav-click-location","uid":"0"}">同城</a>
</li>
<li class="">
<a href="https://www.douban.com/group" target="_blank" data-moreurl-dict="{"from":"top-nav-click-group","uid":"0"}">小组</a>
</li>
<li class="">
<a href="https://read.douban.com/?dcs=top-nav&dcm=douban" target="_blank" data-moreurl-dict="{"from":"top-nav-click-read","uid":"0"}">阅读</a>
</li>
<li class="">
<a href="https://douban.fm/?from_=shire_top_nav" target="_blank" data-moreurl-dict="{"from":"top-nav-click-fm","uid":"0"}">FM</a>
</li>
URL初始化:
当初始化的参数为URL时,需要指定参数为url:
from pyquery import PyQuery as pq
doc = pq(url='https://movie.douban.com/cinema/nowplaying/chengdu/')
print(doc('title'))
<title>
成都 - 在线购票&影讯
</title>
PyQuery对象会首先请求这个url,然后用得到的html内容完成初始化,这相当于用网页的源代码以字符串的形式传递给PyQuery类来初始化,下面的写法也是相同的:
from pyquery import PyQuery as pq
import requests
doc = pq(requests.get('https://movie.douban.com/cinema/nowplaying/chengdu/').text)
print(doc('title'))
除了传递url以外,还可以传递本地的文件名,只需要将参数指定为filename即可:
from pyquery import PyQuery as pq
doc = pq(filename='rr.html')
print(doc('img'))
当然文件必须时html文件,这样的话会先读取本地的文件内容,然后将文件内容以字符串的形式传递给PyQuery类来初始化。
CSS选择器
先来看一个例子:
from pyquery import PyQuery as pq#引入PyQuery对象
html = '''
<div id="items">
<ul class="list">
<li class="on">
<a href="https://www.douban.com" data-moreurl-dict="{"from":"top-nav-click-main","uid":"0"}">豆瓣</a>
</li>
<li class="">
<a href="https://book.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-book","uid":"0"}">读书</a>
</li>
</ul>
</div>
'''
doc = pq(html)
print(doc('#items .list li'))
print(type(doc('#items .list li')))
<li class="on">
<a href="https://www.douban.com" data-moreurl-dict="{"from":"top-nav-click-main","uid":"0"}">豆瓣</a>
</li>
<li class="">
<a href="https://book.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-book","uid":"0"}">读书</a>
</li>
<class 'pyquery.pyquery.PyQuery'>
这里我们初始化了PyQuery对象以后传入一个CSS选择器:#items .list li它的意思是先选取id为items的节点,然后再选取其内部class为list的节点内部的所有li结点。
查找结点
使用find()方法,传入CSS选择器可以查找子节点:
from pyquery import PyQuery as pq#引入PyQuery对象
html = '''
<div id="items">
<ul class="list">
<li class="on">
<a href="https://www.douban.com" data-moreurl-dict="{"from":"top-nav-click-main","uid":"0"}">豆瓣</a>
</li>
<li class="">
<a href="https://book.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-book","uid":"0"}">读书</a>
</li>
</ul>
</div>
'''
doc = pq(html)
items = doc('.list')
print(items)
print(type(items))
lis = items.find('li')
print(lis)
print(type(lis))
<ul class="list">
<li class="on">
<a href="https://www.douban.com" data-moreurl-dict="{"from":"top-nav-click-main","uid":"0"}">豆瓣</a>
</li>
<li class="">
<a href="https://book.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-book","uid":"0"}">读书</a>
</li>
</ul>
<class 'pyquery.pyquery.PyQuery'>
<li class="on">
<a href="https://www.douban.com" data-moreurl-dict="{"from":"top-nav-click-main","uid":"0"}">豆瓣</a>
</li>
<li class="">
<a href="https://book.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-book","uid":"0"}">读书</a>
</li>
<class 'pyquery.pyquery.PyQuery'>
这里首先选取class为list的节点,然后调用find()方法,传入css选择器,选取其内部的li节点,这时find()方法就会将所有符合条件的子节点选出来。find()方法会将所有符合条件的子孙节点找出来,如果要选则直接子节点就可以用children()方法:
from pyquery import PyQuery as pq#引入PyQuery对象
doc = pq(html)
items = doc('.list')
lis = items.children()
print(lis)
print(type(lis))
<li class="on">
<a href="https://www.douban.com" data-moreurl-dict="{"from":"top-nav-click-main","uid":"0"}">豆瓣</a>
</li>
<li class="">
<a href="https://book.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-book","uid":"0"}">读书</a>
</li>
<class 'pyquery.pyquery.PyQuery'>
如果要所有子节点中符合条件的节点,比如想筛选出子节点中class为on的节点可以向children()方法传入CSS选择器.on:
lis = items.children('.on')
print(lis)
<li class="on">
<a href="https://www.douban.com" data-moreurl-dict="{"from":"top-nav-click-main","uid":"0"}">豆瓣</a>
</li>
如果想要获取父节点可以用parents()方法:
from pyquery import PyQuery as pq#引入PyQuery对象
doc = pq(html)
items = doc('.list')
lis = items.parent()
print(lis)
print(type(lis))
<div id="items">
<ul class="list">
<li class="on">
<a href="https://www.douban.com" data-moreurl-dict="{"from":"top-nav-click-main","uid":"0"}">豆瓣</a>
</li>
<li class="">
<a href="https://book.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-book","uid":"0"}">读书</a>
</li>
</ul>
</div>
<class 'pyquery.pyquery.PyQuery'>
这里的父节点时直接父节点,如果想要查找祖先节点可以用parents()方法。
如果想要筛选某个祖先节点的话可以用CSS选择器:
parent = items.parents('.wrap')
这里筛选出class为wrap的父节点。
使用siblings()方法可以筛选出兄弟节点:
items = doc('.list .on')
print(items.siblings())
<li class="">
<a href="https://book.douban.com" target="_blank" data-moreurl-dict="{"from":"top-nav-click-book","uid":"0"}">读书</a>
</li>
通过CSS选择器可以筛选出符合条件的兄弟节点:
print(items.siblings('.active'))
筛选出class为active的兄弟节点。
使用items()方法可以对其中的节点解析遍历:
lis = doc('li').items()
for li in lis:
print(li)
解析网页的最终目的就是要提取其中的信息,下面分别来说一下如何来获取属性和文本:
attr()方法可以用来获取属性:
a = doc('.list .on a')
print(a.attr('href'))
https://www.douban.com
这里首先选中a标签,然后调用attr()方法获取href的属性值。
也可以调用attr的href属性:a.attr.href。
但要注意的是,当返回结果包含多个节点时attr()只会得到第一个节点的属性。但使用遍历就可以得到所有a节点的属性:
a = doc('a')
for item in a.items():
print(item.attr('href'))
使用text()方法可以获取其中的文本:
a = doc('.list .on a')
print(a.text())
豆瓣
如果想要获取全部的html文本就可以使用html()方法。
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/140594.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...