pyquery库的使用

pyquery库的使用pyquery的强大之处就在于它有强大的CSS选择器,要初始化一个pyquery对象,首先需要传入一个HTML文本,它的初始化方式有多种,比如传入字符串、URL、文件名等。字符串初始化:我们先来看一个例子:frompyqueryimportPyQueryaspq#引入PyQuery对象html=”’<divclass="global-nav-items"&…

大家好,又见面了,我是你们的朋友全栈君。

pyquery的强大之处就在于它有强大的CSS选择器,要初始化一个pyquery对象,首先需要传入一个HTML文本,它的初始化方式有多种,比如传入字符串、URL、文件名等。

字符串初始化:

我们先来看一个例子:

from pyquery import PyQuery as pq#引入PyQuery对象
html = '''
<div class="global-nav-items">
  <ul>
    <li class="on">
      <a href="https://www.douban.com"  data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
    <li class="">
      <a href="https://movie.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-movie&quot;,&quot;uid&quot;:&quot;0&quot;}">电影</a>
    </li>
    <li class="">
      <a href="https://music.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-music&quot;,&quot;uid&quot;:&quot;0&quot;}">音乐</a>
    </li>
    <li class="">
      <a href="https://www.douban.com/location" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-location&quot;,&quot;uid&quot;:&quot;0&quot;}">同城</a>
    </li>
    <li class="">
      <a href="https://www.douban.com/group" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-group&quot;,&quot;uid&quot;:&quot;0&quot;}">小组</a>
    </li>
    <li class="">
      <a href="https://read.douban.com&#47;?dcs=top-nav&amp;dcm=douban" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-read&quot;,&quot;uid&quot;:&quot;0&quot;}">阅读</a>
    </li>
    <li class="">
      <a href="https://douban.fm&#47;?from_=shire_top_nav" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-fm&quot;,&quot;uid&quot;:&quot;0&quot;}">FM</a>
    </li>
  </ul>
</div>
'''
doc = pq(html)
print(doc('li'))#将初始化好的对象传入CSS选择器获取li标签
<li class="on">
      <a href="https://www.douban.com"  data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
    <li class="">
      <a href="https://movie.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-movie&quot;,&quot;uid&quot;:&quot;0&quot;}">电影</a>
    </li>
    <li class="">
      <a href="https://music.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-music&quot;,&quot;uid&quot;:&quot;0&quot;}">音乐</a>
    </li>
    <li class="">
      <a href="https://www.douban.com/location" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-location&quot;,&quot;uid&quot;:&quot;0&quot;}">同城</a>
    </li>
    <li class="">
      <a href="https://www.douban.com/group" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-group&quot;,&quot;uid&quot;:&quot;0&quot;}">小组</a>
    </li>
    <li class="">
      <a href="https://read.douban.com&#47;?dcs=top-nav&amp;dcm=douban" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-read&quot;,&quot;uid&quot;:&quot;0&quot;}">阅读</a>
    </li>
    <li class="">
      <a href="https://douban.fm&#47;?from_=shire_top_nav" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-fm&quot;,&quot;uid&quot;:&quot;0&quot;}">FM</a>
    </li>

URL初始化:

当初始化的参数为URL时,需要指定参数为url:

from pyquery import PyQuery as pq
doc = pq(url='https://movie.douban.com/cinema/nowplaying/chengdu/')
print(doc('title'))
<title>
    成都 - 在线购票&amp;影讯
</title>

PyQuery对象会首先请求这个url,然后用得到的html内容完成初始化,这相当于用网页的源代码以字符串的形式传递给PyQuery类来初始化,下面的写法也是相同的:

from pyquery import PyQuery as pq
import requests
doc = pq(requests.get('https://movie.douban.com/cinema/nowplaying/chengdu/').text)
print(doc('title'))

除了传递url以外,还可以传递本地的文件名,只需要将参数指定为filename即可:

from pyquery import PyQuery as pq
doc = pq(filename='rr.html')
print(doc('img'))

当然文件必须时html文件,这样的话会先读取本地的文件内容,然后将文件内容以字符串的形式传递给PyQuery类来初始化。

CSS选择器

先来看一个例子:

from pyquery import PyQuery as pq#引入PyQuery对象
html = '''
<div id="items">
  <ul class="list">
    <li class="on">
      <a href="https://www.douban.com"  data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  </ul>
</div>
'''
doc = pq(html)
print(doc('#items .list li'))
print(type(doc('#items .list li')))
<li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  
<class 'pyquery.pyquery.PyQuery'>

这里我们初始化了PyQuery对象以后传入一个CSS选择器:#items .list li它的意思是先选取id为items的节点,然后再选取其内部class为list的节点内部的所有li结点。

查找结点

使用find()方法,传入CSS选择器可以查找子节点:

from pyquery import PyQuery as pq#引入PyQuery对象
html = '''
<div id="items">
  <ul class="list">
    <li class="on">
      <a href="https://www.douban.com"  data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  </ul>
</div>
'''
doc = pq(html)
items = doc('.list')
print(items)
print(type(items))
lis = items.find('li')
print(lis)
print(type(lis))
<ul class="list">
    <li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  </ul>

<class 'pyquery.pyquery.PyQuery'>
<li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  
<class 'pyquery.pyquery.PyQuery'>

这里首先选取class为list的节点,然后调用find()方法,传入css选择器,选取其内部的li节点,这时find()方法就会将所有符合条件的子节点选出来。find()方法会将所有符合条件的子孙节点找出来,如果要选则直接子节点就可以用children()方法:

from pyquery import PyQuery as pq#引入PyQuery对象
doc = pq(html)
items = doc('.list')
lis = items.children()
print(lis)
print(type(lis))
<li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  
<class 'pyquery.pyquery.PyQuery'>

如果要所有子节点中符合条件的节点,比如想筛选出子节点中class为on的节点可以向children()方法传入CSS选择器.on:

lis = items.children('.on')
print(lis)
<li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>

如果想要获取父节点可以用parents()方法:

from pyquery import PyQuery as pq#引入PyQuery对象
doc = pq(html)
items = doc('.list')
lis = items.parent()
print(lis)
print(type(lis))
<div id="items">
  <ul class="list">
    <li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  </ul>
</div>
<class 'pyquery.pyquery.PyQuery'>

这里的父节点时直接父节点,如果想要查找祖先节点可以用parents()方法。

如果想要筛选某个祖先节点的话可以用CSS选择器:

parent = items.parents('.wrap')

这里筛选出class为wrap的父节点。

使用siblings()方法可以筛选出兄弟节点:

items = doc('.list .on')
print(items.siblings())
<li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>

通过CSS选择器可以筛选出符合条件的兄弟节点:

print(items.siblings('.active'))

筛选出class为active的兄弟节点。

使用items()方法可以对其中的节点解析遍历:

lis = doc('li').items()
for li in lis:
    print(li)

解析网页的最终目的就是要提取其中的信息,下面分别来说一下如何来获取属性和文本:

attr()方法可以用来获取属性:
 

a = doc('.list .on a')
print(a.attr('href'))
https://www.douban.com

这里首先选中a标签,然后调用attr()方法获取href的属性值。

也可以调用attr的href属性:a.attr.href。

但要注意的是,当返回结果包含多个节点时attr()只会得到第一个节点的属性。但使用遍历就可以得到所有a节点的属性:

a = doc('a')
for item in a.items():
    print(item.attr('href'))

使用text()方法可以获取其中的文本:

a = doc('.list .on a')
print(a.text())
豆瓣

如果想要获取全部的html文本就可以使用html()方法。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/140594.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • JAVA中Object转String

    JAVA中Object转String1.object.toString()方法这种方法要注意的是object不能为null,否则会报NullPointException,一般别用这种方法。2.String.valueOf(object)方法这种方法不必担心object为null的问题,若为null,会将其转换为”null”字符串,而不是null。这一点要特别注意。”null”和null不是一个概念。3….

  • lock接口是什么意思_mutextrylock无效

    lock接口是什么意思_mutextrylock无效正文开始前先把lock接口的源码摆出来(精简后的,特意保留了部分注释)publicinterfaceLock{/***Acquiresthelock.*/voidlock();/***Acquiresthelockunlessthecurrentthreadis*{@linkpl…

    2022年10月15日
  • 呕心沥血整理的的嵌入式学习路线[通俗易懂]

    呕心沥血整理的的嵌入式学习路线[通俗易懂]曾经是某见的教学总监,我带出来的学生也有大几千了,基本都从事linux相关工作。网上看了很多的嵌入式学习路线,有的还凑活,有的纯粹是打广告卖板子,有的东拼西凑,简直是嵌入式劝退指南。大致给你梳理一下我从事的一个嵌入式的课程培训体系吧。基础1.linux基本操作:个人建议只要会一些基本的操作就行了,不需要太深入的学习每一个命令,用到的时候会去搜索就行了。需要掌握的知识如下:环境的搭建;Linux目录结构;文件类型;基本目录操作,文件操作,vim,ifconfig,ping,cd,cp,m

  • <&gt(action/joingroup?code=v1)

    Ribbon本身提供了下面几种负载均衡策略:RoundRobinRule:轮询策略,Ribbon以轮询的方式选择服务器,这个是默认值。所以示例中所启动的两个服务会被循环访问;RandomRule:随机选择,也就是说Ribbon会随机从服务器列表中选择一个进行访问;BestAvailableRule:最大可用策略,即先过滤出故障服务器后,选择一个当前并发请求数最小的;WeightedR…

  • 反Secure Boot垄断:兼谈如何在Windows 8电脑上安装Linux

    反Secure Boot垄断:兼谈如何在Windows 8电脑上安装Linux

  • Java中HashMap遍历几种方式[通俗易懂]

    Java中HashMap遍历几种方式[通俗易懂]目录一、使用迭代器二、foreach遍历一、使用迭代器第一种:  Mapmap=newHashMap();  Iteratoriter=map.entrySet().iterator();  while(iter.hasNext()){  Map.Entryentry=(Map.Entry)iter.next();  Objectkey…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号