pyquery库的使用

pyquery库的使用pyquery的强大之处就在于它有强大的CSS选择器,要初始化一个pyquery对象,首先需要传入一个HTML文本,它的初始化方式有多种,比如传入字符串、URL、文件名等。字符串初始化:我们先来看一个例子:frompyqueryimportPyQueryaspq#引入PyQuery对象html=”’<divclass="global-nav-items"&…

大家好,又见面了,我是你们的朋友全栈君。

pyquery的强大之处就在于它有强大的CSS选择器,要初始化一个pyquery对象,首先需要传入一个HTML文本,它的初始化方式有多种,比如传入字符串、URL、文件名等。

字符串初始化:

我们先来看一个例子:

from pyquery import PyQuery as pq#引入PyQuery对象
html = '''
<div class="global-nav-items">
  <ul>
    <li class="on">
      <a href="https://www.douban.com"  data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
    <li class="">
      <a href="https://movie.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-movie&quot;,&quot;uid&quot;:&quot;0&quot;}">电影</a>
    </li>
    <li class="">
      <a href="https://music.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-music&quot;,&quot;uid&quot;:&quot;0&quot;}">音乐</a>
    </li>
    <li class="">
      <a href="https://www.douban.com/location" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-location&quot;,&quot;uid&quot;:&quot;0&quot;}">同城</a>
    </li>
    <li class="">
      <a href="https://www.douban.com/group" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-group&quot;,&quot;uid&quot;:&quot;0&quot;}">小组</a>
    </li>
    <li class="">
      <a href="https://read.douban.com&#47;?dcs=top-nav&amp;dcm=douban" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-read&quot;,&quot;uid&quot;:&quot;0&quot;}">阅读</a>
    </li>
    <li class="">
      <a href="https://douban.fm&#47;?from_=shire_top_nav" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-fm&quot;,&quot;uid&quot;:&quot;0&quot;}">FM</a>
    </li>
  </ul>
</div>
'''
doc = pq(html)
print(doc('li'))#将初始化好的对象传入CSS选择器获取li标签
<li class="on">
      <a href="https://www.douban.com"  data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
    <li class="">
      <a href="https://movie.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-movie&quot;,&quot;uid&quot;:&quot;0&quot;}">电影</a>
    </li>
    <li class="">
      <a href="https://music.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-music&quot;,&quot;uid&quot;:&quot;0&quot;}">音乐</a>
    </li>
    <li class="">
      <a href="https://www.douban.com/location" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-location&quot;,&quot;uid&quot;:&quot;0&quot;}">同城</a>
    </li>
    <li class="">
      <a href="https://www.douban.com/group" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-group&quot;,&quot;uid&quot;:&quot;0&quot;}">小组</a>
    </li>
    <li class="">
      <a href="https://read.douban.com&#47;?dcs=top-nav&amp;dcm=douban" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-read&quot;,&quot;uid&quot;:&quot;0&quot;}">阅读</a>
    </li>
    <li class="">
      <a href="https://douban.fm&#47;?from_=shire_top_nav" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-fm&quot;,&quot;uid&quot;:&quot;0&quot;}">FM</a>
    </li>

URL初始化:

当初始化的参数为URL时,需要指定参数为url:

from pyquery import PyQuery as pq
doc = pq(url='https://movie.douban.com/cinema/nowplaying/chengdu/')
print(doc('title'))
<title>
    成都 - 在线购票&amp;影讯
</title>

PyQuery对象会首先请求这个url,然后用得到的html内容完成初始化,这相当于用网页的源代码以字符串的形式传递给PyQuery类来初始化,下面的写法也是相同的:

from pyquery import PyQuery as pq
import requests
doc = pq(requests.get('https://movie.douban.com/cinema/nowplaying/chengdu/').text)
print(doc('title'))

除了传递url以外,还可以传递本地的文件名,只需要将参数指定为filename即可:

from pyquery import PyQuery as pq
doc = pq(filename='rr.html')
print(doc('img'))

当然文件必须时html文件,这样的话会先读取本地的文件内容,然后将文件内容以字符串的形式传递给PyQuery类来初始化。

CSS选择器

先来看一个例子:

from pyquery import PyQuery as pq#引入PyQuery对象
html = '''
<div id="items">
  <ul class="list">
    <li class="on">
      <a href="https://www.douban.com"  data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  </ul>
</div>
'''
doc = pq(html)
print(doc('#items .list li'))
print(type(doc('#items .list li')))
<li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  
<class 'pyquery.pyquery.PyQuery'>

这里我们初始化了PyQuery对象以后传入一个CSS选择器:#items .list li它的意思是先选取id为items的节点,然后再选取其内部class为list的节点内部的所有li结点。

查找结点

使用find()方法,传入CSS选择器可以查找子节点:

from pyquery import PyQuery as pq#引入PyQuery对象
html = '''
<div id="items">
  <ul class="list">
    <li class="on">
      <a href="https://www.douban.com"  data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  </ul>
</div>
'''
doc = pq(html)
items = doc('.list')
print(items)
print(type(items))
lis = items.find('li')
print(lis)
print(type(lis))
<ul class="list">
    <li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  </ul>

<class 'pyquery.pyquery.PyQuery'>
<li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  
<class 'pyquery.pyquery.PyQuery'>

这里首先选取class为list的节点,然后调用find()方法,传入css选择器,选取其内部的li节点,这时find()方法就会将所有符合条件的子节点选出来。find()方法会将所有符合条件的子孙节点找出来,如果要选则直接子节点就可以用children()方法:

from pyquery import PyQuery as pq#引入PyQuery对象
doc = pq(html)
items = doc('.list')
lis = items.children()
print(lis)
print(type(lis))
<li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  
<class 'pyquery.pyquery.PyQuery'>

如果要所有子节点中符合条件的节点,比如想筛选出子节点中class为on的节点可以向children()方法传入CSS选择器.on:

lis = items.children('.on')
print(lis)
<li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>

如果想要获取父节点可以用parents()方法:

from pyquery import PyQuery as pq#引入PyQuery对象
doc = pq(html)
items = doc('.list')
lis = items.parent()
print(lis)
print(type(lis))
<div id="items">
  <ul class="list">
    <li class="on">
      <a href="https://www.douban.com" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-main&quot;,&quot;uid&quot;:&quot;0&quot;}">豆瓣</a>
    </li>
    <li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>
  </ul>
</div>
<class 'pyquery.pyquery.PyQuery'>

这里的父节点时直接父节点,如果想要查找祖先节点可以用parents()方法。

如果想要筛选某个祖先节点的话可以用CSS选择器:

parent = items.parents('.wrap')

这里筛选出class为wrap的父节点。

使用siblings()方法可以筛选出兄弟节点:

items = doc('.list .on')
print(items.siblings())
<li class="">
      <a href="https://book.douban.com" target="_blank" data-moreurl-dict="{&quot;from&quot;:&quot;top-nav-click-book&quot;,&quot;uid&quot;:&quot;0&quot;}">读书</a>
    </li>

通过CSS选择器可以筛选出符合条件的兄弟节点:

print(items.siblings('.active'))

筛选出class为active的兄弟节点。

使用items()方法可以对其中的节点解析遍历:

lis = doc('li').items()
for li in lis:
    print(li)

解析网页的最终目的就是要提取其中的信息,下面分别来说一下如何来获取属性和文本:

attr()方法可以用来获取属性:
 

a = doc('.list .on a')
print(a.attr('href'))
https://www.douban.com

这里首先选中a标签,然后调用attr()方法获取href的属性值。

也可以调用attr的href属性:a.attr.href。

但要注意的是,当返回结果包含多个节点时attr()只会得到第一个节点的属性。但使用遍历就可以得到所有a节点的属性:

a = doc('a')
for item in a.items():
    print(item.attr('href'))

使用text()方法可以获取其中的文本:

a = doc('.list .on a')
print(a.text())
豆瓣

如果想要获取全部的html文本就可以使用html()方法。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/140594.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • savefiledialog是什么对话框_saveshowfile什么意思

    savefiledialog是什么对话框_saveshowfile什么意思c#获取要保存文件的对话框,用SaveFileDialog类。具体用法很简单分享一下吧,对于初学者可能有用//可能要获取的路径名stringlocalFilePath=””,fileNameExt=””,newFileName=””,FilePath =””;SaveFileDialogsaveFileDialog=newSaveFileDialog();

  • 启动mysql报错10038_解决navicat远程连接mysql报错10038的问题

    navicat远程连接mysql报错10038一般由以下两个原因:一:本地防火墙问题在本地安装了mysql、navicat并打开了mysql服务的情况下,来设置防火墙。首先右击或者点击入站规则,找到新建规则,点击。点击端口。在特定本地端口中填入3306.一直点击下一步。这里可以给一个好分别的名称即可。之前再尝试连接即可,若仍然不可以,可能是服务器方面的问题。二:服务器3306端口未打开首先需要在安…

  • ASP.NET MVC-api增删改查

    ASP.NET MVC-api增删改查使用ASP.NETMVC-api技术实现对数据库的增删改查创建mvcapi项目创建完毕后的目录添加模型类接着在models文件夹添加实体数据模型,引入EF数据库,具体方法参考我之前的EF文章。然后在models中添加两个类,用于反馈操作是否成功。error类publicclassError{///<summary>///错误返回对象<br/>///exp:<br/>

  • 【详细】3分钟教会你使用USDT钱包「建议收藏」

    【详细】3分钟教会你使用USDT钱包「建议收藏」小编为您介绍一款安全系数非常高的USDT钱包,之所以安全系数非常高是因为去中心化模式,USDT钱包文件或私钥可以脱离网络储存,比如可以备份在手机里,硬盘里,U盘里,网盘里,甚至拿笔写在纸上。我们经常听说用户一般会把大部分数字资产存储到冷钱包,主要是为了安全的考虑,而把少量的数字资产存储在交易所热钱包,以方便交易,现在USDT钱包居多的是中心化钱包,用户的数字货币储存在交易所里,换句话说非常不安全,因为你不知道你的USDT钱包文件与私钥,交易所被黑客攻击或者自行关闭你是无能为力只能眼睁睁看这你的币子任由他

  • pytest skipif_pytest失败重跑

    pytest skipif_pytest失败重跑前言pytest.mark.skip可以标记无法在某些平台上运行的测试功能,或者您希望失败的测试功能Skip和xfail:处理那些不会成功的测试用例你可以对那些在某些特定平台上不能运行的测试用

  • (转载)iphone 用法总结:NSNumber、NSString、NSDate、NSCalendarDate、NSData

    (转载)iphone 用法总结:NSNumber、NSString、NSDate、NSCalendarDate、NSData

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号