from pyquery import PyQuery as pq「建议收藏」

全栈程序员-用户IM • 2022年5月7日下午5:00 • 未分类

大家好，又见面了，我是你们的朋友全栈君。

了解更多关注微信公众号“木下学Python”吧~

1.爬取知乎-发现-热门话题的问答：

import requests
from pyquery import PyQuery as pq

url = 'https://www.zhihu.com/explore'
headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKi\
            t/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36'}

html = requests.get(url,headers = headers).text

doc = pq(html) #初始化PyQuery类对象
items = doc('.explore-tab .feed-item').items() #抓取 .explore-tab 结点下的所有 .feed-item 子节点 .items() 把他们组成列表
for item in items:
    question = item.find('h2').text() #抓问题，不为 .h2 理由是 h2 是标签，不是属性
    author = item.find('.author-link-line').text() #抓作者
    answer = pq(item.find('.content').html()).text() #抓取一条回答，列表里面返回的是标签名称，.html()还原成 html 代码
    file = open('explore.txt','a',encoding='utf-8')
    file.write('\n'.join([question,author,answer]))
    file.write('\n' + '=' * 50 + '\n')
    file.close()

2..find()

查找子孙结点

3.,attr()

<img alt=”炉石传说石英元素女巫森林新卡” src=”http://newsimg.5054399.com/uploads/litimg/180410/1606441M5F5.jpg”>

可以理解为这个标签的对应值，是以字典形式返回，所以 attr() 返回键的值；例如 attr(‘alt’) 得到的是 ‘炉石传说石英元素

女巫森林新卡’

提取 scr 的值：.attr(‘lz_src’) 加一个 lz_

doc = pq(html)
items = doc('#dq_list > li').items()

绿色部分获取结点的方法为 Selector;还可以有其他方法

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/139612.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

from pyquery import PyQuery as pq「建议收藏」

相关推荐

360浏览器怎么设置截图快捷键_谷歌浏览器截图快捷键ctrl加什么

Java常用开发工具有哪些？

intelj 2021 激活码(注册激活)[通俗易懂]

linux rpm卸载包及其依赖,Linux下如何用rpm卸载软件 rpm依赖包强制卸载

PHP smarty

STM32——PS2遥控手柄[通俗易懂]

发表回复