Python爬虫程序实例

全栈程序员-用户IM • 2022年6月17日上午8:16 • 未分类

Python爬虫程序实例在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包，所以我们之前要安装这两个包，如果不清楚是否安装，可以使“piplist”查看是否已经安装。做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查，在网页空白处右击鼠标在弹出菜单中，使用“检查”菜单项。在检查元素窗口中，在“Elements”窗口仔细查看网页元素，特别要观察所要截取的内容前后HTML元素的特征。在上述代码中：主要抓取中的元素，这里看到它们的class元素的名称都是“news_li_strong”，所以在代

大家好，又见面了，我是你们的朋友全栈君。

在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包，所以我们之前要安装这两个包，如果不清楚是否安装，可以使“pip list”查看是否已经安装。
做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查，在网页空白处右击鼠标在弹出菜单中，使用“检查”菜单项。

在检查元素窗口中，在“Elements”窗口仔细查看网页元素，特别要观察所要截取的内容前后HTML元素的特征。
在这里插入图片描述
在上述代码中：主要抓取

中的元素，这里看到它们的class元素的名称都是“news_li_strong”，所以在代码中使用：
div = news_li.find_all(‘li’, class_ = ‘news_li_strong’)
可以得到新闻的标题的li区域内容，再使用对span区域取值，可以取到新闻标题的名称：
spant=lia.find_all(‘span’, class_ = ‘total_txt’)
spant是各标题的集合。以下取得各新闻内容的链接地址：
suburl=””
for a in lia.find_all(‘a’):
suburl=a.get(‘href’)
urlstr=self.server + suburl
再使用如下的代码取得新闻的具体内容：
req = requests.get(url = target)
html = req.text
bf = BeautifulSoup(html)
texts = bf.find_all(‘div’, class_ = ‘context_info_bottle_con’)
texts = texts[0].text.replace(’\xa0’*8,’\n\n’)
return texts
这样取得了所有内容后，再使用写入即可将新闻标题与内容抓取到文件中。
源码下载：Python源码

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/149643.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

linux命令 dstat,dstat命令

linux命令 dstat,dstat命令dstat命令是一个用来替换vmstat、iostat、netstat、nfsstat和ifstat这些命令的工具，是一个全能系统信息统计工具。与sysstat相比，dstat拥有一个彩色的界面，在手动观察性能状况时，数据比较显眼容易观察；而且dstat支持即时刷新，譬如输入dstat3即每三秒收集一次，但最新的数据都会每秒刷新显示。和sysstat相同的是，dstat也可以收集指定的性能资源，…

全栈程序员-用户IM
2022年6月18日
file.getcanonicalpath_maven relativepath

file.getcanonicalpath_maven relativepathThymeleafcontextPath的获取1.在html标签中路径使用@{}会自动添加上下文路径 eg:请求/thymeleaf接口 <ath:href="@{‘/thymeleaf’}"id="contextPath">跳转到thymeleaf</a>2.在js中 eg:请求/thymeleaf接口 //根路径获取相当于jsp的使用${pageContext….

全栈程序员-用户IM
2022年9月17日
maven编译报错：java.lang.ExceptionInInitializerError: com.sun.tools.javac.code.TypeTags[通俗易懂]

maven编译报错：java.lang.ExceptionInInitializerError: com.sun.tools.javac.code.TypeTags[通俗易懂]错误日志:[ERROR]Failedtoexecutegoalorg.apache.maven.plugins:maven-compiler-plugin:3.1:compile(default-compile)onprojecthelloworld:Fatalerrorcompiling:java.lang.ExceptionInInitializerError:c…

全栈程序员-用户IM
2022年5月28日
docker

数人云|优势+工具+实践=DevOps&Docker的企业级落地

数人云|优势+工具+实践=DevOps&Docker的企业级落地

全栈程序员-用户IM
2022年3月5日
flashfxp 5.4.0.3970 绿色汉化版注册码

flashfxp 5.4.0.3970 绿色汉化版注册码FlashFXPRegistrationDataSTARTFLASHFXP0wC2kbML0wAAAADEW5MNJwTnsl790jgG5F4CTA4jUAdMi66HHqFbShaEpE

全栈程序员-用户IM
2022年7月2日
django配置文件详解_django 日志配置和使用

django配置文件详解_django 日志配置和使用前言Django的配置文件settings.py用于配置整个网站的环境和功能，核心配置必须有项目路径、密钥配置、域名访问权限、App列表、中间件、资源文件、模板配置、数据库的连接方式基本配置信息

全栈程序员-用户IM
2022年7月31日

发表回复

关注全栈程序员社区公众号