大家好,又见面了,我是你们的朋友全栈君。
在这个爬虫程序中使用到“BeautifulSoup”与“requests”两个包,所以我们之前要安装这两个包,如果不清楚是否安装,可以使“pip list”查看是否已经安装。
做“爬虫程序”时建议用谷歌浏览器对网页元素进行检查,在网页空白处右击鼠标在弹出菜单中,使用“检查”菜单项。
在检查元素窗口中,在“Elements”窗口仔细查看网页元素,特别要观察所要截取的内容前后HTML元素的特征。
在上述代码中:主要抓取
- 中的元素,这里看到它们的class元素的名称都是“news_li_strong”,所以在代码中使用:
div = news_li.find_all(‘li’, class_ = ‘news_li_strong’)
可以得到新闻的标题的li区域内容,再使用对span区域取值,可以取到新闻标题的名称:
spant=lia.find_all(‘span’, class_ = ‘total_txt’)
spant是各标题的集合。以下取得各新闻内容的链接地址:
suburl=””
for a in lia.find_all(‘a’):
suburl=a.get(‘href’)
urlstr=self.server + suburl
再使用如下的代码取得新闻的具体内容:
req = requests.get(url = target)
html = req.text
bf = BeautifulSoup(html)
texts = bf.find_all(‘div’, class_ = ‘context_info_bottle_con’)
texts = texts[0].text.replace(’\xa0’*8,’\n\n’)
return texts
这样取得了所有内容后,再使用写入即可将新闻标题与内容抓取到文件中。
源码下载:Python源码
发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/149643.html原文链接:https://javaforall.cn
【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛
【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...