中国知网爬虫

中国知网爬虫中国知网爬虫一、知网介绍提起中国知网,如果你曾经写过论文,那么基本上都会与中国知网打交道,因为写一篇论文必然面临着各种查重,当然翟博士除外。但是,本次重点不在于写论文跟查重上,而在于我们要爬取知网上一些论文的数据,什么样的数据呢?我们举一个例子来说,在知网上,搜索论文的方式有很多种,但是对于专业人士来说,一般都会使用高级检索,因为直接去查找作者的话,容易查找到很多重名作者,所以我们本次的爬…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

中国知网爬虫

一、知网介绍

提起中国知网,如果你曾经写过论文,那么基本上都会与中国知网打交道,因为写一篇论文必然面临着各种查重,当然翟博士除外。但是,本次重点不在于写论文跟查重上,而在于我们要爬取知网上一些论文的数据,什么样的数据呢?我们举一个例子来说,在知网上,搜索论文的方式有很多种,但是对于专业人士来说,一般都会使用高级检索,因为直接去查找作者的话,容易查找到很多重名作者,所以我们本次的爬虫也是使用了高级检索(泛称)的爬虫,再具体就是专业检索,有助于我们唯一定位到作者。

中国知网爬虫

中国知网爬虫

二、常规步骤—页面分析

1.来到高级检索页面,以【AU=王长峰 AND FU=71271031】为例检索,结果如下:

中国知网爬虫

2.利用Xpath语法尝试获取这些数据,却发现一无所获。

中国知网爬虫

3.按照常理来说,即使是动态网页也可以利用Xpath语法提取到数据,只是在Python里面获取不到而已,所以在这里存在我们所不知道的问题。

三、知网反爬虫机制

常见的反爬虫机制一般有两种:

第一种是请求头反爬虫,这个也是最简单的,如果你不给定请求头,对方服务器就不会理你。需要设置的参数有User-Agent、Referer和Cookie。

第二种是动态网页,利用Ajax技术使用js接口来传递数据。

毫无疑问,对于数据非常金贵的中国知网来说,肯定使用了以上两种反爬方式,并且中国知网的js接口非常复杂,虽说复杂,但是只要你的内功要是足够强的话,还是能够分析得出来,但是对于不懂js以及web开发的朋友来说,这将是一个非常困难的事情,所以使用selenium来进行爬虫将是一件相对来说比较容易的事情。

另外,知网也不是仅仅只有这两层反爬虫机制,还有第三层,那就是iframe,由于很多朋友并没有做过网站开发,所以不太清楚了这是什么东西,导致即使发现自己的Xpath语法正确,也无法正确获取数据,从而怀疑人生,实际上,iframe比较常见的一种反爬虫机制,不过,如果你不知道这个东西,那么你就基本上无缘爬取中国知网了。

四、什么是iframe?

了解iframe前,你首先得知道一个网页是什么,没错,一个网页就是一个html页面。接下来我们从感性和源码两个方面来认识一下iframe.

1.感性认知。

一句话:一个完整的网页内部又嵌套了多个完整的网页,嵌套的页面就叫做iframe。

中国知网爬虫

2.网页源码认识。

比如一个非常简单的html页面(如下图所示),一个html页面是拥有一个完整的html标签的,也就是起始html【<html>】和闭合html【</html>】,而iframe则是在这一个完整的html标签里面又嵌套了一个完整的html标签。

<html>
<body>

<p>Python伊甸园</p>

</body>
</html>

中国知网爬虫

中国知网爬虫

3.看一下中国知网的源码,发现果然存在一个iframe,所以这个就是中国知网的第三种反爬虫机制。

中国知网爬虫

五、最后给出中国知网的爬虫

1.ways.py

import pandas as pd
#AU=王长峰 AND FU=71271031
def get_data():
    data_list = pd.read_excel(r"C:\Users\wwb\Desktop\科学基金.xls",
                              encoding='utf8')
    leaders = data_list.leader.values.tolist()
    codes = data_list.code.tolist()
    results = []
    for leader,code in zip(leaders,codes):
        result = "AU={} AND FU={}".format(leader,code)
        results.append(result)
    return results

#results = get_data()
#print(results)

2.main.py

from selenium import webdriver
from lxml import etree
import time
from ways import get_data
import random

def pasre_page(driver):
    html = etree.HTML(driver.page_source)
    trs = html.xpath('//tr[@bgcolor]')
    for tr in trs:
        title = tr.xpath('./td//a[@class="fz14"]/text()')[0]
        authors = tr.xpath('./td[@class="author_flag"]/a[@class="KnowledgeNetLink"]//text()')
        authors = "|".join(authors)
        source = tr.xpath('./td//a[@target="_blank"]/text()')[1]
        times = tr.xpath('./td[@align="center"]/text()')[0].strip()
        database = tr.xpath('./td[@align="center"]/text()')[1].strip()
        counted = tr.xpath('./td//span[@class="KnowledgeNetcont"]/a/text()')
        if len(counted) == 0:
            counted = 0
        else:
            counted = counted[0]
        downloadCount = tr.xpath('./td//span[@class="downloadCount"]/a/text()')
        if len(downloadCount) == 0:
            downloadCount = 0
        else:
            downloadCount = downloadCount[0]
        data = {
                "title":title,
                "authors":authors,
                "source":source,
                "times":times,
                "database":database,
                "counted":counted,
                "downloadCount":downloadCount,
                }
        datas.append(data)
        print(title)
    time.sleep(random.uniform(2,4))
    driver.switch_to.parent_frame()
    search_win = driver.find_element_by_id('expertvalue')
    search_win.clear()
    time.sleep(random.uniform(2,4))
    

driver_path = r"C:\Users\wwb\Desktop\chromedriver.exe"
driver = webdriver.Chrome(executable_path=driver_path)
url = "https://www.cnki.net/"
driver.get(url)

home_page = driver.find_element_by_id('highSearch')
home_page.click()
driver.switch_to_window(driver.window_handles[1])
search_page = driver.find_element_by_id('1_3')
search_page.click()
datas = []
results = get_data()
for result in results:
    search_win = driver.find_element_by_id('expertvalue')
    search_win.send_keys(result)
    search_btn = driver.find_element_by_id('btnSearch')
    search_btn.click()
    iframe = driver.find_element_by_id('iframeResult')
    driver.switch_to.frame(iframe) 
    time.sleep(random.uniform(2,4))
    pasre_page(driver)

3.部分结果展示:

中国知网爬虫


扫描二维码即可参与该课程,解锁更多爬虫知识:

中国知网爬虫

 

 

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/159483.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • ios屏蔽ota更新描述文件(苹果软件更新怎么关闭)

    前言iOS手机下载新系统文件后,老是提示更新升级,确实很烦人,且为了防止手机被不小心给升级了,可以按照以下方法让手机显示当前版本为最高版本,不会下载升级包进行安装升级。操作步骤1、Safari浏览器中输入网址ibeta.me进入网页,选择最右侧屏蔽OTA更新,点击立即安装则会立即下载一个描述文件。2、进入手机设置->通用->描述文件选择tvOS13BetaSoftwareProfile,点击安装3、安装成功后,会提示重启手机,点击重启

  • 纯HTML+CSS网页设计期末作业(个人网站)

    目录纯HTML+CSS网页设计期末作业(个人网站)效果展示源码index.htmlindex.cssabout.htmlhobbies.htmlhobbies.cssme.htmlme.cssbook1.htmlbook.csssongci.htmlsongci.css缺陷纯HTML+CSS网页设计期末作业(个人网站)效果展示index页面about页面hobbies页面书籍介绍页面元曲介绍页面源码index.html<!DOCTYPEhtml><h

  • StringBuffer 详解 (String系列之3)[通俗易懂]

    StringBuffer 详解 (String系列之3)[通俗易懂]本章介绍StringBuffer以及它的API的详细使用方法。转载请注明出处:http://www.cnblogs.com/skywang12345/p/string03.htmlStringBuff

  • pycharm如何设置字体大小快捷键_ps字体放大缩小快捷键

    pycharm如何设置字体大小快捷键_ps字体放大缩小快捷键一、pycharm字体放大的设置File->setting->Keymap->在搜寻框中输入:increase->IncreaseFontSize(双击)->在弹出的对话框中选择AddMouseShortcut在弹出的对话框中同时按住ctrl键和鼠标滚轮向上滑,点击OK完成设置二、Pycharm字体缩小的设置File->setting->Keymap->在搜寻框中输入:decrease->Decre.

  • 日语输入法手机版下载_simeji日语输入法安卓

    日语输入法手机版下载_simeji日语输入法安卓WINXP的日语输入法不正常的解决方法及相关文件下载问题:如果你的WINXP的日语输入法不正常:安装好微软自带的输入法后,只能输入英文无法输入日文,也是只见光标在闪怎么按罗马音敲键盘就是没反映,问题分析:这时请检查你自己的X:/WINDOWS/ime有多大,正常应该大于80兆(X是指XP的安装分区,一般是C盘),如果你的只有几兆,那么说明你用的XP系统安装盘是简化的克隆安装盘,日语输入法相

    2022年10月21日
  • centos7安装nginx1.16.1

    centos7安装nginx1.16.1centos7安装nginx1.16.1一.安装依赖库二.安装四.测试五.配置1.配置nginx为web容器2.配置nginx为代理服务器一.安装依赖库这里使用yum安装,如果是刚安装好的centos7,没有配置yum的话,点击此处yum-yinstallgccyum-yinstallpcrepcre-develyum-yinstallzlibzlib-develyum-yinstallopensslopenssl-devel二.安装wget下载ngin

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号