PHP蜘蛛爬虫开发文档

全栈程序员-用户IM • 2021年11月4日下午12:00 • 未分类

PHP蜘蛛爬虫开发文档

《我用爬虫一天时间“偷了”知乎一百万用户，只为证明PHP是世界上最好的语言》所使用的程序框架

编写PHP网络爬虫, 需要具备以下技能:

爬虫采用PHP编写
从网页中抽取数据需要用XPath
当然我们还可以使用CSS选择器
很多情况下都会用到正则表达式
Chrome的开发者工具是神器, 很多AJAX请求需要用它来分析

注意：本框架只能在命令行下运行，命令行、命令行、命令行，重要的事情说三遍 ^_^

第一个demo

爬虫采用PHP编写, 下面以糗事百科为例, 来看一下我们的爬虫长什么样子:

    $configs = array(
        'name' => '糗事百科',
        'domains' => array(
            'qiushibaike.com',
            'www.qiushibaike.com'
        ),
        'scan_urls' => array(
            'http://www.qiushibaike.com/'
        ),
        'content_url_regexes' => array(
            "http://www.qiushibaike.com/article/\d+"
        ),
        'list_url_regexes' => array(
            "http://www.qiushibaike.com/8hr/page/\d+\?s=\d+"
        ),
        'fields' => array(
            array(
                // 抽取内容页的文章内容
                'name' => "article_content",
                'selector' => "//*[@id='single-next-link']",
                'required' => true
            ),
            array(
                // 抽取内容页的文章作者
                'name' => "article_author",
                'selector' => "//div[contains(@class,'author')]//h2",
                'required' => true
            ),
        ),
    );
    $spider = new phpspider($configs);
    $spider->start();

爬虫的整体框架就是这样, 首先定义了一个$configs数组, 里面设置了待爬网站的一些信息, 然后通过调用$spider = new phpspider($configs);和$spider->start();来配置并启动爬虫.

运行界面如下:

PHP蜘蛛爬虫开发文档

$configs对象如何定义, 后面会作详细介绍.^_^

官方下载地址：https://github.com/owner888/phpspider

官方开发手册：https://doc.phpspider.org/

版权声明：本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至举报，一经查实，本站将立刻删除。

发布者：全栈程序员-用户IM，转载请注明出处：https://javaforall.cn/112625.html原文链接：https://javaforall.cn

【正版授权，激活自己账号】： Jetbrains全家桶Ide使用，1年售后保障，每天仅需1毛

【官方授权正版激活】： 官方授权正版激活支持Jetbrains家族下所有IDE 使用个人JB账号...

赞 (0)

全栈程序员-用户IM

0 0

Pycharm和Anaconda的python版本问题

Pycharm和Anaconda的python版本问题问题描述：Pycharm需要导入tensorflow库，但现在的python版本为3.8,不支持导入。于是想办法在Anaconda新建python3.6环境，之后再用于Pycharm开发。1.anaconda创建新的python版本环境2.找到新建python3.6的文件位置，点击python36切换时会显示位置：3.pycharm里新建环境，以第二步的python3.6环境为基础环境：导包时可能会出现问题：zeroexitcode(2)这是因为pip版本问题，使用

全栈程序员-用户IM
2022年8月28日
MySQL配置文件配置

MySQL配置文件配置MySQL配置文件

全栈程序员-用户IM
2022年5月5日
java cloneable 用途_java中cloneable的使用「建议收藏」

java cloneable 用途_java中cloneable的使用「建议收藏」什么是java中的浅克隆和深克隆?浅克隆:克隆对象中的变量与之前对象的值相同,并且对象中的引用类型变量仍然指向原来对象引用类型变量的地址.深克隆:克隆对象中的变量与之前对象的值相同，并且对象中的引用类型变量指向了新的对象的引用变量的地址.要想实现克隆，只需定义的类声明下cloneable这个标记性接口,并且衍生重写Object类中就有的clone()方法即可.为什么类要首先声明cloneable标…

全栈程序员-用户IM
2022年10月14日
Java实现整型转字符串，位数不足时可以自动补0

Java实现整型转字符串，位数不足时可以自动补0代码publicclassStringUtil{/***整型转字符串并格式化*@paramminSize最小大小*@paramseparator分隔符*@paramintNums需要转化的整数*@return字符串*/publicstaticStringformatInt(intminSize,Stringseparator,int…intNums){

全栈程序员-用户IM
2022年10月18日
怎样将Sublime Text 设置成中文版（完整教程）「建议收藏」

怎样将Sublime Text 设置成中文版（完整教程）「建议收藏」1.打开SublimeText,使用快捷键Shift+Ctrl+P,弹出查找栏，如图：2.在搜索框中输入关键字install,出现下拉选项，选择其中的：PackageControl:InstallPackage,如图：（PS:…

全栈程序员-用户IM
2022年7月11日
正则表达式：匹配不包含某些字符和不包含某些字符串的写法「建议收藏」

正则表达式：匹配不包含某些字符和不包含某些字符串的写法「建议收藏」不包含某些字符：不包含某些字符串：当然下面不包含字符串可以演变为不包含字符使用，看你喜欢使用。

全栈程序员-用户IM
2022年7月2日

发表回复

关注全栈程序员社区公众号