python爬虫——淘宝书包

python爬虫——淘宝书包importreimportrequestsdefgetHTMLText(url):try:headers={‘user-agent’:’Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/76.0.3809….

大家好,又见面了,我是你们的朋友全栈君。

import re
import requests
def getHTMLText(url):
    try:
        headers={ 
   
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36',
              'cookie': 'cna=NQPPFYICwyoCAW8OdtofQqLm; tracknick=tb31551803; tg=0; enc=rmQMsTLREKmqi0wCPiaesTYWq1FQEkZvJR9RxYQe31E%2B8H%2Bgsg29O3QjlWBYNsk5B4hWdVnoyl9FmqezxIlA0A%3D%3D; thw=cn; hng=CN%7Czh-CN%7CCNY%7C156; x=e%3D1%26p%3D*%26s%3D0%26c%3D0%26f%3D0%26g%3D0%26t%3D0; t=8b87e0b54eedb63ec79bf6e58120539b; uc3=lg2=V32FPkk%2Fw0dUvg%3D%3D&nk2=F5RGNw0oDsOWmg%3D%3D&vt3=F8dBxdsbDKQbUlBPQ8E%3D&id2=Vy0Qmj0GGZVBZA%3D%3D; lgc=tb31551803; uc4=id4=0%40VXqe5nOGv2p3QUXK2yfB2w2AQ2Rw&nk4=0%40FY4NAqkeavMG4lO%2Fk5N%2Fb5R2Zw6o; _cc_=URm48syIZQ%3D%3D; mt=ci=118_1; JSESSIONID=790849CCFE2C514ABA531615EB3CA8E8; l=cBOcsO94QbHsxX8kBOCNquI8LPbOSIRAkuPRwCcXi_5dc6L_6w_OoSyK1Fp62jWdtfTB4JuaUM29-etkiKy06Pt-g3fP.; isg=BJ2dqUHwn35VGntR9LG1laqSrHmXutEM-IpwbF9i2fQjFr1IJwrh3GuEQQoQmOnE',
}
        r=requests.get(url,timeout=30,headers=headers)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return""
       
def parsePage(ilt,html):
    try:
        plt=re.findall(r'\"view_price\":\"\d+\.\d*\"',html)
        tlt=re.findall(r'\"raw_title\":\".*?\"',html)
        for i in range(len(plt)):
            price=eval(plt[i].split('\"')[3])
            title=tlt[i].split('\"')[3]
            ilt.append([title,price])
    except:
        print("解析出错")

def printGoodsList(ilt):
    tplt="{:^4}\t{:^8}\t{:^16}"
    
    print(tplt.format("序号","价格","商品名称"))
    count=0
    for g in ilt:
        count=count+1
        print(tplt.format(count,g[0],g[1]))
if __name__ == '__main__' :
    goods="书包"
    depth=2
    start_url="https://s.taobao.com/search?q="+goods
    infoList=[]
    for i in range(depth):
        try:
            url=start_url+"$S="+str(44*i)
            html=getHTMLText(url)
            parsePage(infoList,html)
        except:
            continue
    printGoodsList(infoList)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/150125.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • Java的三种注释

    Java的三种注释Java基础是java初学者的起点,是帮助你从小白入门到精通必学基础课程!为初学者而著!Java300集>>>适合准备入行开发的零基础员学习Java,基于最新JDK13、IDEA平台讲解的,视频中穿插多个实战项目。每一个知识点都讲解的通俗易懂,由浅入深。不仅适用于零基础的初学者,有经验的程序员也可做巩固学习。配套学习:Java初学者入门教程>>>Java注释:单行、多行和文档注释注释是对程序语言的说明,有助于开发者和用户之间的交流,方便理…

  • 华中农业大学python实验题

    华中农业大学python实验题华中农业大学Python部分实验题,旨在为大家提供思路,希望大家抱着借鉴的心理来学习,不要直接抄袭。

  • furture_南京future

    furture_南京future我想,还是不知道未来比较好!揭开神秘的同时也扼杀了希望,所谓预测未来就是创造那个未来,意味着我们放弃了主宰未来的权利!

  • Cubieboard 架设Git服务器

    Cubieboard 架设Git服务器如果你现在用的是Cubieboard或者树莓派卡片式电脑,可以查看本文之前,学习前面的四个教程,它可能会对你非常有帮助。如果你是普通的Linux用户或者LinuxVPS、Linux独立服务器等,可以直接跳过查看本文。教程一Cubieboard安装Linux系统教程二CubieboardLinux服务器配置教程三CubieboardLinux服务器安装L…

  • 《书谱》(书法理论知识)

    ٩(๑•ㅂ•)۶  夫自古之善书者,汉魏有钟、张之绝,晋末称二王之妙。王羲之云:“顷寻诸名书,钟张信为绝伦,其余不足观。”可谓钟、张云没,而羲、献继之。又云:“吾书比之钟张,钟当抗行,或谓过之。张草犹当雁行。然张精熟,池水尽墨,假令寡人耽之若此,未必谢之。”此乃推张迈钟之意也。考其专擅,虽未果于前规;摭以兼通,故无惭于即事。  评者云:“彼之四贤,古今特绝;而今不逮古,古质而今研。”夫质以代兴,妍因俗易。虽书契之作,适以记言;而淳醨一迁,质文三变,驰鹜沿革,物理常然。贵能古不乖时,今不同弊,所谓“文质彬

  • 光纤交换机常用命令

    光纤交换机常用命令使用电脑连接管理网口,默认IP地址为:192.168.0.1,掩码:255.255.255.0默认用户名:admin,默认密码password1.switchStatusShow查看交换机的总体健康状态switch:admin>switchstatusshowSwitchHealthReportSwitchName:SWF…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号