python爬虫基础源代码

python爬虫基础源代码1.简单爬取百度网页内容:爬取百度网页源代码:importrequestsr=requests.get(“http://www.baidu.com”)r.status_coder.encodingr.encoding=r.apparent_encodingr.text结果展示:2.爬取网页的通用代码框架:(这里继续选用百度网页)爬取网页的通用代码框架importrequestsdefgetHTMLText(url):try:r=reques

大家好,又见面了,我是你们的朋友全栈君。

1.简单爬取百度网页内容:

爬取百度网页源代码:
import requests
r=requests.get("http://www.baidu.com")
r.status_code
r.encoding
r.encoding=r.apparent_encoding
r.text
结果展示:

在这里插入图片描述
2.爬取网页的通用代码框架:(这里继续选用百度网页)

爬取网页的通用代码框架
import requests
def getHTMLText(url):
    try:
        r=requests.get(url,timeout=30)
        r.raise_for_status()
        r.encoding=r.apparent_encoding
        return r.text
    except:
        return "产生异常"
if __name__ =="__main__":
    url="http://www.baidu.com"
    print(getHTMLText(url))
爬取结果展示

在这里插入图片描述
3.京东商品页面爬取

京东商品页面爬取
import requests
url="http://item.jd.com/2967929.html"
try:
    r=requests.get(url)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[:1000])
except:
    print("爬取失败")
爬取结果展示:

在这里插入图片描述
4.亚马逊商品页面的爬取

亚马逊商品爬取源代码
import requests
url="https://www.amazon.cn/gp/product/B01M8L5Z3Y"
try:
    kv={ 
   'user-agent':'Mozilla/5.0'}
    r=requests.get(url,headers=kv)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[1000:2000])
except:
    print("爬取失败")
结果展示:

在这里插入图片描述
5.百度搜索全代码

百度搜索全代码
import requests
keyword="Python"
try:
    kv={ 
   'wd':'keyword'}
    r=requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败!")
结果展示:

在这里插入图片描述
6.360搜索全代码

360搜素全代码
import requests
keyword="Python"
try:
    kv={ 
   'q':keyword}
    r=requests.get("http://www.so.com/s",params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(r.text))
except:
    print("爬取失败")
结果展示:

在这里插入图片描述
7. 图片爬取全代码:

爬取高清图片源代码
import requests
import os
url="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"
root="D://pics//"
path=root+url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)
    if not os.path.exists(path):
        r=requests.get(url)
        with open(path,'wb') as f:
            f.write(r.content)
            f.close()
            print("文件保存成功")
    else:
        print("文件爬取失败")
except:
    print("爬取失败")

8.用requests库获取源代码:

获取源代码
import requests
r=requests.get("http://python123.io/ws/demo.html")
r.text
demo=r.text
from bs4 import BeautifulSoup
soup=BeautifulSoup(demo,"html.parser")
print(soup.prettify())
soup.title
爬取结果显示:

在这里插入图片描述

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/135839.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • vscode中搭建Golang开发环境(图文并茂)

    vscode中搭建Golang开发环境(图文并茂)vscode中搭建Golang开发环境第一步下载Go安装包,地址:Go语言中文网,安装完成后的目录如下:通过命令行查看当前版本:第二步配置环境变量,新建两个环境变量,如下:其他平台的配置,可以参考goproxy官网。第三步打开vscode,安装一个Go插件,如下:然后打开一个已有的文件夹,并创建一个hello.go的文件,此时,右下角会提示你要安装相应的应用,选择InstallAll,等待安装即可,安装成功如下:到这里环境就搭建完成了第四步在hello.go文件中编写

    2022年10月12日
  • 【用python编写一个简单的单线程wifi暴力破解工具】

    源代码a.txt:密码文件crack.py:wifi破解模块main.py:主模块scan.py:wifi扫描模块scan.pyimportpywifiimporttime#WiFi扫描模块defwifi_scan():#初始化wifiwifi=pywifi.PyWiFi()#使用第一个无线网卡interface=wifi.interfaces()[0]#开始扫描interface.scan()

  • fstream 中文路径_gradle files have changed

    fstream 中文路径_gradle files have changed在C++的标准库中,std::fstream是个挺好用的文件读写流,操作文件很方便,因为是C++标准库,所以没有其它的环境依赖。在使用fstream过程中,有个打开中文路径文件会失败的问题,自己的代码中一直没处理好,这几天终于有点闲心,把这里改透。涉及很多知识点,也是个遗留已久的问题,特此做个记录。在最后用了个一劳永逸的解决此问题方法:将fstream、FILE再包装下。中文路径使用fstream调试程序过程中,发现打开含中文路径的文件时,会打开失败。查了一些资料,说在VS2008、vs200..

  • Wireshark安装后打开显示没有找到接口

    我遇到这个问题是出现在Win10系统中,出现这个问题的原因是Wireshark中由于自带的Winpcap不支持Win10。出现如图所示:1.这个问题的解决方法是下载一个Win10支持的Winpcap,下载链接为点击打开链接,界面如图:点击红色区域下载即可。注意:下载下来的红色区域即可。注意:下载下来Win10Pcap后,在安装前先将Wireshark关掉,要不然安装过程中会报错。2.安装完成后,重…

  • 孙鑫XML视频教程中关于DOM例子的一点错误

    孙鑫XML视频教程中关于DOM例子的一点错误源代码如下: import java.io.File;import java.io.IOException;import javax.xml.parsers.DocumentBuilder;import javax.xml.parsers.DocumentBuilderFactory;import javax.xml.parsers.ParserConfigurationExcepti

  • mysql创建视图sql语句_MySQL 视图

    mysql创建视图sql语句_MySQL 视图视图是指计算机数据库中的视图,是一个虚拟表,其内容由查询定义。视图不直接存储数据,不知真正的表。关系型数据库中的数据是由一张一张的二维关系表所组成,简单的单表查询只需要遍历一个表,而复杂的多表查询需要将多个表连接起来进行查询任务。对于复杂的查询事件,每次查询需要输入SQL命令,重复且低效,视图可以大大降低查询的重复性。

    2022年10月24日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号