机器学习之Python — Sklearn库简介

机器学习之Python — Sklearn库简介文章目录机器学习之Python—Sklearn库简介1Sklearn简介2Sklearn安装3Sklearndatasets4Sklearn通用学习模式5Sklearn数据预处理–标准化6Sklearn交叉验证7总结参考资料机器学习之Python—Sklearn库简介1Sklearn简介Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE稳定放心使用

机器学习之Python — Sklearn库简介

1 Sklearn简介

Scikit-learn(sklearn)是机器学习中常用的第三方模块,对常用的机器学习方法进行了封装,包括回归(Regression)、分类(Classfication)、聚类(Clustering) 、降维(Dimensionality Reduction)等方法。当我们面临机器学习问题时,便可根据下图来选择相应的方法。Sklearn具有以下特点:

 简单高效的数据挖掘和数据分析工具
 让每个人能够在复杂环境中重复使用
 建立NumPy、Scipy、MatPlotLib之上

在这里插入图在这里插入图片描述片描述
sklearn库的结构
在这里插入图片在这里插入图片描述描述
(1)结构:
由图中,可以看到库的算法主要有四类:回归,分类,聚类,降维。其中:
 常用的回归:线性、决策树、SVM、KNN ;集成回归:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
 常用的分类:线性、决策树、SVM、KNN,朴素贝叶斯;集成分类:随机森林、Adaboost、GradientBoosting、Bagging、ExtraTrees
 常用聚类:k均值(K-means)、层次聚类(Hierarchical clustering)、DBSCAN
 常用降维:LinearDiscriminantAnalysis、PCA
(2)图片中隐含的操作流程:
这个流程图代表:蓝色圆圈内是判断条件,绿色方框内是可以选择的算法。你可以根据自己的数据特征和任务目标去找到一条自己的操作路线,一步步做就好了。

2 Sklearn安装

Sklearn安装要求:
 Python(>=2.6 or >=3.3)
 NumPy (>= 1.6.6)
 SciPy (>= 0.9)
如果你是window系统,你需要打开command prompt,输入conda list 查看你的python包的列表(前提你已经装了anaconda,推荐装新版的,自带sklearn了),
在这里在这在这里插入图片描述里插入图片描述插入图片描述在这里插入图片描述
如果list有scikit-learn,说明你已经安装sklearn库,如果没有的话,看看你的Numpy和scipy相应版本是否符合要求,若需要安装的话,输入pip install scikit-learn或者conda install scikit-learn
在这里插入图片在这里插入图片描述描述在这里插入图片描述

3 Sklearn datasets

Sklearn提供一些标准数据,我们不必再从其他网站寻找数据进行训练。例如我们上面用来训练的load_iris数据,可以很方便的返回数据特征变量和目标值。除了引入数据之外,我们还可以通过load_sample_images()来引入图片。
在这里插入图片描述
在这里插入图片在这里插入图片描述描述

4 Sklearn通用学习模式

Sklearn中包含众多机器学习方法,但各种学习方法大致相同,我们在这里介绍Sklearn通用学习模式。面对自己的任务肯定有自己的数据集,但是对于学习来说,sklearn提供了一些数据,主要有两部分:现在网上一些常用的数据集,可以通过方法加载;另一种sklearn可以生成数据,可以生成你设定的数据。(设定规模,噪声等)。模我们还可以通过MatPlotLib等方法来直观的展示数据。
SKlearn-iris
在这里插在这里插入图片描述入图片描述
SKlearn-boston
在这里插入图片在这里插入图片描述描述
在这里插入图片在这里插入图片描述描述

5 Sklearn数据预处理 – 标准化

数据集的标准化对于大部分机器学习算法来说都是一种常规要求,如果单个特征没有或多或少地接近于标准正态分布,那么它可能并不能在项目中表现出很好的性能。在实际情况中,我们经常忽略特征的分布形状,直接去均值来对某个特征进行中心化,再通过除以非常量特征(non-constant features)的标准差进行缩放。
例如, 许多学习算法中目标函数的基础都是假设所有的特征都是零均值并且具有同一阶数上的方差(比如径向基函数、支持向量机等)。如果某个特征的方差比其他特征大几个数量级,那么它就会在学习算法中占据主导位置,导致学习器并不能像我们说期望的那样,从其他特征中学习。例如我们可以通过Scale将数据缩放,达到标准化的目的。

在这里插在这里插入图在这里插入图片描述片描述入图片描述
在这里插入图片在这里插入图片描述描述

6 Sklearn交叉验证

交叉验证的基本思想是将原始数据进行分组,一部分做为训练集来训练模型,另一部分做为测试集来评价模型。交叉验证用于评估模型的预测性能,尤其是训练好的模型在新数据上的表现,可以在一定程度上减小过拟合。还可以从有限的数据中获取尽可能多的有效信息。
机器学习任务中,拿到数据后,我们首先会将原始数据集分为三部分:训练集、验证集和测试集。 训练集用于训练模型,验证集用于模型的参数选择配置,测试集对于模型来说是未知数据,用于评估模型的泛化能力。不同的划分会得到不同的最终模型。
以前我们是直接将数据分割成70%的训练数据和测试数据,现在我们利用K折交叉验证分割数据,首先将数据分为5组,然后再从5组数据之中选择不同数据进行训练。
在这里插入图片在这里插入图片描述描述
在这里插入图片描在这里插入图片描述述
在这里插入图片描述在这里插入图片描述

7 总结

在实验的过程中,我们涉及到了Matplotlib绘图库、Numpy科学计算和SKlearn库数据读取的基本使用等等内容,是对所学科学计算及Python工程能力的很好实践。
注:当前工程代码已经在附件,请老师同学们参考!

参考资料

[1] 官方文档:
http://scikit-learn.org/stable/
[2] 互联网搜索资料:
https://morvanzhou.github.io/tutorials/machine-learning/sklearn/
[3] python模块库:
https://www.lfd.uci.edu/~gohlke/pythonlibs/

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/183296.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)
blank

相关推荐

  • proxmox物理机迁移_迁移到物理服务器

    proxmox物理机迁移_迁移到物理服务器这两天由于源代码管理服务器的当机,准备将源服务器配置数据库迁移至新服务器。下面是TFS2010物理迁移的一些心得:1、尽可能将新服务器的计算机名称和源服务器相同。2、配置完成后,删除配置数据库,并附加同名的源数据库是无法成功使用。在访问tfs的web站点时出错。3、附加源配置数据后,需要通过命令重新配置才可以确保使用:TFSconfigregisterDB/sqlInstanc…

  • Linux系统打不开gedit文本编辑器

    Linux系统打不开gedit文本编辑器写实验发现打不开gedit,报错如下:Unabletoinitserver:无法连接:拒绝连接(gedit:1289):Gtk-WARNIING**:20:46:00.562:cannotopendisplay于是收录各种gedit不能用原因如下(错误提示不一定和上面一样):原因1:vnc连接被禁用了。这种情况下一般虚拟机也没连上网(打开浏览器显示没网),打开虚拟机设置>选项>vnc连接,启用。具体参数设置可看链接(Vmware官网,将虚拟机配置为V..

  • Git分支管理策略

    Git分支管理策略

    2021年10月23日
  • PHP判断点是否在多边形区域内外

    PHP判断点是否在多边形区域内外

  • Oracle中关于bitmap index的使用问题

    Oracle中关于bitmap index的使用问题

  • 解压缩模块 zipfile

    解压缩模块 zipfilezipfile一、创建一个ZipFile对象,表示一个zip文件classzipfile.ZipFile(file[,mode[,compression[,allowZip64]]])参数file表示文件的路径或类文件对象(file-likeobject)参数mode指示打开zip文件的模式,默认值为’r’,表示读已经存在的zip文件,也可以为’w’或’a’,’w’表示…

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号