数据挖掘项目一般多少钱_预测类数据挖掘项目

数据挖掘项目一般多少钱_预测类数据挖掘项目数据挖掘项目(一)第一次实践数据挖掘。虚心学习。基于机器学习的数据分析模型的建立,主要分为以下几步:数据获取->数据预处理->模型选择->数据统一化->模型建立->模型结果分析首先要对数据进行评估,数据的大小来决定使用工具。本数据为金融数据,目的为预测贷款用户是否会逾期。导入数据importpandasaspdimportnumpyasn…

大家好,又见面了,我是你们的朋友全栈君。如果您正在找激活码,请点击查看最新教程,关注关注公众号 “全栈程序员社区” 获取激活教程,可能之前旧版本教程已经失效.最新Idea2022.1教程亲测有效,一键激活。

Jetbrains全系列IDE使用 1年只要46元 售后保障 童叟无欺

数据挖掘项目(一)


第一次实践数据挖掘。虚心学习。


基于机器学习的数据分析模型的建立,主要分为以下几步:数据获取->数据预处理->模型选择->数据统一化->模型建立->模型结果分析


首先要对数据进行评估,数据的大小来决定使用工具。


本数据为金融数据,目的为预测贷款用户是否会逾期。

  1. 导入数据
import pandas as pd
import numpy as np
df = pd.read_csv('data.csv',encoding="gbk")
df.head()
  1. 删除无关的特征
data1 = df.drop(['trade_no', 'bank_card_no', 'source', 'Unnamed: 0', 'id_name'], axis=1)
data1.info()
  1. 缺省值处理(以下参考88080917代码)
print(df.isnull().sum())
count=0
for i in range(85):
    if df.isnull().sum()[i]>250:
        count=count+1
print(count)
print(max(fd.isnull().sum()))

  1. 剔除,填充,合并
data1=data1.drop(['student_feature'], axis=1)
data1.dropna(thresh=70, inplace = True)

data_col=['loans_latest_time', 'latest_query_time', 'reg_preference_for_trad']
data2 = data1[data_col]
data3 = data1.drop(data_col, axis=1)

data3=data3.fillna(data3.mode())

reg_data=data2['reg_preference_for_trad']
data2.drop(['reg_preference_for_trad'], axis=1)

from sklearn import preprocessing
CityData = preprocessing.LabelBinarizer().fit_transform(reg_data) 
CityDataFrame = pd.DataFrame(CityData, columns=["一线城市","三线城市","二线城市","其它城市","境外"])

data3.reset_index(drop=True, inplace=True)
data2.reset_index(drop=True, inplace=True) 
CityDataFrame.reset_index(drop=True, inplace=True) 
dataSet = pd.concat([data2, CityDataFrame, data3], axis=1)

5.将数据集切分为训练集与测试集

train, test = train_test_split(dataSet, test_size=0.3, random_state=2018)
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

发布者:全栈程序员-用户IM,转载请注明出处:https://javaforall.cn/197076.html原文链接:https://javaforall.cn

【正版授权,激活自己账号】: Jetbrains全家桶Ide使用,1年售后保障,每天仅需1毛

【官方授权 正版激活】: 官方授权 正版激活 支持Jetbrains家族下所有IDE 使用个人JB账号...

(0)


相关推荐

  • 公众号菜单开发_公众平台下面菜单栏怎么设置

    公众号菜单开发_公众平台下面菜单栏怎么设置一、简介微信公众平台服务号以及之前成功申请内测资格的订阅号都具有自定义菜单的功能。开发者可利用该功能为公众账号的会话界面底部增加自定义菜单,用户点击菜单中的选项,可以调出相应的回复信息或网页链接。自定

  • Java开发手册之日志规约[通俗易懂]

    Java开发手册之日志规约[通俗易懂]Java开发手册之日志规约

  • 最新仿金蝶电商ERP进销存系统软件源码 销售库存仓库财务管理收银系统网络版「建议收藏」

    最新仿金蝶电商ERP进销存系统软件源码 销售库存仓库财务管理收银系统网络版「建议收藏」源码说明:超强的工作流系统,强大的可视化工作流编辑器,灵活自定义表单设计,充分实现企业基于工作流的各项业务管理,与其他模块数据(如HRM等)完美结合。全面综合的任务系统,实现基于信息录入、单据管理、业务协作、工作流转、任务提醒、统计分析等的智能管理。所有单据均支持上传附件功能;且报价单、销售合同、采购订单、发货出库、入库单、派工单等所有模板均支持自定义编辑打印。集成功能实用的CRM系统、进销存系统、生产ERP系统,实现对客户销售、供应商采购、产品物料、库存统计、生产监控等的精细化管理,直观强大的销售

  • java8中的Collectors.groupingBy用法「建议收藏」

    java8中的Collectors.groupingBy用法「建议收藏」Collectors.groupingBy根据一个或多个属性对集合中的项目进行分组数据准备:publicProduct(Longid,Integernum,BigDecimalprice,Stringname,Stringcategory){ this.id=id; this.num=num; this.price=price; this.name=…

  • 图像超分辨之RDN(Residual Dense Network)

    图像超分辨之RDN(Residual Dense Network) 论文:ResidualDenseNetworkforImageSuper-Resolution Github:https://github.com/yulunzhang/RDNhttps://github.com/hengchuan/RDN-TensorFlow 整体结构: RDN(ResidualDenseNetwork)主要包含4个模块。…

  • 模2除法(CRC校验码计算)_crc校验模二算法

    模2除法(CRC校验码计算)_crc校验模二算法鉴于网上的讲解自己好不容易才看懂…所以自己整理了一下,也方便大家能够理解如果有不对或者不准确的地方,恳请大家指出…模2加减法模2除法需要用到模2加减法,关于模2加减法,其实就是异或操作,规则如下://不需要考虑进位和借位0±0=01±1=00±1=11±0=1例:1101±1001=0100计算如下:…

    2022年10月22日

发表回复

您的电子邮箱地址不会被公开。

关注全栈程序员社区公众号