机器学习之特征归一化

全栈程序员-用户IM • 2021年12月30日上午8:00 • 未分类

大家好，又见面了，我是全栈君，今天给大家准备了Idea注册码。

　　当数据集的数值属性具有非常大的比例差异，往往导致机器学习的算法表现不佳，当然也有极少数特例。在实际应用中，通过梯度下降法求解的模型通常需要归一化，包括线性回归、逻辑回归、支持向量机、神经网络等模型。但对于决策树不使用，以C4.5为例，决策树在进行节点分裂时主要依据数据集D关于特征X的信息增益比，而信息增益比根特征是否经过归一化是无关的。

　　同比例缩放所有属性常用的两种方法是：最小-最大缩放和标准化

　　最小-最大缩放（又加归一化），将值重新缩放使其最终范围在0-1之间，（current – min）/ (max – min)，Scikit-Learn提供了MinMaxSaler转换器可以完成该功能

　　标准化，(current – mean) / var，使得得到的结果分布具备单位方差，相比最小-最大缩放，标准化的方法受异常值的影响更小，同样Scikit-Learn也提供了StandScaler转换器

1. MinMaxScaler和StandScaler类结构

　　机器学习之特征归一化

2. MinMaxScaler示例

>>> from sklearn.preprocessing import MinMaxScaler
>>>
>>> data = [[-1, 2], [-0.5, 6], [0, 10], [1, 18]]
>>> scaler = MinMaxScaler()
>>> print(scaler.fit(data))
MinMaxScaler(copy=True, feature_range=(0, 1))
>>> print(scaler.data_max_)
[  1.  18.]
>>> print(scaler.transform(data))
[[ 0.    0.  ]
 [ 0.25  0.25]
 [ 0.5   0.5 ]
 [ 1.    1.  ]]
>>> print(scaler.transform([[2, 2]]))
[[ 1.5  0. ]]

3. StandScaler示例

>>> data = [[0, 0], [0, 0], [1, 1], [1, 1]]
>>> scaler = StandardScaler()
>>> print(scaler.fit(data))
    StandardScaler(copy=True, with_mean=True, with_std=True)
>>> print(scaler.mean_)
    [ 0.5  0.5]
>>> print(scaler.transform(data))
    [[-1. -1.]
    [-1. -1.]
    [ 1.  1.]
    [ 1.  1.]]
>>> print(scaler.transform([[2, 2]]))
    [[ 3.  3.]]