数据集归一化

阅读数: 10000次 2022-01-22

机器学习数据集归一化

引入

当出现欠拟合和过度拟合的情况下如何处理：

有两种方式：

1. 丢弃一些不能帮助我们正确预测的特征。采用的方法如下：

手工选择保留哪些特征。
使用一些模型选择算法来帮忙降维。（例如PCA等）

2. 归一化处理

保留所有的特征，但是减少参数的大小（或者是说：减少参数的重要性）

定义

不同的评价指标往往具有不同的量纲（例如：对于评价房价来说量纲指：面积、房价数、楼层等；对于预测某个人患病率来说量纲指：身高、体重等。）和量纲单位（例如：面积单位：平方米、平方厘米等；身高：米、厘米等），这样的情况会影响到数据分析的结果，为了消除指标之间量纲的影响，需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。

优点：

（1）归一化后加快了梯度下降求最优解的速度。

（2）归一化有可能提高精度（归一化是让不同维度之间的特征在数值上有一定的比较性）。

理解(1)：

例子：假定为了预测房子价格，自变量为面积，房间数两个，因变量为房价。

那么可以得到的公式为：
$$
y=\theta_1x_1+\theta_2x_2
$$
其中x1代表房子的面积,x2代表房间的多少,那么前面的就是他们的系数

假如有一张图,我们很容易看出，当数据没有归一化的时候，面积数的范围可以从0-1000，房间数的范围一般为0-10，可以看出面积数的取值范围远大于房间数。

归一化和没有归一化的影响：

是否进行归一化产生的影响在于形成损失函数的时候：

如果数据没有进行归一化：
$$
J=(10\theta_1+600\theta_2-y)^2
$$
当数据归一化以后为：
$$
J=(0.5\theta_1+0.55\theta_2-y)^2
$$
其中变量的前面系数都在【0-1】范围之间。

理解(2):

归一化有可能提高精度（归一化是让不同维度之间的特征在数值上有一定的比较性）.一些分类器需要计算样本之间的距离（如欧式距离），例如KNN。如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况不符。（比如，这时实际情况是值域范围小的特征更重要）。

两种常用的归一化方法：

（1）min-max标准化

min-max标准化（Min-Max Normalization）（线性函数归一化）

定义：

也称为离差标准化，是对原始数据的线性变换，使得结果映射到0-1之间。

本质：

把数变为(0,1)之间的小数。转换函数：（X-Min）/(Max-Min)如果想要将数据映射到(-1,1)，则将公式换成: (X-Mean）/(Max-Min)其中：max为样本数据的最大值，min为样本数据的最小值，Mean表示数据的均值。

缺陷：

当有新数据加入时，可导致max和min的变化，需要重新定义。

（2）Z-score标准化方法

均值标准化（Z-score standardization）

定义：

这种方法给与原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1.

本质：

把有量纲表达式变成无量纲表达式。转换函数：（X-Mean）/(Standard deviation)其中，Mean为所有样本数据的均值。Standard deviation为所有样本数据的标准差。

两种归一化方法的使用场景

（1）在分类、聚类算法中，需要使用距离来度量相似性的时候、或者使用PCA技术进行降维的时候，第二种方法(Z-score standardization)表现更好。

因为：第一种方法(线性变换后)，其协方差产生了倍数值的缩放，因此这种方式无法消除量纲对方差、协方差的影响，对PCA分析影响巨大；同时，由于量纲的存在，使用不同的量纲、距离的计算结果会不同。

（2）在不涉及距离度量、协方差计算、数据不符合正太分布的时候，可以使用第一种方法或其他归一化方法。比如图像处理中，将RGB图像转换为灰度图像后将其值限定在（0 ，255）的范围。

因为：第二种归一化方式中，新的数据由于对方差进行了归一化，这时候每个维度的量纲其实已经等价了，每个维度都服从均值为0、方差1的正态分布，在计算距离的时候，每个维度都是去量纲化的，避免了不同量纲的选取对距离计算产生的巨大影响。

总结

（1）使用Max-Min标准化后，其协方差产生了倍数值得缩放，因此这种方式无法消除量纲对方差、协方差的影响，对PCA分析影响巨大；同时由于量纲的存在，使用不同的量纲，距离的计算结果会不同。

（2）在Z-score标准化（0均值标准化）中，新的数据由于对方差进行了归一化，这时候每个维度的量纲其实已经等价了，每个维度都服从均值为0,、方差为1的正态分布，在计算距离的时候，每个维度都是去量纲化的，避免了不同量纲的选取对距离计算产生的巨大影响。

总的来说，在算法后续计算中，涉及距离度量（聚类分析）或者协方差分析（PCA、LDA等）的，同时数据分布可以近似为状态分布，应当使用0均值化的归一方法。其它应用中，根据具体情况选用合适的归一化方法。

参考

https://blog.csdn.net/program_developer/article/details/78637711