归一化和标准化0
归一化(Normalization)
What
通常将数据范围限定在$[0, 1]$或者$[-1, 1]$。
Why
- 由于原始数据的范围有很大的不同,没有进行归一化处理的数据不能很好地适用于机器学习算法1
- 在神经网络中,归一化一般可以加快训练网络的收敛性
- 为了消除不同数据之间的范围差异和方便地对数据进行比较、处理
How
Rescaling(重新缩放): 也叫最小-最大归一化(min-max normalization),是一种线性转换,数据范围为$[0, 1]$。
若将数据范围限定在$[a, b]$,可以通过下列公式
Mean normalization(平均归一化):$\bar{x}$ 是指$x$的均值
其他:
- 对数转换:$x^{\prime}=\log_{10} (x)$
- 反余切转换:$x^{\prime}=atan(x) \times \frac{2}{\pi}$
标准化(Standardization)
What
将数据按比例缩放,使之落入一个小的特定区间。
Why
为了方便数据的下一步处理而进行的数据缩放等转换,并不是为了方便与其他数据一同处理或比较
比如数据经过零-均值标准化后,更利于使用标准正态分布的性质
How
Z-scroe: $\bar{x}$是均值,$\sigma$是标准差
单位化(Scaling to unit length):
其他:
- 小数定标:$x^{\prime}=\frac{x}{10^i}$,其中$\forall i, \max(|x’|) < 1$
- 对数Logistic:
Reference
1. https://en.wikipedia.org/w/index.php?title=Feature_scaling&oldid=973370127 Feature scaling ↩
2. https://www.zhihu.com/question/20467170 标准化和归一化什么区别? ↩
3. https://blog.csdn.net/weixin_36604953/article/details/102652160 标准化和归一化,请勿混为一谈,透彻理解数据变换 ↩
0. https://blog.csdn.net/zyf89531/article/details/45922151 归一化、标准化和正则化的关系 ↩