标准化和归一化

归一化和标准化0

归一化(Normalization)

What

通常将数据范围限定在$[0, 1]$或者$[-1, 1]$。

Why

  • 由于原始数据的范围有很大的不同,没有进行归一化处理的数据不能很好地适用于机器学习算法1
  • 在神经网络中,归一化一般可以加快训练网络的收敛性
  • 为了消除不同数据之间的范围差异和方便地对数据进行比较、处理

How

  1. Rescaling(重新缩放): 也叫最小-最大归一化(min-max normalization),是一种线性转换,数据范围为$[0, 1]$。

    若将数据范围限定在$[a, b]$,可以通过下列公式

  2. Mean normalization(平均归一化):$\bar{x}$ 是指$x$的均值

  3. 其他:

    • 对数转换:$x^{\prime}=\log_{10} (x)$
    • 反余切转换:$x^{\prime}=atan(x) \times \frac{2}{\pi}$

标准化(Standardization)

What

将数据按比例缩放,使之落入一个小的特定区间。

Why

  • 为了方便数据的下一步处理而进行的数据缩放等转换,并不是为了方便与其他数据一同处理或比较

  • 比如数据经过零-均值标准化后,更利于使用标准正态分布的性质

How

  1. Z-scroe: $\bar{x}$是均值,$\sigma$是标准差

  2. 单位化(Scaling to unit length):

  3. 其他:

    • 小数定标:$x^{\prime}=\frac{x}{10^i}$,其中$\forall i, \max(|x’|) < 1$
    • 对数Logistic:

Reference

1. https://en.wikipedia.org/w/index.php?title=Feature_scaling&oldid=973370127 Feature scaling
2. https://www.zhihu.com/question/20467170 标准化和归一化什么区别?
3. https://blog.csdn.net/weixin_36604953/article/details/102652160 标准化和归一化,请勿混为一谈,透彻理解数据变换
0. https://blog.csdn.net/zyf89531/article/details/45922151 归一化、标准化和正则化的关系