# Hard Sigmoid 简介

Hard Sigmoid 是一种非线性激活函数，它通过简化传统的 Sigmoid 函数，提供了计算上的高效性。

Hard Sigmoid 激活函数与传统的 Sigmoid 函数相似，都能将输入压缩到 $[0, 1]$ 的范围内，但前者在计算上更为高效。这种函数在深度学习中尤为重要，因为它能够帮助解决梯度消失问题，同时能够提高计算速度，特别是在参数和模型大小有严格限制的环境下。

从原理上来看，Hard Sigmoid 函数实际上是 Sigmoid 函数的一种简化或近似。

标准的 Sigmoid 函数表达式为 $ \sigma(x) = \cfrac{1}{1+e^{-x}} $，而 Hardsigmoid 则通过分段线性函数来近似这一曲线，其数学表达式可以近似表示为：

$$
\operatorname{Hardsigmoid}(x) = 
\begin{cases} 
0 & \text{if } x < -2.5 \\
0.2x + 0.5 & \text{if } -2.5 \leq x \leq 2.5 \\
1 & \text{if } x > 2.5 
\end{cases}
$$

- 从输出特性上看，当输入值小于 $-2.5$ 时，Hardsigmoid 输出为 $0$；当输入值大于 $2.5$ 时，输出为 $1$；而在 $-2.5$ 到 $2.5$ 之间，输出是输入的线性函数 $0.2x + 0.5$。这意味着 Hard Sigmoid 在中间带有一定的线性过渡区，而在两端则保持常数输出。
- 从计算效率上看，Hard Sigmoid 优势明显。由于避免了指数运算，它的计算速度快于传统的 Sigmoid 函数，特别适合于需要高速计算的场合，如移动设备或嵌入式系统中的深度学习应用。
- 从应用场景来看，Hard Sigmoid 通常用于对模型大小和计算速度有严格要求的深度学习模型中。在这类场景下，激活函数的选择对模型的性能和大小有直接影响。例如，在深度学习模型的深层网络中，使用 Hard Sigmoid 可以有效减少计算负担，同时保持模型性能。
- 从优缺点分析来看，尽管 Hard Sigmoid 在某些方面优于传统的 Sigmoid 函数，但它也有自己的局限性。例如，它的输出不是非常平滑，这可能在某些情况下导致梯度消失问题。因此，在选择 Hard Sigmoid 作为激活函数时，需要根据具体的应用和网络结构来评估其适用性。

综上所述，Hard Sigmoid 是传统 Sigmoid 函数的一种高效近似，通过简化计算过程提高了模型的运行速度，特别适合在对计算资源和速度要求较高的场景。然而，使用 HardSigmoid 时也需要注意其可能带来的梯度问题，并根据具体问题选择合适的激活函数。

## NumPy/ONNX 实现 Hardsigmoid

参考：[onnx__HardSigmoid](https://onnx.ai/onnx/operators/onnx__HardSigmoid.html)

使用 Numpy  实现如下：

In [1]:
import numpy as np

def hard_sigmoid(x):
    return np.clip(0.2*x + 0.5, 0, 1)

示例：

In [2]:
x = np.array([-7, -2.5, -2.4, 0, 2.4, 2.5, 22])
hard_sigmoid(x)

array([0.  , 0.  , 0.02, 0.5 , 0.98, 1.  , 1.  ])

将其图像可视化：

In [3]:
import plotly.graph_objects as go
x = np.linspace(-7, 7, 100)
y = hard_sigmoid(x)
fig = go.Figure(data=go.Scatter(x=x, y=y, mode='lines+markers'))
fig.update_layout(
    xaxis_title='x',
    yaxis_title='hard_sigmoid(x)'
)

这里 $0.2$ 是 $\cfrac{1}{6}$ 的近似：

In [4]:
1/6

0.16666666666666666

真正的编程实现如下：

## NumPy/TensorFlow/PyTorch 实现 Hardsigmoid

参考：[tf.keras hard_sigmoid](https://www.tensorflow.org/api_docs/python/tf/keras/activations/hard_sigmoid) & [torch.nn.Hardsigmoid](https://pytorch.org/docs/stable/generated/torch.nn.Hardsigmoid.html)


$$
\operatorname{Hardsigmoid}(x) = 
\begin{cases} 
0 & \text{if } x \le -3 \\
x/6 + 1/2 & \text{if } -3 \lt x \lt 3 \\
1 & \text{if } x \ge 3 
\end{cases}
$$

In [5]:
import numpy as np

def hard_sigmoid(x):
    return np.clip(x/6 + 1/2, 0, 1)

In [6]:
import plotly.graph_objects as go
x = np.linspace(-7, 7, 100)
y = hard_sigmoid(x)
fig = go.Figure(data=go.Scatter(x=x, y=y, mode='lines+markers'))
fig.update_layout(
    xaxis_title='x',
    yaxis_title='hard_sigmoid(x)'
)

In [7]:
np.clip?

[0;31mSignature:[0m       [0mnp[0m[0;34m.[0m[0mclip[0m[0;34m([0m[0ma[0m[0;34m,[0m [0ma_min[0m[0;34m,[0m [0ma_max[0m[0;34m,[0m [0mout[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0;34m**[0m[0mkwargs[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mCall signature:[0m  [0mnp[0m[0;34m.[0m[0mclip[0m[0;34m([0m[0;34m*[0m[0margs[0m[0;34m,[0m [0;34m**[0m[0mkwargs[0m[0;34m)[0m[0;34m[0m[0;34m[0m[0m
[0;31mType:[0m            _ArrayFunctionDispatcher
[0;31mString form:[0m     <function clip at 0x7f97c41f39c0>
[0;31mFile:[0m            /media/pc/data/lxw/envs/anaconda3x/envs/py312/lib/python3.12/site-packages/numpy/core/fromnumeric.py
[0;31mDocstring:[0m      
Clip (limit) the values in an array.

Given an interval, values outside the interval are clipped to
the interval edges.  For example, if an interval of ``[0, 1]``
is specified, values smaller than 0 become 0, and values larger
than 1 become 1.

Equivalent to but faster than ``np.minimu

还有其他写法：

$$
\operatorname{Hardsigmoid}(x) = \cfrac {\operatorname{HardTanh}(x + 3, 0., 6.)}{6} = \cfrac {\operatorname{ReLU6}(x+3)} {6}
$$

或者

$$
\operatorname{Hardsigmoid}(x) = {\operatorname{HardTanh}(x * 0.2 + 0.5, 0., 1.)} = {\operatorname{HardTanh}(x * 1/6 + 0.5, 0., 1.)}
$$