GELU

GELU,全称为Gaussian Error Linear Unit,是一种神经网络激活函数,由Dan Hendrycks和Kevin Gimpel在2016年的论文中提出。GELU的灵感来源于对激活函数的概率解释,它可以被认为是在输入数据上应用了一个随机正则化过程。

GELU的数学表达式如下:

$$ GELU(x) = x \cdot \Phi(x) $$

其中,$x $ 是输入,$\Phi(x) $ 是标准正态分布的累积分布函数(CDF),它给出了随机变量在某个值以下的概率。GELU函数的形状类似于ReLU,但它是平滑的,并且对于负值也有非零的输出。

GELU的一个近似表达式是:

$$ GELU(x) \approx 0.5 \cdot x \cdot (1 + \tanh(\sqrt{2/\pi} \cdot (x + 0.044715 \cdot x^3))) $$

这个近似使得GELU更容易计算,因为标准正态分布的CDF没有简单的封闭形式。

在实践中,GELU已经证明是一种有效的激活函数,特别是在自然语言处理任务中。例如,它被用在了BERT(Bidirectional Encoder Representations from Transformers)模型中,该模型在多项NLP任务上取得了显著的性能提升。

comments powered by Disqus