La función swish es una función matemática definida por la siguiente fórmula:

Gráfico de la función swish

Donde β puede ser constante o un parámetro entrenable según el modelo. En el caso en que β=1, la función es equivalente a la función con ponderación sigmoide que se usa en aprendizaje de refuerzo (Sigmoid-weighted Linear Unit, SiL), mientras que para β=0, swish se convierte en la función lineal f(x)=x/2. Con β→∞, el componente sigmoideo se acerca a una función escalón unitario, por lo que swish tiende a la función ReLU. Así, puede ser vista como una interpolación no lineal entre una función lineal y la ReLU.

Aplicaciones

editar

En 2017, después de actuar análisis en los datos de ImageNet, investigadores de Google descubrieron que utilizando la función como una función de activación en redes neuronales artificiales mejora el rendimiento, comparado a ReLU y funciones sigmoides. Se cree que una razón para la mejora es que la función swish ayuda a aliviar el Problema de desvanecimiento de gradiente durante backpropagation.

Referencias

editar