red neuronal: por qué la escala de datos es muy importante en la red neuronal (LSTM)

Estoy escribiendo mi tesis de maestría sobre cómo aplicar la red neuronal LSTM en series de tiempo. En mi experimento, descubrí que la escala de datos puede tener un gran impacto en el resultado. Por ejemplo, cuando uso una función de activación de tanh, y el rango de valores está entre -1 y 1, el modelo parece converger más rápido y el error de validación tampoco salta dramáticamente después de cada época.

¿Alguien sabe si hay alguna explicación matemática para eso? ¿O hay algún documento que ya explique sobre esta situación?

Mejor respuesta
Su pregunta me recuerda a una imagen utilizada en nuestra clase, pero puede encontrar una similar de here a las 3:02.

enter image description here

En la imagen de arriba puedes ver, obviamente, que el camino a la izquierda es mucho más largo que el de la derecha. La escala se aplica a la izquierda para convertirse en la derecha.

Por favor indique la dirección original:red neuronal: por qué la escala de datos es muy importante en la red neuronal (LSTM) - Código de registro