aprendizaje profundo – función de pérdida en la red neuronal LSTM

No entiendo lo que se está minimizando en estas redes.
¿Alguien puede explicar qué ocurre matemáticamente cuando la pérdida se reduce en la red LSTM?

model.compile(loss='categorical_crossentropy', optimizer='adam')
Mejor respuesta
Desde el keras documentation, categorical_crossentropy es solo el logloss multiclase. Matemáticas y explicación teórica para la pérdida de registro here.

Básicamente, el LSTM asigna etiquetas a las palabras (o caracteres, según su modelo) y optimiza el modelo penalizando las etiquetas incorrectas en las secuencias de palabras (o caracteres). El modelo toma una palabra de entrada o un vector de caracteres, y trata de adivinar la siguiente “mejor” palabra, basándose en ejemplos de entrenamiento. La crossentropía categórica es una forma cuantitativa de medir qué tan buena es la conjetura. A medida que el modelo se repite en el conjunto de entrenamiento, comete menos errores al adivinar la mejor palabra (o carácter).

Por favor indique la dirección original:aprendizaje profundo – función de pérdida en la red neuronal LSTM - Código de registro