Dans le DNN de MNIST, le dernier layer est un softmax: keras.layers.Dense( 10, activation='softmax') donc il donne la distrib de proba d'un chiffre (on prend le argmax plus loin) et il me semble qu'on le compare avec un y qui est un chiffre.
Je ne comprend pas très bien ce que fait keras. Quand on écrit:
loss='sparse_categorical_crossentropy', metrics=['accuracy'])
comment Keras calcule l'accuracy? Il prend automatiquement le argmax de la proba? Et la loss, si je comprend bien ce qui est écrit sur wikipedia necessite 2 probas. La proba 'expérimentale' (celle du set de données) et celle prédite par le DNN. Comment trouve t-on la proba expérimentale?