Est-ce que leurs poids différents sont dus à un effet stochastique dans l'apprentissage ?
Si chacune n'est pas apprise par un procédé distinct, qu'est-ce qui fait qu'on ne peut pas interchanger les matrices avant de les baptiser ?
En gros, pourquoi telle matrice pour telle fonction ? (quand je dis "telle", je pense à une matrice avec des coefs donnés, pas la manière dont elle est utilisée dans l'architecture du dnn)