Pour la ReLU, on peut mettre 0 ou 1 (choisir un des deux côtés). ça importe peu car cet espace non dérivable a une mesure nulle donc on a une probabilité de 0 d'avoir le problème. Donc en pratique on tape toujours à côté donc on a jamais de soucis. Par contre on ne peut tolérer une fonction d'activation qui aura un espace non différentiable de mesure non nulle, car on a une certaine chance de tomber la dessus et ça devient un soucis, on a pas vraiment de raison de choisir une valeur plutôt qu'une autre.
La non dérivabilité de ReLU en 0 va troubler un mathématicien pur, mais dans le domaine du numérique, aucun problème ! :D