Bonjour,
Je vais me permettre de répondre bien que je ne sois pas l'auteur de la présentation.
1) vous/tu as raison il ne s'agit pas de la "distance" entre le point (xi,yi) et la dite droite, mais plutôt de la distance entre yi la valeur observée en xi, et f_hat(x_i) qui est la valeur de "y" du modèle calculée en xi. Disons que l'on cherche un modèle sous forme d'une fonction f(x)=y qui répond à la question: que vaut "y" pour un "x" donné. Le "x" est une observation (pouvant avoir plusieurs composantes que l'on nomme "features") et elle est certaine. Dans une modélisation dite bayésienne on pourrait plutôt y voir une probabilité d'observer X=x avec donc une vision statistique mais ne compliquons pas (pour le moment).
Donc il nous faut trouver "f" qui dépend de paramètres theta telles que "f_theta(x) = y" et l'on propose de déterminer theta de la façon à minimiser la fonction de coût ou risque (ou loss en anglais) définie par
loss(theta) = 1/N Sum_{i=1,...,N} d(yi, f_theta(xi))
où les (xi,yi ) sont les échantillons de training (nb. on peut oublier le 1/N pour la minimisation)
maintenant le choix de la fonction d(y1,y2) qui mesure la proximité entre "y1" et "y2" doit etre facile à deriver/différentier pour obtenir le gradient de la loss par rapport à theta. La Mean Square Error (MSE) est bien adaptée dans ce cas de régression
d(yi, f_theta(xi)) = (yi-f_theta(xi))^2 (si on a un simple scalaire en sortie sinon il faut prendre la norme L2)
Il n'y a aucun problème à dériver une telle fonction.
SI on avait pris la valeur absolue (la norme L1 pour un vecteur)
d(yi, f_theta(xi)) = |yi-f_theta(xi)|
on sait qu'elle a un pb de dérivée (cf |x| n'est pas dérivable en x=0).
Donc, on ne l'utilise pas dans la descente de gradient. Cependant, cela n'exclue pas de l'utiliser dans la phase de test en tant que métrique, car alors on calcule alors
loss(theta_hat) = 1/N_test Sum_{i:1...,N_test} d(yi, f_theta_hat(xi))
(note que en phase de test on utilise les paramètres theta (notés theta_hat) qui sont les meilleurs sur le lot d'entrainement.
Voilà désolé si j'ai été un peu long.