Regressione a una retta

Sia

\begin{displaymath}
y = mx +q + \varepsilon
\end{displaymath} (3.71)

l'equazione della retta scritta in forma esplicita con l'errore di misura totalmente inserito lungo l'asse delle $y$. Con l'errore lungo l'asse $y$ la funzione costo da minimizzare è
\begin{displaymath}
S = \frac{1}{2n} \sum_{i=1}^{n} { \left( m x_i + q - y_i \right)^2 }
\end{displaymath} (3.72)

La soluzione del problema è il punto in cui il gradiente di $S$ in $m$ e $q$ si annulla

\begin{displaymath}
\begin{array}{rl}
\frac{\partial S}{\partial m} & = \frac{...
...\sum y_i \right) = m \bar{x} + q - \bar{y} = 0 \\
\end{array}\end{displaymath} (3.73)

ovvero:
\begin{displaymath}
\begin{array}{l}
m = \dfrac{ \bar{(xy)}-\bar{x}\bar{y}}{\b...
...{\text{var}(x)} \\
q = - m \bar{x} + \bar{y} \\
\end{array}\end{displaymath} (3.74)

con $\bar{x}$ il valor medio dei campioni $x_i$ (con lo stesso formalismo sono indicate anche le altre quantità). La retta passa per il punto $(\bar{x},\bar{y})$ centroide della distribuzione.

È facile modificare tale risultato nel caso in cui si voglia minimizzare lo scarto lungo le $x$ invece che lungo le $y$, o rappresentare l'equazione della retta in forma implicita.

Paolo medici
2024-11-07