Muchas veces en el estudio de las estadísticas es importante hacer conexiones entre diferentes temas. Veremos un ejemplo de esto, en el que la pendiente de la línea de regresión está directamente relacionada con el coeficiente de correlación. Dado que ambos conceptos involucran líneas rectas, es natural hacer la pregunta, "¿Cómo se relacionan el coeficiente de correlación y la línea de mínimos cuadrados?"
Primero, veremos algunos antecedentes con respecto a estos dos temas.
Es importante recordar los detalles relacionados con el coeficiente de correlación, que se denota por r. Esta estadística se utiliza cuando tenemos datos cuantitativos emparejados. A partir de un diagrama de dispersión de estos datos emparejados, podemos buscar tendencias en la distribución general de datos. Algunos datos emparejados exhiben un patrón lineal o lineal. Pero en la práctica, los datos nunca caen exactamente a lo largo de una línea recta.
Varias personas que miran el mismo diagrama de dispersión de datos emparejados no estarían de acuerdo con lo cerca que estaba de mostrar una tendencia lineal general. Después de todo, nuestros criterios para esto pueden ser algo subjetivos. La escala que utilizamos también podría afectar nuestra percepción de los datos. Por estas razones y más, necesitamos algún tipo de medida objetiva para determinar qué tan cerca están nuestros datos emparejados de ser lineales. El coeficiente de correlación logra esto para nosotros.
Algunos datos básicos sobre r incluir:
Los últimos dos elementos en la lista anterior nos señalan hacia la pendiente de la línea de mínimos cuadrados de mejor ajuste. Recuerde que la pendiente de una línea es una medida de cuántas unidades sube o baja por cada unidad que movemos hacia la derecha. A veces esto se afirma como el aumento de la línea dividida por la carrera, o el cambio en y valores divididos por el cambio en X valores.
En general, las líneas rectas tienen pendientes positivas, negativas o cero. Si tuviéramos que examinar nuestras líneas de regresión de mínimos cuadrados y comparar los valores correspondientes de r, notaríamos que cada vez que nuestros datos tienen un coeficiente de correlación negativo, la pendiente de la línea de regresión es negativa. Del mismo modo, por cada vez que tenemos un coeficiente de correlación positivo, la pendiente de la línea de regresión es positiva..
Debe ser evidente a partir de esta observación que definitivamente hay una conexión entre el signo del coeficiente de correlación y la pendiente de la línea de mínimos cuadrados. Queda por explicar por qué esto es cierto..
El motivo de la conexión entre el valor de r y la pendiente de la línea de mínimos cuadrados tiene que ver con la fórmula que nos da la pendiente de esta línea. Para datos emparejados (x, y) denotamos la desviación estándar de la X datos por sX y la desviación estándar de la y datos por sy.
La fórmula para la pendiente. un de la línea de regresión es:
El cálculo de una desviación estándar implica tomar la raíz cuadrada positiva de un número no negativo. Como resultado, ambas desviaciones estándar en la fórmula para la pendiente no deben ser negativas. Si suponemos que hay alguna variación en nuestros datos, podremos ignorar la posibilidad de que cualquiera de estas desviaciones estándar sea cero. Por lo tanto, el signo del coeficiente de correlación será el mismo que el signo de la pendiente de la línea de regresión..