Hay muchas preguntas que hacer al mirar un diagrama de dispersión. Una de las más comunes es ¿qué tan bien se aproxima una línea recta a los datos? Para ayudar a responder esto, hay una estadística descriptiva llamada coeficiente de correlación. Veremos cómo calcular esta estadística.
El coeficiente de correlación, denotado por r nos dice qué tan cerca los datos en un diagrama de dispersión caen a lo largo de una línea recta. Cuanto más cerca esté el valor absoluto de r es para uno, mejor que los datos se describan mediante una ecuación lineal. Si r = 1 o r = -1 entonces el conjunto de datos está perfectamente alineado. Conjuntos de datos con valores de r cerca de cero muestra poca o ninguna relación en línea recta.
Debido a los largos cálculos, es mejor calcular r con el uso de una calculadora o software estadístico. Sin embargo, siempre es un esfuerzo valioso saber qué hace su calculadora cuando está calculando. Lo que sigue es un proceso para calcular el coeficiente de correlación principalmente a mano, con una calculadora utilizada para los pasos aritméticos de rutina..
Comenzaremos enumerando los pasos para el cálculo del coeficiente de correlación. Los datos con los que estamos trabajando son datos emparejados, cada par de los cuales se denotará por (Xyo,yyo).
Este proceso no es difícil y cada paso es bastante rutinario, pero la recopilación de todos estos pasos es bastante complicada. El cálculo de la desviación estándar es bastante tedioso por sí solo. Pero el cálculo del coeficiente de correlación involucra no solo dos desviaciones estándar, sino una multitud de otras operaciones.
Para ver exactamente cómo el valor de r se obtiene miramos un ejemplo. Nuevamente, es importante tener en cuenta que para aplicaciones prácticas nos gustaría usar nuestra calculadora o software estadístico para calcular r para nosotros.
Comenzamos con una lista de datos emparejados: (1, 1), (2, 3), (4, 5), (5,7). La media de la X valores, la media de 1, 2, 4 y 5 es x̄ = 3. También tenemos que ȳ = 4. La desviación estándar de la X valores es sX = 1.83 y sy = 2.58. La siguiente tabla resume los otros cálculos necesarios para r. La suma de los productos en la columna de la derecha es 2.969848. Como hay un total de cuatro puntos y 4 - 1 = 3, dividimos la suma de los productos por 3. Esto nos da un coeficiente de correlación de r = 2.969848 / 3 = 0.989949.
X | y | zX | zy | zXzy |
---|---|---|---|---|
1 | 1 | -1.09544503 | -1.161894958 | 1.272792057 |
2 | 3 | -0.547722515 | -0.387298319 | 0.212132009 |
4 4 | 5 5 | 0.547722515 | 0.387298319 | 0.212132009 |
5 5 | 7 7 | 1.09544503 | 1.161894958 | 1.272792057 |