¿Qué es la correlación en las estadísticas?

A veces, los datos numéricos vienen en pares. Quizás un paleontólogo mide las longitudes del fémur (hueso de la pierna) y el húmero (hueso del brazo) en cinco fósiles de la misma especie de dinosaurio. Podría tener sentido considerar las longitudes de los brazos por separado de las longitudes de las piernas y calcular cosas como la media o la desviación estándar. Pero, ¿qué pasa si el investigador tiene curiosidad por saber si existe una relación entre estas dos mediciones? No es suficiente mirar los brazos por separado de las piernas. En cambio, el paleontólogo debe emparejar las longitudes de los huesos para cada esqueleto y usar un área de estadísticas conocida como correlación.

¿Qué es la correlación? En el ejemplo anterior, suponga que el investigador estudió los datos y alcanzó el resultado no muy sorprendente de que los fósiles de dinosaurios con brazos más largos también tenían patas más largas, y los fósiles con brazos más cortos tenían patas más cortas. Un diagrama de dispersión de los datos mostró que todos los puntos de datos estaban agrupados cerca de una línea recta. El investigador entonces diría que existe una fuerte relación en línea recta, o correlación, entre las longitudes de los huesos del brazo y los huesos de las piernas de los fósiles. Requiere un poco más de trabajo decir qué tan fuerte es la correlación.

Correlación y diagramas de dispersión

Como cada punto de datos representa dos números, un diagrama de dispersión bidimensional es de gran ayuda para visualizar los datos. Supongamos que realmente tenemos en nuestras manos los datos de dinosaurios, y los cinco fósiles tienen las siguientes medidas:

  1. Fémur 50 cm, húmero 41 cm
  2. Fémur 57 cm, húmero 61 cm
  3. Fémur 61 cm, húmero 71 cm
  4. Fémur 66 cm, húmero 70 cm
  5. Fémur 75 cm, húmero 82 cm

Un diagrama de dispersión de los datos, con la medición del fémur en la dirección horizontal y la medición del húmero en la dirección vertical, da como resultado el gráfico anterior. Cada punto representa las medidas de uno de los esqueletos. Por ejemplo, el punto en la parte inferior izquierda corresponde al esqueleto # 1. El punto en la esquina superior derecha es el esqueleto # 5.

Ciertamente parece que podríamos dibujar una línea recta que estaría muy cerca de todos los puntos. Pero, ¿cómo podemos saber con certeza? La cercanía está en el ojo del espectador. ¿Cómo sabemos que nuestras definiciones de "cercanía" coinciden con alguien más? ¿Hay alguna forma de cuantificar esta cercanía??

Coeficiente de correlación

Para medir objetivamente qué tan cerca están los datos de estar a lo largo de una línea recta, el coeficiente de correlación viene al rescate. El coeficiente de correlación, típicamente denotado r, es un número real entre -1 y 1. El valor de r mide la fuerza de una correlación basada en una fórmula, eliminando cualquier subjetividad en el proceso. Hay varias pautas a tener en cuenta al interpretar el valor de r.

  • Si r = 0, entonces los puntos son una mezcla completa sin absolutamente ninguna relación de línea recta entre los datos.
  • Si r = -1 o r = 1, entonces todos los puntos de datos se alinean perfectamente en una línea.
  • Si r es un valor diferente a estos extremos, entonces el resultado es un ajuste menos que perfecto de una línea recta. En los conjuntos de datos del mundo real, este es el resultado más común..
  • Si r es positivo, entonces la línea sube con una pendiente positiva. Si r es negativo, entonces la línea desciende con pendiente negativa.

El cálculo del coeficiente de correlación

La fórmula para el coeficiente de correlación. r es complicado, como se puede ver aquí. Los ingredientes de la fórmula son las medias y las desviaciones estándar de ambos conjuntos de datos numéricos, así como el número de puntos de datos. Para la mayoría de las aplicaciones prácticas. r Es tedioso calcular a mano. Si nuestros datos se ingresaron en una calculadora o en un programa de hoja de cálculo con comandos estadísticos, generalmente hay una función integrada para calcular r.

Limitaciones de correlación

Aunque la correlación es una herramienta poderosa, existen algunas limitaciones para usarla:

  • La correlación no nos dice completamente todo acerca de los datos. Las medias y las desviaciones estándar siguen siendo importantes.
  • Los datos pueden describirse mediante una curva más complicada que una línea recta, pero esto no aparecerá en el cálculo de r.
  • Los valores atípicos influyen fuertemente en el coeficiente de correlación. Si vemos valores atípicos en nuestros datos, debemos tener cuidado con las conclusiones que sacamos del valor de r.
  • El hecho de que dos conjuntos de datos estén correlacionados, no significa que uno sea la causa del otro..