A veces, los datos numéricos vienen en pares. Quizás un paleontólogo mide las longitudes del fémur (hueso de la pierna) y el húmero (hueso del brazo) en cinco fósiles de la misma especie de dinosaurio. Podría tener sentido considerar las longitudes de los brazos por separado de las longitudes de las piernas y calcular cosas como la media o la desviación estándar. Pero, ¿qué pasa si el investigador tiene curiosidad por saber si existe una relación entre estas dos mediciones? No es suficiente mirar los brazos por separado de las piernas. En cambio, el paleontólogo debe emparejar las longitudes de los huesos para cada esqueleto y usar un área de estadísticas conocida como correlación.
¿Qué es la correlación? En el ejemplo anterior, suponga que el investigador estudió los datos y alcanzó el resultado no muy sorprendente de que los fósiles de dinosaurios con brazos más largos también tenían patas más largas, y los fósiles con brazos más cortos tenían patas más cortas. Un diagrama de dispersión de los datos mostró que todos los puntos de datos estaban agrupados cerca de una línea recta. El investigador entonces diría que existe una fuerte relación en línea recta, o correlación, entre las longitudes de los huesos del brazo y los huesos de las piernas de los fósiles. Requiere un poco más de trabajo decir qué tan fuerte es la correlación.
Como cada punto de datos representa dos números, un diagrama de dispersión bidimensional es de gran ayuda para visualizar los datos. Supongamos que realmente tenemos en nuestras manos los datos de dinosaurios, y los cinco fósiles tienen las siguientes medidas:
Un diagrama de dispersión de los datos, con la medición del fémur en la dirección horizontal y la medición del húmero en la dirección vertical, da como resultado el gráfico anterior. Cada punto representa las medidas de uno de los esqueletos. Por ejemplo, el punto en la parte inferior izquierda corresponde al esqueleto # 1. El punto en la esquina superior derecha es el esqueleto # 5.
Ciertamente parece que podríamos dibujar una línea recta que estaría muy cerca de todos los puntos. Pero, ¿cómo podemos saber con certeza? La cercanía está en el ojo del espectador. ¿Cómo sabemos que nuestras definiciones de "cercanía" coinciden con alguien más? ¿Hay alguna forma de cuantificar esta cercanía??
Para medir objetivamente qué tan cerca están los datos de estar a lo largo de una línea recta, el coeficiente de correlación viene al rescate. El coeficiente de correlación, típicamente denotado r, es un número real entre -1 y 1. El valor de r mide la fuerza de una correlación basada en una fórmula, eliminando cualquier subjetividad en el proceso. Hay varias pautas a tener en cuenta al interpretar el valor de r.
La fórmula para el coeficiente de correlación. r es complicado, como se puede ver aquí. Los ingredientes de la fórmula son las medias y las desviaciones estándar de ambos conjuntos de datos numéricos, así como el número de puntos de datos. Para la mayoría de las aplicaciones prácticas. r Es tedioso calcular a mano. Si nuestros datos se ingresaron en una calculadora o en un programa de hoja de cálculo con comandos estadísticos, generalmente hay una función integrada para calcular r.
Aunque la correlación es una herramienta poderosa, existen algunas limitaciones para usarla: