Algunas distribuciones de datos, como la curva de campana o la distribución normal, son simétricas. Esto significa que la derecha y la izquierda de la distribución son imágenes especulares perfectas entre sí. No todas las distribuciones de datos son simétricas. Se dice que los conjuntos de datos que no son simétricos son asimétricos. La medida de cuán asimétrica puede ser una distribución se llama asimetría.
La media, la mediana y la moda son todas medidas del centro de un conjunto de datos. La asimetría de los datos puede determinarse por cómo estas cantidades están relacionadas entre sí.
Los datos que están sesgados a la derecha tienen una cola larga que se extiende a la derecha. Una forma alternativa de hablar sobre un conjunto de datos sesgado a la derecha es decir que está positivamente sesgado. En esta situación, la media y la mediana son mayores que la moda. Como regla general, la mayoría de las veces para datos sesgados a la derecha, la media será mayor que la mediana. En resumen, para un conjunto de datos sesgado a la derecha:
La situación se revierte cuando tratamos con datos sesgados a la izquierda. Los datos que están sesgados hacia la izquierda tienen una cola larga que se extiende hacia la izquierda. Una forma alternativa de hablar sobre un conjunto de datos sesgado a la izquierda es decir que está sesgado negativamente. En esta situación, la media y la mediana son ambas menores que la moda. Como regla general, la mayoría de las veces para datos sesgados a la izquierda, la media será menor que la mediana. En resumen, para un conjunto de datos sesgado a la izquierda:
Una cosa es mirar dos conjuntos de datos y determinar que uno es simétrico mientras que el otro es asimétrico. Otra es mirar dos conjuntos de datos asimétricos y decir que uno está más sesgado que el otro. Puede ser muy subjetivo determinar cuál está más sesgado simplemente mirando el gráfico de la distribución. Es por eso que hay formas de calcular numéricamente la medida de asimetría.
Una medida de asimetría, llamada primer coeficiente de asimetría de Pearson, es restar la media del modo y luego dividir esta diferencia por la desviación estándar de los datos. La razón para dividir la diferencia es para que tengamos una cantidad adimensional. Esto explica por qué los datos sesgados a la derecha tienen un sesgo positivo. Si el conjunto de datos está sesgado a la derecha, la media es mayor que el modo, y restando el modo de la media se obtiene un número positivo. Un argumento similar explica por qué los datos sesgados a la izquierda tienen un sesgo negativo.
El segundo coeficiente de asimetría de Pearson también se usa para medir la asimetría de un conjunto de datos. Para esta cantidad, restamos el modo de la mediana, multiplicamos este número por tres y luego lo dividimos por la desviación estándar.
Los datos sesgados surgen de forma bastante natural en diversas situaciones. Los ingresos están sesgados a la derecha porque incluso unas pocas personas que ganan millones de dólares pueden afectar en gran medida la media, y no hay ingresos negativos. Del mismo modo, los datos relacionados con la vida útil de un producto, como una marca de bombilla, están sesgados a la derecha. Aquí, lo más pequeño que puede ser una vida es cero, y las bombillas de larga duración impartirán un sesgo positivo a los datos.