Varianza y desviación estándar

Cuando medimos la variabilidad de un conjunto de datos, hay dos estadísticas estrechamente relacionadas relacionadas con esto: la varianza y la desviación estándar, que indican la extensión de los valores de los datos e implican pasos similares en su cálculo. Sin embargo, la principal diferencia entre estos dos análisis estadísticos es que la desviación estándar es la raíz cuadrada de la varianza.

Para comprender las diferencias entre estas dos observaciones de dispersión estadística, primero se debe entender lo que cada una representa: la varianza representa todos los puntos de datos en un conjunto y se calcula promediando la desviación al cuadrado de cada media, mientras que la desviación estándar es una medida de la dispersión alrededor de la media cuando la tendencia central se calcula a través de la media.

Como resultado, la varianza se puede expresar como la desviación cuadrática promedio de los valores de las medias o [la desviación al cuadrado de las medias] dividida por el número de observaciones y la desviación estándar se puede expresar como la raíz cuadrada de la varianza.

Construcción de varianza

Para comprender completamente la diferencia entre estas estadísticas, necesitamos comprender el cálculo de la varianza. Los pasos para calcular la varianza de la muestra son los siguientes:

  1. Calcular la media muestral de los datos..
  2. Encuentre la diferencia entre la media y cada uno de los valores de datos.
  3. Ajusta estas diferencias.
  4. Agregar las diferencias al cuadrado juntas.
  5. Dividir esta suma por uno menos que el número total de valores de datos.

Los motivos de cada uno de estos pasos son los siguientes:

  1. La media proporciona el punto central o el promedio de los datos..
  2. Las diferencias con la media ayudan a determinar las desviaciones de esa media. Los valores de datos que están lejos de la media producirán una desviación mayor que aquellos que están cerca de la media.
  3. Las diferencias son al cuadrado porque si las diferencias se agregan sin ser al cuadrado, esta suma será cero.
  4. La adición de estas desviaciones al cuadrado proporciona una medida de la desviación total.
  5. La división por uno menos que el tamaño de la muestra proporciona una especie de desviación media. Esto niega el efecto de tener muchos puntos de datos que contribuyen a la medición de la propagación.

Como se indicó anteriormente, la desviación estándar se calcula simplemente al encontrar la raíz cuadrada de este resultado, que proporciona el estándar absoluto de desviación independientemente de la cantidad total de valores de datos.

Varianza y desviación estándar

Cuando consideramos la varianza, nos damos cuenta de que hay un gran inconveniente para usarla. Cuando seguimos los pasos del cálculo de la varianza, esto muestra que la varianza se mide en términos de unidades cuadradas porque sumamos las diferencias cuadradas en nuestro cálculo. Por ejemplo, si nuestros datos de muestra se miden en términos de metros, las unidades para una varianza se darían en metros cuadrados..

Para estandarizar nuestra medida de propagación, necesitamos tomar la raíz cuadrada de la varianza. Esto eliminará el problema de las unidades al cuadrado, y nos da una medida de la dispersión que tendrá las mismas unidades que nuestra muestra original..

Hay muchas fórmulas en las estadísticas matemáticas que tienen formas más bonitas cuando las expresamos en términos de varianza en lugar de desviación estándar.