Grados de libertad para la independencia de las variables en la tabla de dos vías

El número de grados de libertad para la independencia de dos variables categóricas viene dado por una fórmula simple: (r - 1) (C - 1) aquí r es el número de filas y C es el número de columnas en la tabla de dos vías de los valores de la variable categórica. Siga leyendo para obtener más información sobre este tema y comprender por qué esta fórmula da el número correcto.

Antecedentes

Un paso en el proceso de muchas pruebas de hipótesis es la determinación de los grados de libertad numéricos. Este número es importante porque para las distribuciones de probabilidad que involucran una familia de distribuciones, como la distribución de chi-cuadrado, el número de grados de libertad señala la distribución exacta de la familia que deberíamos usar en nuestra prueba de hipótesis.

Los grados de libertad representan el número de elecciones libres que podemos hacer en una situación dada. Una de las pruebas de hipótesis que requiere que determinemos los grados de libertad es la prueba de chi-cuadrado para la independencia de dos variables categóricas..

Pruebas de independencia y tablas de dos vías

La prueba de chi-cuadrado para la independencia nos exige construir una tabla de dos vías, también conocida como tabla de contingencia. Este tipo de mesa tiene r filas y C columnas, que representan el r niveles de una variable categórica y el C niveles de la otra variable categórica. Por lo tanto, si no contamos la fila y la columna en la que registramos los totales, hay un total de rc celdas en la tabla de dos vías.

La prueba de chi-cuadrado para la independencia nos permite probar la hipótesis de que las variables categóricas son independientes entre sí. Como mencionamos anteriormente, el r filas y C las columnas en la tabla nos dan (r - 1) (C - 1) grados de libertad. Pero puede que no esté claro de inmediato por qué este es el número correcto de grados de libertad.

El número de grados de libertad

Para ver por qué (r - 1) (C - 1) es el número correcto, examinaremos esta situación con más detalle. Supongamos que conocemos los totales marginales para cada uno de los niveles de nuestras variables categóricas. En otras palabras, sabemos el total de cada fila y el total de cada columna. Para la primera fila, hay C columnas en nuestra tabla, entonces hay C células. Una vez que conocemos los valores de todas las celdas menos una, entonces porque sabemos el total de todas las celdas, es un simple problema de álgebra determinar el valor de la celda restante. Si estuviéramos completando estas celdas de nuestra tabla, podríamos ingresar C - 1 de ellos libremente, pero luego la celda restante está determinada por el total de la fila. Por lo tanto hay C - 1 grado de libertad para la primera fila.

Continuamos de esta manera para la siguiente fila, y hay otra vez C - 1 grados de libertad. Este proceso continúa hasta llegar a la penúltima fila. Cada una de las filas, excepto la última, contribuye C - 1 grados de libertad al total. En el momento en que tenemos todos menos la última fila, entonces, porque sabemos la suma de la columna, podemos determinar todas las entradas de la fila final. Esto nos da r - 1 filas con C - 1 grado de libertad en cada uno de estos, para un total de (r - 1) (C - 1) grados de libertad.

Ejemplo

Vemos esto con el siguiente ejemplo. Supongamos que tenemos una tabla de dos vías con dos variables categóricas. Una variable tiene tres niveles y la otra tiene dos. Además, supongamos que conocemos los totales de fila y columna para esta tabla:

Nivel A Nivel B Total
Nivel 1 100
Nivel 2 200
Nivel 3 300
Total 200 400 600

La fórmula predice que hay (3-1) (2-1) = 2 grados de libertad. Vemos esto de la siguiente manera. Supongamos que completamos la celda superior izquierda con el número 80. Esto determinará automáticamente la primera fila completa de entradas:

Nivel A Nivel B Total
Nivel 1 80 20 100
Nivel 2 200
Nivel 3 300
Total 200 400 600

Ahora, si sabemos que la primera entrada en la segunda fila es 50, entonces se completa el resto de la tabla, porque sabemos el total de cada fila y columna:

Nivel A Nivel B Total
Nivel 1 80 20 100
Nivel 2 50 150 200
Nivel 3 70 230 300
Total 200 400 600

La tabla está completamente llena, pero solo teníamos dos opciones libres. Una vez que se conocieron estos valores, se determinó completamente el resto de la tabla..

Aunque normalmente no necesitamos saber por qué hay tantos grados de libertad, es bueno saber que realmente solo estamos aplicando el concepto de grados de libertad a una nueva situación.