Muchas veces cuando estudiamos un grupo, realmente estamos comparando dos poblaciones. Dependiendo del parámetro de este grupo que nos interese y las condiciones con las que estemos tratando, existen varias técnicas disponibles. Los procedimientos de inferencia estadística que se refieren a la comparación de dos poblaciones generalmente no se pueden aplicar a tres o más poblaciones. Para estudiar más de dos poblaciones a la vez, necesitamos diferentes tipos de herramientas estadísticas. El análisis de varianza, o ANOVA, es una técnica de interferencia estadística que nos permite tratar con varias poblaciones..
Para ver qué problemas surgen y por qué necesitamos ANOVA, consideraremos un ejemplo. Supongamos que estamos tratando de determinar si los pesos medios de los caramelos M&M verdes, rojos, azules y naranjas son diferentes entre sí. Estableceremos los pesos medios para cada una de estas poblaciones, μ1, μ2, μ3 μ4 4 y respectivamente. Podemos usar la prueba de hipótesis apropiada varias veces, y la prueba C (4,2), o seis hipótesis nulas diferentes:
Hay muchos problemas con este tipo de análisis. Tendremos seis pag-valores. Aunque podemos probar cada uno con un nivel de confianza del 95%, nuestra confianza en el proceso general es menor porque las probabilidades se multiplican: .95 x .95 x .95 x .95 x .95 x .95 es aproximadamente .74, o un nivel de confianza del 74%. Por lo tanto, la probabilidad de un error tipo I ha aumentado.
En un nivel más fundamental, no podemos comparar estos cuatro parámetros en su conjunto si los comparamos de dos en dos. Las medias de los M & M rojos y azules pueden ser significativas, con el peso medio del rojo siendo relativamente mayor que el peso medio del azul. Sin embargo, cuando consideramos los pesos medios de los cuatro tipos de dulces, puede que no haya una diferencia significativa.
Para lidiar con situaciones en las que necesitamos hacer comparaciones múltiples, usamos ANOVA. Esta prueba nos permite considerar los parámetros de varias poblaciones a la vez, sin entrar en algunos de los problemas que enfrentamos al realizar pruebas de hipótesis en dos parámetros a la vez.
Para realizar ANOVA con el ejemplo de M&M anterior, probaríamos la hipótesis nula H0 0: μ1 = μ2 = μ3= μ4 4. Esto indica que no hay diferencia entre los pesos medios de los M&M rojos, azules y verdes. La hipótesis alternativa es que hay alguna diferencia entre los pesos medios de los M&M rojos, azules, verdes y naranjas. Esta hipótesis es realmente una combinación de varias declaraciones Hun:
En este caso particular, para obtener nuestro valor p, utilizaríamos una distribución de probabilidad conocida como distribución F. Los cálculos que involucran la prueba ANOVA F se pueden hacer a mano, pero generalmente se calculan con software estadístico.
Lo que separa a ANOVA de otras técnicas estadísticas es que se usa para hacer comparaciones múltiples. Esto es común en todas las estadísticas, ya que hay muchas veces en las que queremos comparar más que solo dos grupos. Por lo general, una prueba general sugiere que hay algún tipo de diferencia entre los parámetros que estamos estudiando. Luego seguimos esta prueba con algún otro análisis para decidir qué parámetro difiere.