Bootstrapping es una poderosa técnica estadística. Es especialmente útil cuando el tamaño de muestra con el que estamos trabajando es pequeño. En circunstancias habituales, los tamaños de muestra de menos de 40 no pueden tratarse asumiendo una distribución normal o una distribución t. Las técnicas de arranque funcionan bastante bien con muestras que tienen menos de 40 elementos. La razón de esto es que el arranque implica remuestreo. Este tipo de técnicas no asumen nada sobre la distribución de nuestros datos..
Bootstrapping se ha vuelto más popular a medida que los recursos informáticos están más disponibles. Esto se debe a que para que el arranque sea práctico, se debe usar una computadora. Veremos cómo funciona esto en el siguiente ejemplo de bootstrapping.
Comenzamos con una muestra estadística de una población de la que no sabemos nada. Nuestro objetivo será un intervalo de confianza del 90% sobre la media de la muestra. Aunque otras técnicas estadísticas utilizadas para determinar los intervalos de confianza suponen que conocemos la media o la desviación estándar de nuestra población, el arranque no requiere nada más que la muestra.
Para los propósitos de nuestro ejemplo, asumiremos que la muestra es 1, 2, 4, 4, 10.
Ahora volvemos a muestrear con el reemplazo de nuestra muestra para formar lo que se conoce como muestras de bootstrap. Cada muestra de bootstrap tendrá un tamaño de cinco, al igual que nuestra muestra original. Como estamos seleccionando aleatoriamente y luego estamos reemplazando cada valor, las muestras de bootstrap pueden ser diferentes de la muestra original y entre sí.
Para ejemplos con los que nos encontraríamos en el mundo real, haríamos este remuestreo cientos, si no miles de veces. En lo que sigue a continuación, veremos un ejemplo de 20 ejemplos de bootstrap:
Como estamos usando bootstrapping para calcular un intervalo de confianza para la media de la población, ahora calculamos las medias de cada una de nuestras muestras de bootstrap. Estos medios, dispuestos en orden ascendente son: 2, 2.4, 2.6, 2.6, 2.8, 3, 3, 3.2, 3.4, 3.6, 3.8, 4, 4, 4.2, 4.6, 5.2, 6, 6, 6.6, 7.6.
Ahora obtenemos de nuestra lista de muestra de arranque significa un intervalo de confianza. Como queremos un intervalo de confianza del 90%, utilizamos los percentiles 95 y 5 como puntos finales de los intervalos. La razón de esto es que dividimos 100% - 90% = 10% por la mitad para que tengamos el 90% medio de todos los medios de muestra de arranque.
Para nuestro ejemplo anterior tenemos un intervalo de confianza de 2.4 a 6.6.