Bootstrapping es una técnica estadística que se incluye en el encabezado más amplio de remuestreo. Esta técnica implica un procedimiento relativamente simple pero repetido tantas veces que depende en gran medida de los cálculos de la computadora. Bootstrapping proporciona un método diferente a los intervalos de confianza para estimar un parámetro de población. Bootstrapping mucho parece funcionar como magia. Siga leyendo para ver cómo obtiene su nombre interesante.
Un objetivo de las estadísticas inferenciales es determinar el valor de un parámetro de una población. Por lo general, es demasiado costoso o incluso imposible medir esto directamente. Entonces usamos muestreo estadístico. Tomamos una muestra de una población, medimos una estadística de esta muestra y luego usamos esta estadística para decir algo sobre el parámetro correspondiente de la población.
Por ejemplo, en una fábrica de chocolate, es posible que deseemos garantizar que las barras de caramelo tengan un peso medio particular. No es factible pesar cada barra de caramelo que se produce, por lo que utilizamos técnicas de muestreo para elegir aleatoriamente 100 barras de caramelo. Calculamos la media de estas 100 barras de caramelo y decimos que la media de la población se encuentra dentro de un margen de error de cuál es la media de nuestra muestra.
Supongamos que unos meses más tarde queremos saber con mayor precisión, o menos margen de error, cuál fue el peso promedio de la barra de chocolate el día que probamos la línea de producción. No podemos usar las barras de caramelo de hoy, ya que muchas variables han entrado en la imagen (diferentes lotes de leche, azúcar y granos de cacao, diferentes condiciones atmosféricas, diferentes empleados en la línea, etc.). Todo lo que tenemos desde el día en que tenemos curiosidad son los 100 pesos. Sin una máquina del tiempo hasta ese día, parece que el margen de error inicial es el mejor que podemos esperar.
Afortunadamente, podemos usar la técnica de bootstrapping. En esta situación, tomamos muestras al azar con reemplazo de los 100 pesos conocidos. Entonces llamamos a esto una muestra de bootstrap. Como permitimos el reemplazo, esta muestra de arranque probablemente no sea idéntica a nuestra muestra inicial. Algunos puntos de datos pueden duplicarse, y otros puntos de datos de los 100 iniciales pueden omitirse en una muestra de arranque. Con la ayuda de una computadora, se pueden construir miles de muestras de arranque en un tiempo relativamente corto.
Como se mencionó, para usar verdaderamente las técnicas de arranque necesitamos usar una computadora. El siguiente ejemplo numérico ayudará a demostrar cómo funciona el proceso. Si comenzamos con la muestra 2, 4, 5, 6, 6, todas las siguientes son posibles muestras de arranque:
Las técnicas de bootstrap son relativamente nuevas en el campo de las estadísticas. El primer uso fue publicado en un artículo de 1979 por Bradley Efron. A medida que la potencia informática aumenta y se vuelve menos costosa, las técnicas de arranque se han generalizado.
El nombre "bootstrapping" proviene de la frase "levantarse con sus bootstraps". Esto se refiere a algo que es absurdo e imposible. Intenta lo más que puedas, no puedes levantarte en el aire tirando de las piezas de cuero de tus botas.
Existe alguna teoría matemática que justifica las técnicas de arranque. Sin embargo, el uso de bootstrapping parece que estás haciendo lo imposible. Aunque no parece que pueda mejorar la estimación de una estadística de población reutilizando la misma muestra una y otra vez, el bootstrapping puede, de hecho, hacer esto.