Clases de histograma

Un histograma es uno de los muchos tipos de gráficos que se usan con frecuencia en estadística y probabilidad. Los histogramas proporcionan una visualización de datos cuantitativos mediante el uso de barras verticales. La altura de una barra indica el número de puntos de datos que se encuentran dentro de un rango particular de valores. Estos rangos se denominan clases o contenedores..

Numero de clases

Realmente no hay una regla para cuántas clases debería haber. Hay un par de cosas a considerar sobre el número de clases. Si solo hubiera una clase, todos los datos caerían en esta clase. Nuestro histograma sería simplemente un rectángulo único con altura dada por el número de elementos en nuestro conjunto de datos. Esto no haría un histograma muy útil o útil.

En el otro extremo, podríamos tener una multitud de clases. Esto daría como resultado una multitud de barras, ninguna de las cuales probablemente sería muy alta. Sería muy difícil determinar cualquier característica distintiva de los datos utilizando este tipo de histograma..

Para protegernos de estos dos extremos, tenemos que usar una regla general para determinar el número de clases para un histograma. Cuando tenemos un conjunto relativamente pequeño de datos, generalmente solo usamos alrededor de cinco clases. Si el conjunto de datos es relativamente grande, entonces usamos alrededor de 20 clases.

Nuevamente, enfaticemos que esta es una regla general, no un principio estadístico absoluto. Puede haber buenas razones para tener un número diferente de clases para los datos. Veremos un ejemplo de esto a continuación.

Definición

Antes de considerar algunos ejemplos, veremos cómo determinar cuáles son realmente las clases. Comenzamos este proceso encontrando el rango de nuestros datos. En otras palabras, restamos el valor de datos más bajo del valor de datos más alto.

Cuando el conjunto de datos es relativamente pequeño, dividimos el rango entre cinco. El cociente es el ancho de las clases para nuestro histograma. Probablemente necesitemos redondear un poco en este proceso, lo que significa que el número total de clases puede no terminar siendo cinco.

Cuando el conjunto de datos es relativamente grande, dividimos el rango entre 20. Al igual que antes, este problema de división nos da el ancho de las clases para nuestro histograma. Además, como vimos anteriormente, nuestro redondeo puede resultar en un poco más o un poco menos de 20 clases.

En cualquiera de los casos de conjuntos de datos grandes o pequeños, hacemos que la primera clase comience en un punto ligeramente inferior al valor de datos más pequeño. Debemos hacer esto de tal manera que el primer valor de datos caiga en la primera clase. Otras clases posteriores están determinadas por el ancho que se estableció cuando dividimos el rango. Sabemos que estamos en la última clase cuando nuestro valor de datos más alto está contenido en esta clase.

Ejemplo

Por ejemplo, determinaremos un ancho de clase apropiado y clases para el conjunto de datos: 1.1, 1.9, 2.3, 3.0, 3.2, 4.1, 4.2, 4.4, 5.5, 5.5, 5.6, 5.7, 5.9, 6.2, 7.1, 7.9, 8.3 , 9.0, 9.2, 11.1, 11.2, 14.4, 15.5, 15.5, 16.7, 18.9, 19.2.

Vemos que hay 27 puntos de datos en nuestro conjunto. Este es un conjunto relativamente pequeño, por lo que dividiremos el rango entre cinco. El rango es 19.2 - 1.1 = 18.1. Dividimos 18.1 / 5 = 3.62. Esto significa que un ancho de clase de 4 sería apropiado. Nuestro valor de datos más pequeño es 1.1, por lo que comenzamos la primera clase en un punto menor que este. Como nuestros datos consisten en números positivos, tendría sentido hacer que la primera clase pase de 0 a 4.

Las clases que resultan son:

  • 0 a 4
  • 4 a 8
  • 8 a 12
  • 12 a 16
  • 16 a 20.

Excepciones

Puede haber algunas muy buenas razones para desviarse de algunos de los consejos anteriores.

Para un ejemplo de esto, suponga que hay una prueba de opción múltiple con 35 preguntas y 1000 estudiantes en una escuela secundaria toman la prueba. Deseamos formar un histograma que muestre el número de estudiantes que obtuvieron ciertos puntajes en el examen. Vemos que 35/5 = 7 y que 35/20 = 1.75. A pesar de que nuestra regla general nos da las opciones de clases de ancho 2 o 7 para usar en nuestro histograma, puede ser mejor tener clases de ancho 1. Estas clases corresponderían a cada pregunta que un estudiante respondió correctamente en el examen. El primero de ellos estaría centrado en 0 y el último estaría centrado en 35.

Este es otro ejemplo que muestra que siempre debemos pensar al tratar con estadísticas.