Un diagrama de dispersión es un tipo de gráfico que se utiliza para representar datos emparejados. La variable explicativa se traza a lo largo del eje horizontal y la variable de respuesta se representa gráficamente a lo largo del eje vertical. Una razón para usar este tipo de gráfico es buscar relaciones entre las variables.
El patrón más básico para buscar en un conjunto de datos emparejados es el de una línea recta. A través de dos puntos, podemos dibujar una línea recta. Si hay más de dos puntos en nuestro diagrama de dispersión, la mayoría de las veces ya no podremos dibujar una línea que pase por cada punto. En su lugar, dibujaremos una línea que pase por el medio de los puntos y muestre la tendencia lineal general de los datos..
Cuando observamos los puntos en nuestro gráfico y deseamos dibujar una línea a través de estos puntos, surge una pregunta. ¿Qué línea debemos dibujar? Hay un número infinito de líneas que podrían dibujarse. Al usar nuestros ojos solos, está claro que cada persona que mira el diagrama de dispersión podría producir una línea ligeramente diferente. Esta ambigüedad es un problema. Queremos tener una forma bien definida para que todos obtengan la misma línea. El objetivo es tener una descripción matemáticamente precisa de qué línea debe dibujarse. La línea de regresión de mínimos cuadrados es una de esas líneas a través de nuestros puntos de datos..
El nombre de la línea de mínimos cuadrados explica lo que hace. Comenzamos con una colección de puntos con coordenadas dadas por (Xyo, yyo) Cualquier línea recta pasará entre estos puntos y pasará por encima o por debajo de cada uno de ellos. Podemos calcular las distancias desde estos puntos a la línea eligiendo un valor de X y luego restando lo observado y coordenada que corresponde a esto X desde el y coordenada de nuestra línea.
Diferentes líneas a través del mismo conjunto de puntos darían un conjunto diferente de distancias. Queremos que estas distancias sean tan pequeñas como podamos hacerlas. Pero hay un problema. Como nuestras distancias pueden ser positivas o negativas, la suma total de todas estas distancias se cancelará entre sí. La suma de las distancias siempre será igual a cero..
La solución a este problema es eliminar todos los números negativos al cuadrar las distancias entre los puntos y la línea. Esto da una colección de números no negativos. El objetivo que teníamos de encontrar una línea de mejor ajuste es lo mismo que hacer que la suma de estas distancias al cuadrado sea lo más pequeña posible. El cálculo viene al rescate aquí. El proceso de diferenciación en el cálculo permite minimizar la suma de las distancias al cuadrado de una línea dada. Esto explica la frase "mínimos cuadrados" en nuestro nombre para esta línea.
Dado que la línea de mínimos cuadrados minimiza las distancias al cuadrado entre la línea y nuestros puntos, podemos pensar en esta línea como la que mejor se ajusta a nuestros datos. Es por eso que la línea de mínimos cuadrados también se conoce como la línea de mejor ajuste. De todas las líneas posibles que podrían dibujarse, la línea de mínimos cuadrados es la más cercana al conjunto de datos en su conjunto. Esto puede significar que nuestra línea no alcanzará ninguno de los puntos de nuestro conjunto de datos..
Hay algunas características que posee cada línea de mínimos cuadrados. El primer ítem de interés trata con la pendiente de nuestra línea. La pendiente tiene una conexión con el coeficiente de correlación de nuestros datos. De hecho, la pendiente de la línea es igual a r (sy/ sX). aquí s X denota la desviación estándar de la X coordenadas y s y la desviación estándar de la y coordenadas de nuestros datos. El signo del coeficiente de correlación está directamente relacionado con el signo de la pendiente de nuestra línea de mínimos cuadrados..
Otra característica de la línea de mínimos cuadrados se refiere a un punto por el que pasa. Mientras que la y la intersección de una línea de mínimos cuadrados puede no ser interesante desde un punto de vista estadístico, hay un punto que sí lo es. Cada línea de mínimos cuadrados pasa por el punto medio de los datos. Este punto medio tiene un X coordinar que es la media de la X valores y un y coordinar que es la media de la y valores.