Una de las muchas formas en que las variables en las estadísticas se pueden clasificar es considerar las diferencias entre las variables explicativas y de respuesta. Aunque estas variables están relacionadas, existen diferencias importantes entre ellas. Después de definir estos tipos de variables, veremos que la identificación correcta de estas variables tiene una influencia directa en otros aspectos de las estadísticas, como la construcción de un diagrama de dispersión y la pendiente de una línea de regresión..
Comenzamos mirando las definiciones de este tipo de variables. Una variable de respuesta es una cantidad particular sobre la que hacemos una pregunta en nuestro estudio. Una variable explicativa es cualquier factor que puede influir en la variable de respuesta. Si bien puede haber muchas variables explicativas, nos ocuparemos principalmente de una sola variable explicativa.
Una variable de respuesta puede no estar presente en un estudio. El nombramiento de este tipo de variable depende de las preguntas que hace un investigador. La realización de un estudio observacional sería un ejemplo de una instancia en la que no hay una variable de respuesta. Un experimento tendrá una variable de respuesta. El diseño cuidadoso de un experimento intenta establecer que los cambios en una variable de respuesta son causados directamente por cambios en las variables explicativas.
Para explorar estos conceptos, examinaremos algunos ejemplos. Para el primer ejemplo, suponga que un investigador está interesado en estudiar el estado de ánimo y las actitudes de un grupo de estudiantes universitarios de primer año. Todos los estudiantes de primer año reciben una serie de preguntas. Estas preguntas están diseñadas para evaluar el grado de nostalgia de un estudiante. Los estudiantes también indican en la encuesta qué tan lejos está su universidad de casa.
Un investigador que examina estos datos puede estar interesado en los tipos de respuestas de los estudiantes. Quizás la razón de esto es tener un sentido general sobre la composición de un nuevo estudiante de primer año. En este caso, no hay una variable de respuesta. Esto se debe a que nadie está viendo si el valor de una variable influye en el valor de otra.
Otro investigador podría usar los mismos datos para intentar responder si los estudiantes que vinieron de más lejos tenían un mayor grado de nostalgia. En este caso, los datos relacionados con las preguntas de nostalgia son los valores de una variable de respuesta, y los datos que indican la distancia desde el hogar forman la variable explicativa..
Para el segundo ejemplo, podríamos sentir curiosidad si la cantidad de horas dedicadas a hacer la tarea tiene un efecto en la calificación que un estudiante obtiene en un examen. En este caso, debido a que estamos demostrando que el valor de una variable cambia el valor de otra, hay una variable explicativa y una variable de respuesta. El número de horas estudiadas es la variable explicativa y el puntaje en la prueba es la variable de respuesta.
Cuando trabajamos con datos cuantitativos emparejados, es apropiado usar un diagrama de dispersión. El propósito de este tipo de gráfico es demostrar relaciones y tendencias dentro de los datos emparejados. No necesitamos tener tanto una variable explicativa como una variable de respuesta. Si este es el caso, cualquiera de las variables puede trazarse a lo largo de cualquier eje. Sin embargo, en el caso de que haya una respuesta y una variable explicativa, la variable explicativa siempre se traza a lo largo del X o eje horizontal de un sistema de coordenadas cartesianas. La variable de respuesta se traza a lo largo del y eje.
La distinción entre variables explicativas y de respuesta es similar a otra clasificación. A veces nos referimos a las variables como independientes o dependientes. El valor de una variable dependiente depende del de una variable independiente. Por lo tanto, una variable de respuesta corresponde a una variable dependiente, mientras que una variable explicativa corresponde a una variable independiente. Esta terminología generalmente no se usa en estadística porque la variable explicativa no es realmente independiente. En cambio, la variable solo toma los valores que se observan. Es posible que no tengamos control sobre los valores de una variable explicativa.