Un día, durante el almuerzo, una mujer joven estaba comiendo un tazón grande de helado, y un miembro de la facultad se acercó a ella y le dijo: "Será mejor que tengas cuidado, hay una alta correlación estadística entre el helado y el ahogamiento". Le he dado una mirada confusa, mientras elaboraba un poco más. "Los días con más ventas de helados también ven a la mayoría de las personas ahogarse".
Cuando terminó mi helado, los dos colegas discutieron el hecho de que solo porque una variable esté estadísticamente asociada con otra, no significa que una sea la causa de la otra. A veces hay una variable oculta en el fondo. En este caso, el día del año se esconde en los datos. Se vende más helado en los calurosos días de verano que en los nevados de invierno. Más personas nadan en verano y, por lo tanto, se ahogan más en verano que en invierno..
La anécdota anterior es un excelente ejemplo de lo que se conoce como una variable al acecho. Como su nombre lo indica, una variable al acecho puede ser difícil de detectar y difícil de detectar. Cuando encontramos que dos conjuntos de datos numéricos están fuertemente correlacionados, siempre debemos preguntarnos: "¿Podría haber algo más que esté causando esta relación?"
Los siguientes son ejemplos de una fuerte correlación causada por una variable al acecho:
En todos estos casos, la relación entre las variables es muy fuerte. Esto normalmente se indica mediante un coeficiente de correlación que tiene un valor cercano a 1 o -1. No importa cuán cerca esté este coeficiente de correlación de 1 o -1, esta estadística no puede mostrar que una variable sea la causa de la otra variable.
Por su naturaleza, las variables al acecho son difíciles de detectar. Una estrategia, si está disponible, es examinar qué sucede con los datos a lo largo del tiempo. Esto puede revelar tendencias estacionales, como el ejemplo del helado, que se oscurecen cuando los datos se agrupan. Otro método es mirar los valores atípicos e intentar determinar qué los hace diferentes de los otros datos. A veces esto proporciona una pista de lo que está sucediendo detrás de escena. El mejor curso de acción es ser proactivo; cuestionar supuestos y diseñar experimentos cuidadosamente.
En el escenario inicial, suponga que un congresista bien intencionado pero estadísticamente desinformado propuso prohibir todos los helados para evitar ahogamientos. Tal proyecto de ley incomodaría a grandes segmentos de la población, obligaría a varias empresas a la bancarrota y eliminaría miles de empleos a medida que la industria de helados del país cerrara. A pesar de las mejores intenciones, este proyecto de ley no disminuiría el número de muertes por ahogamiento..
Si ese ejemplo parece un poco exagerado, considere lo siguiente, que realmente sucedió. A principios de 1900, los médicos notaron que algunos bebés morían misteriosamente mientras dormían debido a problemas respiratorios percibidos. Esto se llamó muerte en la cuna y ahora se conoce como SIDS. Una cosa que sobresalió de las autopsias realizadas en aquellos que murieron de SMSL fue un timo agrandado, una glándula ubicada en el pecho. A partir de la correlación de las glándulas del timo agrandadas en los bebés con SMSL, los médicos presumieron que un timo anormalmente grande causó la respiración inadecuada y la muerte..
La solución propuesta fue reducir el timo con altas dosis de radiación, o eliminar la glándula por completo. Estos procedimientos tuvieron una alta tasa de mortalidad y provocaron incluso más muertes. Lo triste es que estas operaciones no tuvieron que haberse realizado. Investigaciones posteriores han demostrado que estos médicos se equivocaron en sus suposiciones y que el timo no es responsable del SMSL.
Lo anterior debería hacernos detener cuando pensamos que la evidencia estadística se usa para justificar cosas como los regímenes médicos, la legislación y las propuestas educativas. Es importante que se haga un buen trabajo en la interpretación de los datos, especialmente si los resultados que implican la correlación afectarán la vida de los demás..
Cuando alguien dice: "Los estudios muestran que A es una causa de B y algunas estadísticas lo respaldan", esté listo para responder, "la correlación no implica causalidad". Siempre esté atento a lo que se esconde debajo de los datos.