Cómo utilizar la correlación para hacer predicciones

No pase por alto un patrón útil sólo porque no esté impulsado por una relación causal.
Cómo utilizar la correlación para hacer predicciones

Resumen

Con demasiada frecuencia, los líderes malinterpretan los patrones empíricos y pierden oportunidades de participar en el pensamiento basado en datos. Para aprovechar mejor los datos, los líderes deben comprender los tipos de problemas que los datos pueden ayudar a resolver, así como la diferencia entre los problemas que se pueden resolver con una mejor predicción y los que se pueden resolver con una mejor comprensión de la causalidad.


Demasiados líderes adoptan un enfoque incompleto para comprender los patrones empíricos, lo que lleva a errores costosos e interpretaciones erróneas. Como hemos discutido antes, un error extremadamente común es interpretar una correlación engañosa como causal. Hemos asesorado a innumerables organizaciones sobre el tema. Hemos escrito artículos de investigación, artículos de gestión e incluso un libro dedicado a la el poder de los experimentos y herramientas de inferencia causal: un conjunto de herramientas que los economistas han adoptado y adaptado en las últimas décadas. Sin embargo, aunque creemos profundamente en el conjunto de herramientas de inferencia causal, también hemos visto el problema inverso: líderes que pasan por alto patrones útiles porque no son causales. La verdad es que también hay ocasiones en las que una correlación no solo es suficiente, sino que es exactamente lo que se necesita. El error que cometen los líderes aquí es no entender la distinción entre predicción y causalidad. O, más específicamente, la distinción entre predecir un resultado y predecir cómo una decisión afectará a un resultado.

Piense en un gerente que tenga problemas con la siguiente pregunta: ¿Debería subvencionar títulos universitarios para mis empleados? Podría empezar examinando la relación entre los títulos universitarios y la productividad. Sin embargo, incluso si ve una asociación positiva entre los títulos universitarios y la productividad, es difícil saber (sin más análisis) si esta relación es causal. Después de todo, es probable que haya otras diferencias subyacentes entre las personas con y sin títulos. Y ofrecer subsidios educativos a los empleados sin título no los hará idénticos a los otros empleados que ya tienen un título. Necesitaría un experimento, o un experimento natural, para comprender mejor si esta relación es causal.

Ahora, supongamos que el mismo director tuviera una pregunta ligeramente diferente: ¿Debería contratar a más graduados universitarios? Podría volver a examinar la correlación entre los títulos universitarios y la productividad para considerar si contrataría trabajadores más productivos ajustando la contratación para dar más peso a un título. En este caso, la correlación es útil, ya que ayuda a predecir quién será productivo, aunque no diga nada sobre si el título está provocando productividad.

Existe una diferencia sutil pero crítica entre estas dos preguntas. «¿Debería contratar a más graduados universitarios?» es un problema de predicción. «¿Debo subvencionar títulos universitarios para mis empleados?» es un inferencia causalproblema. En el primero, está tratando de evaluar si los títulos universitarios son predictivo de productividad. En otras palabras, ¿el tipo de personas que obtienen títulos universitarios son buenos empleados? En este último, ella está tratando de determinar si los títulos universitarios causa mayor productividad.

Esta distinción es fundamental para los responsables de la toma de decisiones: a la hora de considerar contratar empleados con un título universitario, el director necesita herramientas predictivas, que pueden ir desde correlaciones básicas hasta algoritmos de aprendizaje automático más avanzados. Puede que no necesite saber si los títulos están teniendo un efecto causal (o si, en cambio, el tipo de personas que obtienen títulos universitarios también son empleados productivos). Sin embargo, al considerar subvencionar títulos universitarios para sus empleados, su pregunta principal debería ser saber si es la educación universitaria real la que provoca una mayor productividad. Para determinar con éxito si los títulos ayudarán a mejorar el rendimiento de los empleados actuales, necesita las herramientas de inferencia causal, como experimentos o experimentos naturales, que se centran en comprender el impacto causal de hacer un cambio.

A continuación, proporcionamos ejemplos de problemas comunes de inferencia causal y predicción. Hacemos distinciones clave entre los dos tipos de problemas y señalamos las diferentes herramientas que los líderes necesitan para enfrentarse a cada uno.

Problemas de inferencia causal comunes

Los gerentes se enfrentan regularmente a decisiones que implican pensar en el impacto causal de las diferentes opciones. ¿La contratación de consultores mejorará la productividad de nuestra empresa? ¿Los salarios más altos reducirán la rotación? ¿La publicidad en las redes sociales atraerá nuevos clientes?

Todas estas preguntas se han respondido utilizando los métodos de inferencia causal de las ciencias sociales. Por ejemplo, las economistas Emma Harrington y Natalia Emanuel, en colaboración con una gran empresa tecnológica,salarios examinados en los centros de llamadas y almacenes de la empresa. En 2019, la empresa aumentó el salario de los trabajadores del almacén de 16 dólares la hora a 18 dólares la hora. Al observar el momento del aumento salarial, los investigadores pudieron ver el efecto de salarios más altos en la productividad utilizando un enfoque de diferencia en diferencias. Descubrieron que los aumentos no solo aumentaban la productividad, sino también que un aumento de 1 dólar reducía las posibilidades de que un empleado renunciara en un 19%. Resulta que era rentable aumentar los salarios, ya que las subidas salariales suben con creces de lo que se pagan a sí mismas gracias al impulso de la productividad y la disminución de la rotación.

Como segundo ejemplo, considérese un análisis recientes de Brett Gordon, Florian Zettelmeyer, Neha Bhargava y Dan Chapsky, que analiza las campañas publicitarias realizadas en Facebook. Al observar 15 campañas publicitarias en EE. UU. que constan de aproximadamente 1600 millones de impresiones publicitarias, los investigadores comparan las estimaciones del impacto de los anuncios en Facebook a partir de experimentos con las estimaciones de correlaciones no experimentales. El equipo descubrió que las correlaciones no experimentales entre los anuncios y las intenciones de compra eran engañosas, ya que los anuncios están orientados y tienden a mostrarse a los usuarios que ya están dispuestos a comprar un producto. Por ejemplo, los anuncios de detergentes para ropa se mostrarán a las personas que ya estén dispuestas a comprar detergente para ropa incluso a falta del anuncio. A continuación, los autores investigaron diferentes enfoques no experimentales para el control de las características de los usuarios y descubrieron que la correlación seguía siendo engañosa a pesar de los controles. Los controles estadísticos aún más avanzados no eliminaron este problema de «sesgo de selección». Esto se debe a que el sesgo de selección es especialmente severo en el contexto de los anuncios en línea, en los que los anuncios están muy segmentados y los efectos tienden a ser pequeños por impresión, lo que significa que incluso pequeñas cantidades de sesgo pueden dar lugar a estimaciones muy engañosas en general. En ese contexto, los experimentos pueden ser una forma eficaz de superar el sesgo de selección e identificar el impacto causal de los anuncios.

Un tercer ejemplo viene del mundo de los productos financieros, donde uno de nosotros (Dean), con sus colegas Jeremy Burke, Julian Jamison, Kata Mihaly y Jonathan Zinman, hizo un estudio en una cooperativa de ahorro y crédito en San Luis. Se examinó un popular producto de préstamos de «generador de crédito» diseñado para ayudar a quienes querían establecer un historial crediticio a hacerlo. De hecho, si tan solo buscara una correlación, descubriría que las personas que se valían del producto diseñado para obtener puntuaciones crediticias pasaban a crear puntuaciones crediticias, ¡éxito! Pero como la cooperativa de crédito había aleatorizado las ofertas, encontraron que muchas personas similares a los clientes de éxito a los que no se les había ofrecido ese producto también consiguieron buenos puntajes crediticios por su cuenta. De nuevo, tenemos un problema con la correlación de títulos universitarios: las personas que son el tipo de personas que lo quieren tienden a ser del tipo que tiene éxito. No fue el producto el que lo hizo, pero la correlación puede hacer que piense que lo fue.

Estos son solo tres de los muchos ejemplos de cómo el kit de herramientas de inferencia causal puede responder a preguntas críticas en áreas que van desde las operaciones hasta la estrategia y el marketing.

Problemas de predicción comunes

Si sus empleados o clientes son un grupo de autoselección, ¿eso significa que no tiene suerte? No, encontrar un producto de mejora crediticia no parece provocar un aumento de las puntuaciones, podría interpretarse como un fallo del producto, pero no es un fallo de la información. Recuerde que la decisión de un usuario de utilizar el producto resultó ser bastante predictiva de si su puntuación mejoraría. Si es el banco, esa es información que puede utilizar. Por ejemplo, puede que quiera utilizar información similar para evaluar los riesgos crediticios. Los bancos pueden estar más dispuestos a conceder crédito a las personas con puntuaciones crediticias bajas que eligen utilizar un producto de mejora crediticia que a las personas que no lo utilizan. La razón es sencilla: el uso del producto predice el comportamiento futuro, a pesar de que es no causando el comportamiento.

Los gerentes de todos los sectores se enfrentan regularmente a decisiones que implican hacer predicciones.

El aprendizaje automático y la inteligencia artificial son extremadamente valiosos en estos contextos. Nuestra propia investigación ha documentado el potencial de los algoritmos para llevar a procesos de contratación y ascensos más eficientes en áreas que van desde profesores hasta agentes de policía. Trabajos recientes han explorado más a fondo estas ideas y han descubierto que los algoritmos tienen el potencial de aumentar tanto la eficiencia como la equidad de la contratación. Por ejemplo, consideremos un artículo reciente de los economistas Danielle Li, Lindsey Raymond y Peter Bergman, que examina la utilidad de utilizar un algoritmo para filtrar los currículums, con datos en aproximadamente 90 000 solicitudes de empleo a una empresa Fortune 500 entre 2016 y 2019 Al comparar varios algoritmos con los responsables de la toma de decisiones humanas, los investigadores descubrieron que los algoritmos ayudaban a identificar mejores candidatos en la selección que las personas, lo que aumentaba la probabilidad de que los candidatos fueran contratados. Además, cuando se diseñaron con cuidado, los algoritmos dieron lugar a candidatos de mayor calidad y candidatos más diversos demográficamente. Pero, para conseguirlo, la organización necesitaba darse cuenta de que hay un elemento de predicción en la contratación y tener claro cuáles eran sus objetivos de contratación.

Como tercer ejemplo, supongamos que ve una correlación entre las cocinas más populares de un año determinado en Boston y las cocinas más populares del año anterior en Nueva York. Incluso si el enlace no es causal, la correlación es valiosa. Por ejemplo, puede resultar perspicaz para los restaurantes que buscan innovar en sus menús. Uno de nosotros (Mike) ha visto surgir este tipo de preguntas en su trabajo con Yelp, donde es posible buscar conjuntos de datos a gran escala para responder a este tipo de preguntas. Este trabajo ha ayudado a encontrar formas en que los datos de las empresas tecnológicas pueden arrojar luz sobre la evolución de la actividad económica. Por ejemplo, los datos de Yelp pueden ayudar a proporcionar información sobre las formas en que aburguesamiento afecta diferentes tipos de empresas. También puede ayudar predecir cambios en la actividad económica. En términos más generales, los datos de las empresas tecnológicas han sido una nueva fuente de información importante y ahora se han utilizado ampliamente tanto para problemas de inferencia causal como de predicción.

Elegir la maquinaria adecuada

«Nos ahogamos en información, pero nos morimos de hambre de sabiduría». Esta cita, del biólogo E.O. Wilson, captura la esencia del ecosistema empresarial moderno. El mundo está inundado de datos. Y los avances en el análisis de datos de las últimas décadas tienen el potencial de mejorar las decisiones de gestión en prácticamente todos los sectores y para una amplia gama de problemas. Una gran cantidad de literatura sobre economía y estadística ha explorado las formas en que la inteligencia artificial ha reducido el coste de hacer predicciones, en entornos que van desde la contratación hasta la inversión y los coches sin conductor. Paralelamente, el desarrollo de herramientas de inferencia causal ha sido reconocido en los premios Nobel de Economía de 2019 y 2021. Ambos son importantes para las decisiones empresariales.

Sin embargo, los líderes con demasiada frecuencia malinterpretan los patrones empíricos y pierden oportunidades de participar en el pensamiento basado en datos. Para aprovechar mejor los datos, los líderes deben comprender los tipos de problemas que los datos pueden ayudar a resolver, así como la diferencia entre los problemas que se pueden resolver con una mejor predicción y los que se pueden resolver con una mejor comprensión de la causalidad.

por Dean Karlan y Michael Luca

Related Posts
El CEO de General Electric sobre cómo desencadenar una renovación manufacturera estadounidense

El CEO de General Electric sobre cómo desencadenar una renovación manufacturera estadounidense

Fotografía: Getty Images La idea: los costos laborales causaron que muchas empresas de EE. UURNO subcontratan la fabricación. Un conjunto más amplio de métricas ha llevado a GE a revertir el curso e invertir en gran medida en la renovación de las operaciones de fabricación estadounidense. Hace más de 50 años, en el parque de electrodomésticos, en Louisville, Kentucky, GE invirtió $ 1.2 millones en un Univac, la primera computadora desplegada [...]
Leer más
Pathbooks

Lee un
bestseller en

10 minutos

Cada viernes, recibe un libro de negocios y carrera resumido en 10 minutos.

(puedes darte de baja cuando quieras)