Eleva tus habilidades de liderazgo y negocios

Súmate a más de 52,000 líderes en 90 empresas mejorando habilidades de estrategia, gestión y negocios.


El sorprendente poder de los experimentos en línea

Aprovechando al máximo la A / B y otras pruebas controladas
El sorprendente poder de los experimentos en línea
Resumen.

En el mundo digital que se mueve rápidamente, incluso los expertos tienen dificultades para evaluar nuevas ideas. Caso concreto: En Bing, un pequeño cambio de titular propuesto por un empleado fue considerado de baja prioridad y se archivó durante meses hasta que un ingeniero decidió hacer un experimento rápido controlado en línea, una prueba A/B, para probarlo. La prueba mostró que el cambio aumentó los ingresos en un asombroso 12%. Terminó siendo la mejor idea generadora de ingresos que Bing tuvo, por valor de 100 millones de dólares.

Esa experiencia ilustra por qué es fundamental adoptar un enfoque de «experimentar con todo», dicen Kohavi, jefe del equipo de Análisis y Experimentación de Microsoft, y Thomke, profesor de HBS. En este artículo describen cómo diseñar y ejecutar correctamente A/B y otras pruebas controladas, garantizar su integridad, interpretar los resultados y evitar trampas. Argumentan que si una empresa establece la infraestructura y el software adecuados, podrá evaluar ideas no solo para mejorar los sitios web, sino también para nuevos modelos de negocio, productos, estrategias y campañas de marketing, todo de manera relativamente económica. Esto le ayudará a encontrar el camino correcto hacia adelante, especialmente cuando las respuestas no son obvias o las personas tienen opiniones contradictorias.


En resumen

La necesidad

Al crear sitios web y aplicaciones, demasiadas empresas toman decisiones, desde las nuevas características del producto, hasta el aspecto y la apariencia, hasta las campañas de marketing, utilizando opiniones subjetivas en lugar de datos duros.

La solución

Las empresas deben realizar experimentos controlados en línea para evaluar sus ideas. Las mejoras potenciales deben probarse rigurosamente, ya que las grandes inversiones pueden fallar en la realización, y algunos pequeños cambios pueden ser sorprendentemente perjudiciales, mientras que otros tienen grandes beneficios.

Implementación

Los líderes deben comprender cómo diseñar y ejecutar correctamente pruebas A/B y otros experimentos controlados, garantizar su integridad, interpretar sus resultados y evitar trampas.

En 2012, un empleado de Microsoft que trabajaba en Bing tuvo una idea de cambiar la forma en que el motor de búsqueda mostraba los titulares de los anuncios. Desarrollarlo no requeriría mucho esfuerzo, sólo unos días del tiempo de un ingeniero, pero fue una de las cientos de ideas propuestas, y los directores de programas consideraron que era una prioridad baja. Así que languideció durante más de seis meses, hasta que un ingeniero, que vio que el costo de escribir el código sería pequeño, lanzó un simple experimento controlado en línea, una prueba A/B, para evaluar su impacto. En cuestión de horas, la nueva variación del titular estaba produciendo ingresos anormalmente altos, desencadenando una alerta «demasiado buena para ser verdad». Por lo general, tales alertas indican un error, pero no en este caso. Un análisis mostró que el cambio había aumentado los ingresos en un asombroso 12% —que anualmente llegaría a más de $100 millones en Estados Unidos— sin perjudicar las métricas clave de experiencia del usuario. Fue la mejor idea generadora de ingresos en la historia de Bing, pero hasta la prueba su valor fue subapreciado.

¡Humillante! Este ejemplo ilustra lo difícil que puede ser evaluar el potencial de las nuevas ideas. Igual de importante es que demuestra el beneficio de tener la capacidad de ejecutar muchas pruebas de forma económica y concurrente, algo que más empresas están empezando a reconocer.

Hoy en día, Microsoft y varias otras empresas líderes, entre ellas Amazon, Booking.com, Facebook y Google, cada uno lleva a cabo más de 10.000 experimentos controlados en línea anualmente, con muchas pruebas que involucran a millones de usuarios. Start-ups y empresas sin raíces digitales, como Walmart, Hertz y Singapore Airlines, también las administran regularmente, aunque a menor escala. Estas organizaciones han descubierto que un enfoque de «experimento con todo» tiene beneficios sorprendentemente grandes. Ha ayudado a Bing, por ejemplo, a identificar docenas de cambios relacionados con los ingresos para realizar cada mes, mejoras que han aumentado colectivamente los ingresos por búsqueda entre un 10% y un 25% cada año. Estas mejoras, junto con otros cientos de cambios mensuales que aumentan la satisfacción de los usuarios, son la principal razón por la que Bing es rentable y que su participación en las búsquedas realizadas en Estados Unidos en computadoras personales ha aumentado al 23%, frente al 8% en 2009, año en que se lanzó.

En un momento en que la web es vital para casi todas las empresas, los experimentos en línea rigurosos deberían ser el procedimiento operativo estándar. Si una empresa desarrolla la infraestructura de software y las habilidades organizativas para llevarlas a cabo, podrá evaluar no solo ideas para sitios web, sino también modelos de negocio potenciales, estrategias, productos, servicios y campañas de marketing, todo de manera relativamente económica. Los experimentos controlados pueden transformar la toma de decisiones en un proceso científico basado en la evidencia, en lugar de una reacción intuitiva. Sin ellos, muchos avances podrían no suceder nunca, y muchas malas ideas serían implementadas, sólo para fracasar, desperdiciando recursos.

Sin embargo, hemos descubierto que demasiadas organizaciones, incluyendo algunas grandes empresas digitales, son desacertadas en su enfoque de experimentación, no saben cómo realizar rigurosas pruebas científicas o llevar a cabo muy pocas de ellas.

Juntos hemos pasado más de 35 años estudiando y practicando experimentos y asesorando a empresas en una amplia gama de industrias sobre ellos. En estas páginas compartiremos las lecciones que hemos recogido sobre cómo diseñarlas y ejecutarlas, garantizar su integridad, interpretar sus resultados y abordar los desafíos que probablemente planteen. Aunque nos centraremos en el tipo más simple de experimento controlado, la prueba A/B, nuestros hallazgos y sugerencias se aplican también a diseños experimentales más complejos.

Apreciar el valor de las pruebas A/B

En una prueba A/B, el experimentador establece dos experiencias: «A», el control, suele ser el sistema actual y considerado el «campeón», y «B», el tratamiento, es una modificación que intenta mejorar algo: el «retador». Los usuarios se asignan aleatoriamente a las experiencias, y las métricas clave se calculan y comparan. (Las pruebas univariables A/B/C y A/B/C/D y las pruebas multivariables, por el contrario, evalúan más de un tratamiento o modificaciones de diferentes variables al mismo tiempo.) En línea, la modificación podría ser una nueva función, un cambio en la interfaz de usuario (como un nuevo diseño), un cambio de back-end (como una mejora de un algoritmo que, por ejemplo, recomienda libros en Amazon) o un modelo de negocio diferente (como una oferta de envío gratuito). Cualquiera que sea el aspecto de las operaciones que más se preocupan a las empresas, ya sean ventas, uso repetido, tasas de clics o tiempo que los usuarios pasan en un sitio, pueden utilizar pruebas A/B en línea para aprender a optimizarlo.

Cualquier empresa que tenga al menos unos pocos miles de usuarios activos diarios puede realizar estas pruebas. La capacidad de acceder a grandes muestras de clientes, recopilar automáticamente grandes cantidades de datos sobre las interacciones de los usuarios en sitios web y aplicaciones, y ejecutar experimentos simultáneos ofrece a las empresas una oportunidad sin precedentes de evaluar muchas ideas rápidamente, con gran precisión y a un costo insignificante por incremento experimento. Esto permite a las organizaciones iterar rápidamente, fallar rápidamente y pivotar.

Reconociendo estas virtudes, algunas empresas tecnológicas líderes han dedicado grupos enteros a construir, administrar y mejorar una infraestructura de experimentación que puede ser empleada por muchos equipos de productos. Tal capacidad puede ser una ventaja competitiva importante, siempre que sepa cómo usarla. Esto es lo que los gerentes necesitan entender:

Pequeños cambios pueden tener un gran impacto.

La gente comúnmente asume que cuanto mayor sea la inversión que hagan, mayor será el impacto que verán. Pero las cosas rara vez funcionan de esa manera en línea, donde el éxito consiste más en conseguir muchos pequeños cambios correctos. Aunque el mundo empresarial glorifica grandes ideas disruptivo, en realidad la mayor parte del progreso se logra mediante la implementación de cientos o miles de mejoras menores.

Poner ofertas de tarjetas de crédito en la página del carrito de la compra aumentó las ganancias en millones.

Considere el siguiente ejemplo, de nuevo desde Microsoft. (Aunque la mayoría de los ejemplos en este artículo provienen de Microsoft, donde Ron dirige la experimentación, ilustran lecciones extraídas de muchas empresas.) En 2008 un empleado en el Reino Unido hizo una sugerencia aparentemente menor: Tener una nueva pestaña (o una nueva ventana en navegadores antiguos) se abra automáticamente cada vez que un usuario haga clic en el enlace de Hotmail en la página principal de MSN, en lugar de abrir Hotmail en la misma pestaña. Se realizó una prueba con unos 900.000 usuarios del Reino Unido, y los resultados fueron muy alentadores: la participación de los usuarios que abrieron Hotmail aumentó en un impresionante 8,9%, medido por el número de clics que hicieron en la página principal de MSN. (La mayoría de los cambios en el compromiso tienen un efecto inferior al 1%.) Sin embargo, la idea fue controvertida porque pocos sitios en ese momento estaban abriendo enlaces en nuevas pestañas, por lo que el cambio se lanzó solo en el Reino Unido.

En junio de 2010 el experimento se replicó con 2,7 millones de usuarios en los Estados Unidos, produciendo resultados similares, por lo que el cambio se implementó en todo el mundo. Luego, para ver qué efecto podría tener la idea en otro lugar, Microsoft exploró la posibilidad de que las personas que iniciaron una búsqueda en MSN abran los resultados en una nueva pestaña. En un experimento con más de 12 millones de usuarios en Estados Unidos, los clics por usuario aumentaron un 5%. Abrir vínculos en nuevas pestañas es una de las mejores maneras de aumentar la participación de los usuarios que Microsoft ha introducido, y todo lo que necesitaba era cambiar algunas líneas de código. Hoy en día muchos sitios web, incluyendo Facebook.com y Twitter.com, usan esta técnica.

La experiencia de Microsoft no es única. Los experimentos de Amazon, por ejemplo, revelaron que el traslado de las ofertas de tarjetas de crédito desde su página de inicio a la página del carrito de la compra aumentó las ganancias en decenas de millones de dólares anuales. Es evidente que las pequeñas inversiones pueden producir grandes rendimientos. Las grandes inversiones, sin embargo, pueden tener poca o ninguna payoff. La integración de Bing con las redes sociales, para que el contenido de Facebook y Twitter se abra en un tercer panel de la página de resultados de búsqueda, le costó a Microsoft más de 25 millones de dólares desarrollar y produjo incrementos insignificantes en la participación y los ingresos.

Los experimentos pueden guiar las decisiones de inversión.

Las pruebas en línea pueden ayudar a los gerentes a averiguar cuánta inversión en una mejora potencial es óptima. Esta fue una decisión que Microsoft enfrentó cuando estaba buscando reducir el tiempo que le llevó a Bing mostrar los resultados de búsqueda. Por supuesto, más rápido es mejor, pero ¿podría cuantificarse el valor de una mejora? ¿Debería haber tres, 10 o quizás 50 personas trabajando en esa mejora del rendimiento? Para responder a estas preguntas, la empresa realizó una serie de pruebas A/B en las que se añadieron retrasos artificiales para estudiar los efectos de las diferencias de minuto en la velocidad de carga. Los datos mostraron que cada diferencia de 100 milisegundos en el rendimiento tenía un impacto del 0,6% en los ingresos. Con los ingresos anuales de Bing que superan los 3.000 millones de dólares, una aceleración de 100 milisegundos vale $18 millones en ingresos incrementales anuales, lo suficiente para financiar un equipo considerable.

Los resultados de las pruebas también ayudaron a Bing a realizar importantes compensaciones, específicamente sobre las características que podrían mejorar la relevancia de los resultados de búsqueda pero ralentizar el tiempo de respuesta del software. Bing quería evitar una situación en la que muchas características pequeñas condujeron acumulativamente a una degradación significativa del rendimiento. Así que el lanzamiento de funciones individuales que ralentizaron la respuesta en más de unos pocos milisegundos se retrasó hasta que el equipo mejoró su rendimiento o el rendimiento de otro componente.

Cree una capacidad a gran escala

Hace más de un siglo, el dueño de los grandes almacenes John Wanamaker habría acuñado el adagio de marketing «La mitad del dinero que gasto en publicidad se desperdicia; el problema es que no sé cuál mitad». Hemos encontrado algo similar para las nuevas ideas: la gran mayoría de ellas fracasan en experimentos, e incluso los expertos a menudo juzgan mal cuáles darán sus frutos. En Google y Bing, solo entre el 10% y el 20% de los experimentos generan resultados positivos. En Microsoft en su conjunto, un tercio resulta eficaz, un tercio tiene resultados neutrales y un tercio tiene resultados negativos. Todo esto demuestra que las empresas necesitan besar muchas ranas (es decir, realizar una gran cantidad de experimentos) para encontrar un príncipe.

Cualquier figura que parezca interesante o diferente suele ser incorrecta.

Es clave experimentar con todo para asegurarse de que los cambios no sean degradantes ni tengan efectos inesperados. En Bing, aproximadamente el 80% de los cambios propuestos se ejecutan primero como experimentos controlados. (Se excluyen algunas correcciones de errores de bajo riesgo y cambios a nivel de máquina, como las actualizaciones del sistema operativo).

La prueba científica de casi todas las ideas propuestas requiere una infraestructura: instrumentación (para registrar cosas tales como clics, desplazadores de ratón y tiempos de eventos), canalizaciones de datos y científicos de datos. Varias herramientas y servicios de terceros hacen que sea fácil probar experimentos, pero si desea escalar las cosas, debe integrar estrechamente la capacidad en sus procesos. Eso reducirá el costo de cada experimento y aumentará su confiabilidad. Por otra parte, la falta de infraestructura mantendrá altos los costos marginales de las pruebas y podría hacer que el personal directivo superior se reacios a exigir más experimentos.

Microsoft proporciona un buen ejemplo de una infraestructura de pruebas sustancial, aunque una empresa más pequeña o una empresa cuyo negocio no depende tanto de la experimentación podría hacer con menos, por supuesto. El equipo de análisis y experimentación de Microsoft está formado por más de 80 personas que en un día determinado ayudan a ejecutar cientos de experimentos online controlados en varios productos, incluyendo Bing, Cortana, Exchange, MSN, Office, Skype, Windows y Xbox. Cada experimento expone cientos de miles (y a veces incluso decenas de millones) de usuarios a una nueva característica o cambio. El equipo realiza análisis estadísticos rigurosos en todas estas pruebas, generando automáticamente cuadros de mando que verifican cientos a miles de métricas y marcan cambios significativos.

El personal de experimentación de una empresa puede organizarse de tres maneras:

Modelo centralizado.

En este enfoque, un equipo de científicos de datos atienden a toda la empresa. La ventaja es que pueden centrarse en proyectos a largo plazo, como construir mejores herramientas de experimentación y desarrollar algoritmos estadísticos más avanzados. Uno de los principales inconvenientes es que las unidades de negocio que utilizan el grupo pueden tener prioridades diferentes, lo que podría dar lugar a conflictos sobre la asignación de recursos y costos. Otra estafa es que los científicos de datos pueden sentirse como extraños cuando tratan con las empresas y, por lo tanto, estar menos sintonizados con los objetivos de las unidades y el conocimiento del dominio, lo que podría dificultarles conectar los puntos y compartir ideas relevantes. Además, los científicos de datos pueden carecer de la influencia necesaria para persuadir a la alta dirección de invertir en la construcción de las herramientas necesarias o para conseguir que los gerentes corporativos y de unidades de negocio confíen en los resultados de los experimentos.

Modelo descentralizado.

Otro enfoque es la distribución de científicos de datos a través de las diferentes unidades de negocio. El beneficio de este modelo es que los científicos de datos pueden convertirse en expertos en cada dominio empresarial. La principal desventaja es la falta de una trayectoria profesional clara para estos profesionales, que también pueden no recibir comentarios de pares y tutoría que les ayuden a desarrollarse. Y los experimentos en unidades individuales pueden no tener la masa crítica para justificar la construcción de las herramientas necesarias.

Modelo de centro de excelencia.

Una tercera opción es tener algunos científicos de datos en una función centralizada y otros dentro de las diferentes unidades de negocio. (Microsoft utiliza este enfoque.) Un centro de excelencia se centra principalmente en el diseño, ejecución y análisis de experimentos controlados. Reduce significativamente el tiempo y los recursos que esas tareas requieren al crear una plataforma de experimentación para toda la empresa y herramientas relacionadas. También puede difundir las mejores prácticas de prueba en toda la organización organizando clases, laboratorios y conferencias. Las principales desventajas son la falta de claridad sobre lo que posee el centro de excelencia y lo que poseen los equipos de productos, quién debe pagar por contratar más científicos de datos cuando varias unidades aumenten sus experimentos, y quién es responsable de las inversiones en alertas y comprobaciones que indican que los resultados no son confiables.

No hay modelo correcto o incorrecto. Las pequeñas empresas suelen comenzar con el modelo centralizado o utilizan una herramienta de terceros y luego, una vez crecido, cambian a uno de los otros modelos. En empresas con múltiples negocios, los gerentes que consideran probar una prioridad pueden no querer esperar hasta que los líderes corporativos desarrollen un enfoque organizacional coordinado; en esos casos, un modelo descentralizado podría tener sentido, al menos al principio. Y si la experimentación en línea es una prioridad corporativa, es posible que una empresa desee desarrollar conocimientos especializados y desarrollar estándares en una unidad central antes de implementarlos en las unidades de negocio.

Abordar la definición de éxito

Cada grupo empresarial debe definir una métrica de evaluación adecuada (generalmente compuesta) para experimentos que se alinea con sus objetivos estratégicos. Eso podría sonar simple, pero determinar qué métricas a corto plazo son los mejores predictores de resultados a largo plazo es difícil. Muchas empresas se equivocan. Hacerlo bien, inventando un criterio general de evaluación (OEC), tiene una consideración reflexiva y, a menudo, un amplio debate interno. Requiere una estrecha cooperación entre altos ejecutivos que entienden la estrategia y analistas de datos que entienden las métricas y las compensaciones. Y no es un ejercicio de una sola vez: Recomendamos que el OEC se ajuste anualmente.

Llegar a un OEC no es sencillo, como lo demuestra la experiencia de Bing. Sus objetivos clave a largo plazo son aumentar su cuota de consultas en motores de búsqueda y sus ingresos publicitarios. Curiosamente, la disminución de la relevancia de los resultados de búsqueda hará que los usuarios emprendan más consultas (aumentando así la cuota de consultas) y haga clic en más anuncios (incrementando así los ingresos). Obviamente, tales ganancias sólo serían de corta duración, porque la gente eventualmente cambiaría a otros motores de búsqueda. Entonces, ¿qué métricas a corto plazo predicen mejoras a largo plazo para consultar participación e ingresos? En su discusión sobre la OEC, los ejecutivos y analistas de datos de Bing decidieron que querían minimizar el número de consultas de usuario para cada tarea o sesión y maximizar el número de tareas o sesiones que llevaron a cabo los usuarios.

También es importante desglosar los componentes de una OEC y realizar un seguimiento de ellos, ya que normalmente proporcionan información sobre por qué una idea tuvo éxito. Por ejemplo, si el número de clics es parte integral de la OEC, es fundamental medir en qué partes de una página se hizo clic. El estudio de diferentes métricas es crucial porque ayuda a los equipos a descubrir si un experimento tiene un impacto imprevisto en otra área. Por ejemplo, un equipo que realiza un cambio en las consultas de búsqueda relacionadas mostradas (una búsqueda en, por ejemplo, «Harry Potter», mostrará consultas sobre libros de Harry Potter, películas de Harry Potter, los moldes de esas películas, etc.) puede no darse cuenta de que está alterando la distribución de las consultas (aumentando las búsquedas de los consultas), lo que podría afectar positivamente o negativamente a los ingresos.

Con el tiempo, el proceso de construcción y ajuste de la OEC y la comprensión de las causas y los efectos se hace más fácil. Ejecutando experimentos, depurando los resultados (que discutiremos en un poco) e interpretándolos, las empresas no solo obtendrán una valiosa experiencia con qué métricas funcionan mejor para ciertos tipos de pruebas, sino que también desarrollarán nuevas métricas. A lo largo de los años, Bing ha creado más de 6.000 métricas que los experimentadores pueden usar, que se agrupan en plantillas por el área que implican las pruebas (búsqueda web, búsqueda de imágenes, búsqueda de vídeos, cambios en los anuncios, etc.).

Tenga cuidado con los datos de baja calidad

No importa cuán buenos sean sus criterios de evaluación si la gente no confía en los resultados de los experimentos. Obtener números es fácil; obtener números en los que puedes confiar es difícil! Debe asignar tiempo y recursos para validar el sistema de experimentación y configurar comprobaciones y salvaguardias automatizadas. Un método es ejecutar pruebas A/A rigurosas, es decir, probar algo contra sí mismo para asegurarse de que aproximadamente el 95% del tiempo que el sistema identifica correctamente ninguna diferencia estadísticamente significativa. Este sencillo enfoque ha ayudado a Microsoft a identificar cientos de experimentos no válidos y aplicaciones incorrectas de fórmulas (como el uso de una fórmula que asume que todas las mediciones son independientes cuando no lo son).

Hemos aprendido que los mejores científicos de datos son escépticos y siguen la ley de Twyman: Cualquier figura que parezca interesante o diferente suele ser errónea. Se deben replicar resultados sorprendentes, tanto para asegurarse de que son válidos como para sofocar las dudas de las personas. En 2013, por ejemplo, Bing realizó un conjunto de experimentos con los colores de varios textos que aparecían en su página de resultados de búsqueda, incluidos títulos, vínculos y subtítulos. Aunque los cambios de color fueron sutiles, los resultados fueron inesperadamente positivos: mostraron que los usuarios que vieron blues y greens ligeramente más oscuros en los títulos y un negro ligeramente más claro en los subtítulos tuvieron éxito en sus búsquedas un porcentaje mayor del tiempo y que aquellos que encontraron lo que querían lo hicieron en significativamente menos tiempo.

Dado que las diferencias de color son apenas perceptibles, los resultados fueron comprensiblemente vistos con escepticismo por múltiples disciplinas, incluyendo los expertos en diseño. (Durante años, Microsoft, como muchas otras empresas, había confiado en diseñadores expertos, en lugar del comportamiento de los usuarios reales, para definir guías de estilo corporativo y colores.) Así que el experimento fue rerealizado con una muestra mucho mayor de 32 millones de usuarios, y los resultados fueron similares. El análisis indicó que, cuando se aplicaban a todos los usuarios, los cambios de color aumentarían los ingresos en más de 10 millones de dólares anuales.

Si desea que los resultados sean confiables, debe asegurarse de que se utilizan datos de alta calidad. Es posible que deba excluirse los valores atípicos, identificar errores de recopilación, etc. En el mundo en línea este tema es especialmente importante, por varias razones. Toma bots de Internet. En Bing, más del 50% de las solicitudes provienen de bots. Estos datos pueden sesgar los resultados o agregar «ruido», lo que dificulta la detección de significación estadística. Otro problema es la prevalencia de puntos de datos atípicos. Amazon, por ejemplo, descubrió que ciertos usuarios individuales hacían pedidos masivos de libros que podían sesgar toda una prueba A/B; resultó que eran cuentas de biblioteca.

Los gerentes también deben tener cuidado cuando algunos segmentos experimentan efectos mucho más grandes o menores que otros (un fenómeno que los estadísticos llaman «efectos heterogéneos del tratamiento»). En ciertos casos, un solo segmento bueno o malo puede sesgar el promedio lo suficiente como para invalidar los resultados generales. Esto ocurrió en un experimento de Microsoft en el que un segmento, los usuarios de Internet Explorer 7, no pudieron hacer clic en los resultados de las búsquedas de Bing debido a un error de JavaScript, y los resultados generales, que de otro modo eran positivos, se volvieron negativos. Una plataforma de experimentación debería detectar segmentos tan inusuales; si no lo hace, los experimentadores que buscan un efecto promedio pueden descartar una buena idea como una mala idea.

Los resultados también pueden ser sesgados si las empresas reutilizan las poblaciones de control y tratamiento de un experimento a otro. Esa práctica conduce a «efectos de arrastre», en los que la experiencia de las personas en un experimento altera su comportamiento futuro. Para evitar este fenómeno, las empresas deben «mezclar» a los usuarios entre experimentos.

Otra comprobación común que realiza la plataforma de experimentación de Microsoft es validar que los porcentajes de usuarios en los grupos de control y tratamiento en el experimento real coinciden con el diseño experimental. Cuando estos difieren, hay una «falta de coincidencia de la proporción de muestreo», que a menudo anula los resultados. Por ejemplo, una proporción de 50,2/49,8 (821.588 frente a 815.482 usuarios) difiere lo suficiente de una relación esperada 50/50 que la probabilidad de que ocurra por casualidad es menor que una de cada 500.000. Tales desajustes ocurren regularmente (generalmente semanalmente), y los equipos deben ser diligentes al entender por qué y resolverlos.

Evite las suposiciones sobre causalidad

Debido a la exageración sobre el big data, algunos ejecutivos creen erróneamente que la causalidad no es importante. En sus mentes todo lo que necesitan hacer es establecer correlación, y se puede inferir la causalidad. ¡Mal!

Los dos ejemplos siguientes ilustran por qué y también destacan las deficiencias de los experimentos que carecen de grupos de control. El primero se refiere a dos equipos que realizaron estudios observacionales separados de dos características avanzadas para Microsoft Office. Cada uno llegó a la conclusión de que la nueva característica que estaba evaluando la reducción del desgaste. De hecho, casi cualquier característica avanzada mostrará tal correlación, porque las personas que probarán una característica avanzada tienden a ser usuarios pesados, y los usuarios pesados tienden a tener menor desgaste. Por lo tanto, si bien una nueva característica avanzada podría correlacionarse con un menor desgaste, no necesariamente la causa. Los usuarios de Office que reciben mensajes de error también tienen menor desgaste, porque también tienden a ser usuarios pesados. Pero, ¿significa eso que mostrar a los usuarios más mensajes de error reducirá la eliminación? Difícilmente.

El segundo ejemplo se refiere a un estudio realizado por Yahoo para evaluar si los anuncios de display de una marca, mostrados en los sitios web de Yahoo, podrían aumentar las búsquedas del nombre de la marca o palabras clave relacionadas. La parte observacional del estudio estimó que los anuncios aumentaron el número de búsquedas en un 871% al 1,198%. Pero cuando Yahoo ejecutó un experimento controlado, el aumento fue de solo 5,4%. Si no fuera por el control, la empresa podría haber concluido que los anuncios tuvieron un gran impacto y no se habría dado cuenta de que el aumento de las búsquedas se debió a otras variables que cambiaron durante el periodo de observación.

Algunos ejecutivos creen que todo lo que necesitan hacer es establecer correlación. ¡Mal!

Claramente, los estudios observacionales no pueden establecer la causalidad. Esto es bien conocido en medicina, razón por la cual la Administración de Alimentos y Medicamentos de los Estados Unidos ordena que las empresas lleven a cabo ensayos clínicos aleatorizados para demostrar que sus medicamentos son seguros y efectivos.

Incluir demasiadas variables en las pruebas también hace que sea difícil aprender sobre la causalidad. Con tales pruebas es difícil desenredar los resultados e interpretarlos. Idealmente, un experimento debería ser lo suficientemente simple como para que las relaciones de causa y efecto se puedan entender fácilmente. Otra desventaja de los diseños complejos es que hacen que los experimentos sean mucho más vulnerables a los errores. Si una nueva función tiene un 10% de probabilidad de desencadenar un problema atroz que requiere abortar su prueba, entonces la probabilidad de que un cambio que involucra siete nuevas características tenga un error fatal es superior al 50%.

¿Y si puedes determinar que una cosa causa otra, pero no sabes por qué? ¿Debería tratar de entender el mecanismo causal? La respuesta corta es sí.

Entre 1500 y 1800, alrededor de 2 millones de marineros murieron de escorbuto. Hoy sabemos que el escorbuto es causado por la falta de vitamina C en la dieta, que los marineros experimentaron porque no tenían suficientes suministros de fruta en largos viajes. En 1747, el Dr. James Lind, cirujano de la Marina Real, decidió hacer un experimento para probar seis posibles curas. En un viaje dio a algunos marineros naranjas y limones, y otros remedios alternativos como el vinagre. El experimento mostró que los cítricos podían prevenir el escorbuto, aunque nadie sabía por qué. Lind creía erróneamente que la acidez de la fruta era la cura y trató de crear un remedio menos perecedero calentando el jugo de cítricos en un concentrado, que destruyó la vitamina C. No fue hasta 50 años más tarde, cuando el jugo de limón sin calentar se añadió a las raciones diarias de los marineros, que finalmente la Royal Navy eliminó el escorbuto entre sus tripulaciones. Presumiblemente, la cura podría haber llegado mucho antes y salvar muchas vidas si Lind hubiera llevado a cabo un experimento controlado con jugo de limón calentado y sin calefacción.

Dicho esto, debemos señalar que no siempre hay que saber el «por qué» o el «cómo» beneficiarse del conocimiento del «qué». Esto es particularmente cierto cuando se trata del comportamiento de los usuarios, cuyas motivaciones pueden ser difíciles de determinar. En Bing algunos de los mayores avances se hicieron sin una teoría subyacente. Por ejemplo, aunque Bing pudo mejorar la experiencia del usuario con esos cambios sutiles en los colores del tipo, no hay teorías bien establecidas sobre el color que le ayuden a entender por qué. Aquí la evidencia tomó el lugar de la teoría.

CONCLUSIÓN

El mundo en línea a menudo es visto como turbulento y lleno de peligro, pero los experimentos controlados pueden ayudarnos a navegar por él. Pueden indicarnos en la dirección correcta cuando las respuestas no son obvias o las personas tienen opiniones contradictorias o no están seguros sobre el valor de una idea.

Hace varios años, Bing estaba debatiendo si aumentar los anuncios para que los anunciantes pudieran incluir enlaces a páginas de destino específicas en ellos. (Por ejemplo, una empresa de préstamos podría proporcionar enlaces como «comparar tasas» y «sobre la empresa» en lugar de solo uno a una página de inicio.) Una desventaja fue que los anuncios más grandes obviamente ocuparían más bienes raíces en pantalla, que se sabe que aumenta la insatisfacción de los usuarios y la batida. La gente que consideraba la idea estaba dividida. Así que el equipo de Bing experimentó con aumentar el tamaño de los anuncios, manteniendo constante el espacio total de pantalla asignado a los anuncios, lo que significaba mostrar menos de ellos. El resultado fue que mostrar menos anuncios pero más grandes condujo a una gran mejora: los ingresos aumentaron en más de 50 millones de dólares anuales sin perjudicar los aspectos clave de la experiencia del usuario.

Si realmente desea entender el valor de un experimento, observe la diferencia entre su resultado esperado y su resultado real. Si pensaste que algo iba a pasar y sucedió, entonces no has aprendido mucho. Si pensaste que algo iba a pasar y no pasó, entonces has aprendido algo importante. Y si pensaste que algo menor iba a suceder, y los resultados son una gran sorpresa y conducen a un gran avance, has aprendido algo muy valioso.

Al combinar el poder del software con el rigor científico de los experimentos controlados, su empresa puede crear un laboratorio de aprendizaje. Los beneficios que obtiene, en ahorros de costos, nuevos ingresos y experiencia mejorada del usuario, pueden ser enormes. Si desea obtener una ventaja competitiva, su empresa debe desarrollar una capacidad de experimentación y dominar la ciencia de la realización de pruebas en línea.


Eleva tus habilidades de liderazgo y negocios

Súmate a más de 52,000 líderes en 90 empresas mejorando habilidades de estrategia, gestión y negocios.