Diseñar mejores sistemas de revisión en línea

Cómo crear calificaciones que los compradores y vendedores puedan confiar

Más de 50,000 líderes se mantienen al día con el futuro de los negocios.

Reportes radicalmente breves que ahorran 2,000+ horas de investigación

Estás aprendiendo en buena compañía

logo amazon
logo salesforce
logo mercadolibre
logo google
logo femsa
logo aeromexico
Resumen.

Las revisiones en línea están transformando la forma en que los consumidores eligen productos y servicios de todo tipo. Nos dirigiremos a TripAdvisor para planear unas vacaciones, Zocdoc para encontrar un médico, y Yelp para elegir un nuevo restaurante. Las reseñas pueden crear valor tanto para compradores como para vendedores, pero solo si alcanzan un nivel crítico de cantidad y calidad. Los autores describen los principios para establecer incentivos, opciones de diseño y reglas que ayudan a que las plataformas de revisión prosperen.

Para hacer frente a la escasez de reseñas, las empresas pueden sembrarlas contratando revisores o dibujando reseñas de otras plataformas, ofreciendo incentivos o agrupando productos. Para abordar el sesgo de selección, pueden requerir revisiones, permitir comentarios privados y diseñar indicaciones cuidadosamente. Para combatir las revisiones fraudulentas y estratégicas, pueden establecer reglas para los revisores y llamar a moderadores, ya sean empleados, comunidad o algoritmos.


Idea en breve

La Promesa

Los sistemas de revisión como las calificaciones de conductores de Uber y Lyft, las reseñas de productos en Amazon y las recomendaciones de hoteles en TripAdvisor informan cada vez más las decisiones de los consumidores. Los buenos sistemas brindan a los compradores la confianza que necesitan para realizar una compra y obtener mayores ventas (y más clientes que regresan) para los vendedores.

El problema

Muchos sistemas no están a la altura de sus promesas—tienen muy pocas reseñas o las revisiones son engañosas o poco útiles. Detrás de muchas fallas del sistema de examen se encuentra una suposición común: que la construcción de estos sistemas representa un desafío tecnológico más que un desafío administrativo.

La solución

Aquellos que construyen y mantienen estos sistemas deben tomar decisiones de diseño que conduzcan a mejores experiencias tanto para los consumidores como para los revisores.

Las revisiones en línea están transformando la forma en que los consumidores eligen productos y servicios: recurrimos a TripAdvisor para planificar unas vacaciones, Zocdoc para encontrar un médico, y Yelp para encontrar nuevos restaurantes. Los sistemas de revisión también desempeñan un papel central en los sitios web como Amazon y Airbnb. En términos más generales, un número creciente de organizaciones, que van desde Stanford Health Care hasta nueve de los 10 minoristas más grandes de Estados Unidos, ahora mantienen ecosistemas de revisión para ayudar a los clientes a conocer sus ofertas.

Si se administra bien, un sistema de revisión crea valor tanto para compradores como para vendedores. Los sistemas confiables pueden dar a los consumidores la confianza que necesitan para comprar un producto relativamente desconocido, ya sea un libro nuevo o una cena en un restaurante local. Por ejemplo, la investigación realizada por uno de nosotros (Mike) fundar que las calificaciones más altas de Yelp conducen a mayores ventas. Este efecto es mayor para las empresas independientes, cuya reputación está menos establecida. Las revisiones también crean un bucle de retroalimentación que proporciona a los proveedores información valiosa: por ejemplo, las calificaciones permiten a Uber eliminar de su servicio a los conductores con mal rendimiento, y pueden proporcionar a los productores de bienes de consumo orientación para mejorar sus ofertas.

Pero para cada próspero sistema de revisión, muchos otros son estériles, y no atraen a los revisores ni a otros usuarios. Y algunos acumulan muchas críticas, pero no logran construir la confianza de los consumidores en su informatividad. Si las revisiones en una plataforma son positivas, por ejemplo, la gente puede suponer que los elementos que se califican son todos de alta calidad, o pueden concluir que el sistema no puede ayudarlos a diferenciar lo bueno de lo malo. Las revisiones pueden ser engañosas si proporcionan una instantánea incompleta de las experiencias. Fraudulento o revisiones egoístas pueden obstaculizar los esfuerzos de las plataformas por fomentar la confianza. Investigación de Mike y Georgios Zervas ha descubierto que las empresas son especialmente propensas a participar en fraude de revisión cuando su reputación está luchando o la competencia es particularmente intensa.

Detrás de muchas fallas del sistema de examen se encuentra una suposición común: que la construcción de estos sistemas representa un desafío tecnológico más que un desafío administrativo. Los líderes empresariales a menudo invierten mucho en la tecnología detrás de un sistema, pero no logran administrar activamente el contenido, lo que provoca problemas comunes. Las implicaciones de las malas opciones de diseño pueden ser graves: es difícil imaginar que los viajeros confiarían en Airbnb sin una manera para que los anfitriones establezcan una reputación (que se apoya en gran medida en las reseñas), o que los compradores puedan navegar por Amazon sin problemas sin comentarios. Como académicos, Hyunjin y Mike han investigado las opciones de diseño que llevan a algunas plataformas en línea a tener éxito, mientras que otras fracasan y han trabajado con Yelp y otras compañías para ayudarlas en este frente (Hyunjin es también un becario de investigación económica en Yelp). Y como COO de Yelp durante más de una década, Geoff ayudó a que su ecosistema de revisión se convirtiera en una de las fuentes dominantes del mundo de información sobre servicios locales.

Las críticas positivas en una plataforma no ayudan a diferenciar lo bueno de lo malo.

En los últimos años, un creciente cuerpo de investigación ha explorado las opciones de diseño que pueden conducir a sistemas de revisión y reputación más robustos. Basándose en nuestra investigación, enseñanza y trabajo con empresas, este artículo explora marcos para la gestión de un ecosistema de revisión, arrojando luz sobre los problemas que pueden surgir y los incentivos y opciones de diseño que pueden ayudar a evitar trampas comunes. Veremos cada uno de estos problemas con más detalle y describiremos cómo abordarlos.

No son suficientes críticas

Cuando Yelp comenzó, era por definición una nueva plataforma, una ciudad fantasma, con pocos revisores o lectores. Muchos sistemas de revisión experimentan escasez de revisiones, especialmente cuando están comenzando. Mientras que la mayoría de la gente lee reseñas para informar una compra, solo una pequeña fracción escribe reseñas en cualquier plataforma que utilicen. Esta situación se ve agravada por el hecho de que las plataformas de revisión tienen fuertes efectos de red: es particularmente difícil atraer a escritores de reseñas en un mundo con pocos lectores, y difícil atraer lectores en un mundo con pocas reseñas.

Sugerimos tres enfoques que pueden ayudar a generar un número adecuado de revisiones: siembra del sistema, ofreciendo incentivos, y agrupación de productos relacionados para mostrar sus comentarios juntos. La combinación correcta de enfoques depende de factores tales como dónde está el sistema en su trayectoria de crecimiento, cuántos productos individuales se incluirán y cuáles son los objetivos para el sistema en sí.

Sembrando reseñas.

Las plataformas en fase temprana pueden considerar la contratación de revisores o dibujar reseñas de otras plataformas (a través de una asociación y con atribución adecuada). Para crear suficiente valor para que los usuarios de una nueva ciudad comiencen a visitar Yelp y contribuir con sus propias opiniones, la compañía reclutó equipos pagados de «exploradores» a tiempo parcial que agregarían fotos y comentarios personales durante unos meses hasta que la plataforma se encontrara atrapada. Para otras empresas, asociarse con plataformas especializadas en revisiones también puede ser valioso, tanto para aquellos que quieren crear su propio ecosistema de revisión como para aquellos que quieren mostrar reseñas pero no tienen la intención de crear su propia plataforma. Empresas como Amazon y Microsoft obtienen reseñas de Yelp y otras plataformas para rellenar sus sitios.

Para las plataformas que buscan hacer crecer su propio ecosistema de revisión, la siembra de revisiones puede ser particularmente útil en las primeras etapas, ya que no requiere una marca establecida para incentivar la actividad. Sin embargo, un gran número de productos o servicios puede hacer que sea costoso, y las revisiones que obtenga pueden diferir del contenido generado orgánicamente, por lo que algunas plataformas, dependiendo de sus objetivos, pueden beneficiarse de pasar rápidamente más allá de la siembra.

Ofrecer incentivos.

Motivar a los usuarios de su plataforma para que aporten reseñas y calificaciones puede ser una opción escalable y también puede crear un sentido de comunidad. El incentivo que utilizas podría ser financiero: en 2014 Airbnb ofrecido un cupón de $25 a cambio de reseñas y registró un aumento del 6,4% en las tasas de revisión. Sin embargo, los incentivos no financieros, como regalos en especie o símbolos de estatus, también pueden motivar a los revisores, especialmente si su marca está bien establecida. En el programa Guías locales de Google, los usuarios ganan puntos cada vez que aportan algo a la plataforma: escribir una reseña, agregar una foto, corregir contenido o responder a una pregunta. Pueden convertir esos puntos en recompensas que van desde el acceso anticipado a nuevos productos de Google hasta una actualización gratuita de 1 TB del almacenamiento de Google Drive. El «escuadrón de élite» de críticos prolíficos y de alta calidad de Yelp recibe una designación especial en la plataforma junto con invitaciones a fiestas y eventos privados, entre otras ventajas.

Los incentivos financieros pueden convertirse en un desafío si tiene una amplia gama de productos. Pero una preocupación mayor puede ser que si no están bien diseñados, tanto los incentivos financieros como los no financieros pueden contraer al inducir a los usuarios a poblar el sistema con revisiones rápidas pero descuidadas que no ayudan a otros clientes.

Productos de agrupación.

Si reconsideras la unidad de revisión, puedes hacer que un solo comentario se aplique a varios productos. En Yelp, por ejemplo, los peluqueros que comparten espacio en el salón son revisados juntos bajo una sola lista de salón. Esta agregación aumenta en gran medida el número de opiniones Yelp puede acumular para un negocio dado, porque una revisión de cualquier estilista individual aparece en la página de la empresa. Además, dado que muchos salones experimentan un batido regular entre sus estilistas, la reputación del salón es al menos tan importante para el cliente potencial como la del estilista. Del mismo modo, las plataformas de revisión pueden generar revisiones más útiles pidiendo a los usuarios que revisen vendedores (como en eBay) en lugar de separar cada producto vendido.

Decidir desde el principio si y cómo agrupar productos en un sistema de revisión puede ser útil, ya que establece de qué se trata la plataforma. (¿Es este un lugar para aprender sobre estilistas o sobre salones?) La agrupación se vuelve particularmente atractiva a medida que se amplía el espacio de su producto, ya que tiene más elementos para agrupar de maneras útiles.

Diseñar mejores sistemas de revisión en línea
Sean McCabe

Sin embargo, un riesgo para este enfoque es que la agrupación de productos para obtener más reseñas puede no proporcionar a sus clientes la información que necesitan sobre cualquier oferta en particular. Considere, por ejemplo, si la experiencia de visitar cada estilista en el salón es bastante diferente y si una revisión de un estilista sería relevante para los clientes potenciales de otro.

La agrupación de opiniones de Amazon en su librería tiene en cuenta el formato del libro que un lector quiere comprar. Las revisiones de las ediciones de texto del mismo título (tapa dura, libro de tapa blanda y Kindle) aparecen juntas, pero el audiolibro se revisa por separado, bajo la marca Audible. Para los clientes que quieran aprender sobre el contenido de los libros, sería beneficioso poner en común las reseñas de todos los libros de audio y físicos. Pero debido a que la calidad de la producción de audio y la información sobre el narrador son factores importantes para los compradores de audiolibros, puede ser beneficioso mantener esas reseñas separadas.

Todas estas estrategias pueden ayudar a superar la escasez de revisiones, permitiendo que el desarrollo de contenido sea más autosostenible a medida que más lectores se benefician de la plataforma e interactúen con ella. Sin embargo, las plataformas tienen que considerar no solo el volumen de reseñas, sino también su informatividad—lo que puede verse afectado por el sesgo de selección y los juegos del sistema.

Bias de selección

¿Has escrito alguna vez una reseña en línea? Si es así, ¿qué le hizo decidir comentar en esa ocasión en particular? Las investigaciones han demostrado que las decisiones de los usuarios de dejar una revisión a menudo dependen de la calidad de su experiencia. En algunos sitios, los clientes pueden ser más proclive dejar comentarios si su experiencia fue buena; en otros, sólo si fue muy bueno o muy malo. En cualquier caso, las calificaciones resultantes pueden sufrir un sesgo de selección: es posible que no representen con precisión toda la gama de experiencias de los clientes del producto. Si solo las personas satisfechas dejan comentarios, por ejemplo, las calificaciones se inflarán artificialmente. El sesgo de selección puede volverse aún más pronunciado cuando las empresas empujan solo a los clientes felices para dejar una reseña.

eBay encontró el reto del sesgo de selección en 2011, cuando se dio cuenta de que las puntuaciones de sus vendedores eran sospechosamente altas: la mayoría de los vendedores del sitio tenían más del 99% de valoraciones positivas. La compañía trabajó con los economistas Chris Nosko y Steven Tadelis y fundar que era mucho más probable que los usuarios dejaran una reseña después de una buena experiencia: de los 44 millones de transacciones que se habían completado en el sitio, solo el 0,39% tenía reseñas o calificaciones negativas, pero más del doble (1%) tenían un «ticket de disputa» real, y más de siete veces más (3%) habían llevado a los compradores a intercambiar mensajes con vendedores que implican una mala experiencia. Si los compradores decidieron o no revisar a un vendedor era, de hecho, un mejor predictor de futuras quejas y, por lo tanto, un mejor indicador de calidad que la calificación de ese vendedor.

Algunos sitios reciben comentarios sólo si una experiencia fue muy buena o muy mala.

eBay planteó la hipótesis de que podría mejorar la experiencia de los compradores y, por lo tanto, las ventas al corregir el sesgo de selección de los evaluadores y diferenciar más claramente a los vendedores de mayor calidad. Se reformuló puntuaciones del vendedor como el porcentaje de todos los transacciones que generaron calificaciones positivas (en lugar del porcentaje de calificaciones positivas). Esta nueva medida arrojó una mediana del 67% con un diferencial sustancial en la distribución de puntuaciones, y los clientes potenciales que estuvieron expuestos a las nuevas puntuaciones tenían más probabilidades que un grupo de control de devolver y hacer otra compra en el sitio.

Al trazar las puntuaciones en la plataforma de una manera similar, puede investigar si sus calificaciones están sesgadas, qué tan grave puede ser el problema y si los datos adicionales pueden ayudarle a solucionarlo. Cualquier sistema de revisión se puede crear para mitigar el sesgo que es más probable que tenga que enfrentar. Todo el proceso de revisión, desde la pregunta inicial hasta los mensajes que reciben los usuarios cuando escriben sus revisiones, ofrece oportunidades para empujar a los usuarios a comportarse de manera menos sesgada. Experimentar con opciones de diseño puede ayudar a mostrar cómo reducir el sesgo en la autoselección de los revisores, así como cualquier tendencia que los usuarios tengan que calificar de una manera particular.

Requerir revisiones.

Un enfoque más pesado requiere que los usuarios revisen una compra antes de realizar otra. Pero pisa con cuidado: esto puede expulsar a algunos clientes de la plataforma y puede provocar una avalancha de calificaciones no informativas que los clientes usan de forma predeterminada, lo que crea ruido y un tipo de error diferente en sus reseñas. Por esta razón, las plataformas suelen buscar otras formas de minimizar el sesgo de selección.

Permitir comentarios privados.

Los economistas John Horton y Joseph Golden fundar que en el sitio de revisión independiente Upwork, los empleadores se mostraron reacios a dejar reseñas públicas después de una experiencia negativa con un profesional independiente, pero estaban dispuestos a dejar comentarios que solo Upwork podía ver. (Los empleadores que reportaron malas experiencias en privado todavía dieron la opinión pública más alta posible casi el 20% de las veces.) Esto proporcionó a Upwork información importante (sobre cuándo los usuarios estaban o no dispuestos a dejar una revisión, y sobre los autónomos problemáticos) que podría usar para cambiar el algoritmo que sugería coincidencias independientes o para proporcionar comentarios agregados sobre los autónomos. La retroalimentación agregada cambió las decisiones de contratación, lo que indica que se trataba de información adicional pertinente.

El diseño indica cuidadosamente.

De manera más general, las revisiones que dejan las personas dependen de cómo y cuándo se les pide que los abandonen. Las plataformas pueden minimizar el sesgo en las revisiones diseñando cuidadosamente diferentes aspectos del entorno en el que los usuarios deciden si deben revisar. Este enfoque, que a menudo se denomina arquitectura de elección, término acuñado por Cass Sunstein y Richard Thaler (los autores de Cudge: Mejorar las decisiones sobre salud, riqueza y felicidad): se aplica a todo, desde cómo se redactan las solicitudes hasta cuántas opciones se le da a un usuario.

En un experimento que ejecutamos en Yelp, variamos los mensajes que incitan a los usuarios a dejar una revisión. Algunos usuarios vieron el mensaje genérico «La próxima revisión espera», mientras que a otros se les pidió que ayudaran a las empresas locales a ser descubiertas o a otros consumidores a encontrar negocios locales. Encontramos que este último grupo tendía a escribir reseñas más largas.

Revisiones fraudulentas y estratégicas

A veces, los vendedores intentan (de manera poco ética) aumentar sus calificaciones dejando reseñas positivas para ellos mismos o negativas para sus competidores mientras pretenden que las reseñas fueron dejadas por clientes reales. Esto se conoce como astroturfing. Cuanto más influyente sea la plataforma, más personas tratarán de astrocésped.

Debido al daño que el astroturf puede hacer para los consumidores, los responsables de la formulación de políticas y los reguladores se han involucrado. En 2013 Eric Schneiderman, entonces el fiscal general del estado de Nueva York, participó en una operación para abordarlo, citando nuestra investigación como parte de la motivación. La oficina de Schneiderman anunció un acuerdo con 19 empresas que habían ayudado a escribir reseñas falsas en plataformas online, obligándoles a detener la práctica y pagar una fuerte multa por cargos como publicidad falsa y prácticas comerciales engañosas. Pero, al igual que con los robos en hurtos, las empresas no pueden confiar simplemente en la aplicación de la ley; para evitar las trampas de las críticas falsas, también deben establecer sus propias protecciones. Como se discutió en un artículo que Mike escribió con Georgios Zervas, algunas compañías, incluyendo Yelp, realizan operaciones de picadura para identificar y dirigir empresas que tratan de dejar críticas falsas.

Un desafío relacionado surge cuando los compradores y vendedores se califican entre sí y elaboran sus opiniones para obtener calificaciones más altas de la otra parte. Considera la última vez que te quedaste en un Airbnb. Después se le pidió que dejara una reseña del anfitrión, a quien también se le pidió que dejara una reseña de usted. Hasta 2014, si dejaste tu opinión antes de que el anfitrión lo hiciera, él o ella podría leerla antes de decidir qué escribir sobre ti. ¿El resultado? Es posible que lo pienses dos veces antes de dejar una reseña negativa.

Las opciones de diseño de plataformas y la moderación del contenido juegan un papel importante en la reducción del número de revisiones fraudulentas y estratégicas.

Establecer reglas para los revisores.

Las opciones de diseño empiezan por decidir quién puede revisar y cuáles son las opiniones que resaltar. Por ejemplo, Amazon muestra un icono cuando una reseña es de un comprador verificado del producto, lo que puede ayudar a los consumidores a buscar opiniones potencialmente fraudulentas. Expedia va más allá y permite que solo los huéspedes que hayan reservado a través de su plataforma dejen una reseña allí. Investigación , de Dina Mayzlin, Yaniv Dover y Judith Chevalier muestra que tal política puede reducir el número de críticas fraudulentas. Al mismo tiempo, las normas más estrictas sobre quién puede dejar una revisión pueden ser un instrumento contundente que disminuye significativamente el número de revisiones y revisores auténticos. La plataforma debe decidir si el beneficio de reducir posibles falsificaciones excede el costo de tener menos revisiones legítimas.

Independientemente del buen diseño de su sistema, necesita moderadores de contenido.

Las plataformas también deciden cuándo se pueden enviar y mostrar las revisiones. Después de darse cuenta de que los no revisores tenían experiencias sistemáticamente peores que los revisores, Airbnb implementó una regla de «revelación simultánea» para disuadir las revisiones recíprocas entre invitados y anfitriones y permitir una retroalimentación más completa. La plataforma ya no muestra calificaciones hasta que tanto el huésped como el anfitrión las hayan proporcionado y establezca una fecha límite tras la cual caduca la capacidad de revisión. Después de que la compañía hizo este cambio, la investigación de Andrey Fradkin, Elena Grewal y David Holtz fundar que la calificación media de invitados y anfitriones disminuyó, mientras que las tasas de revisión aumentaron, lo que sugiere que los revisores tenían menos miedo de dejar comentarios después de una mala experiencia cuando estaban protegidos de represalias.

Llama a los moderadores.

No importa cuán buenas sean las opciones de diseño de su sistema, está obligado a encontrarse con problemas. El spam puede deslizarse. Los malos actores pueden tratar de jugar el sistema. Las revisiones que fueron extremadamente relevantes hace dos años pueden quedar obsoletas. Y algunas revisiones son más útiles que otras. Las opiniones de los no compradores pueden descartarse, por ejemplo, pero incluso algunas de las que permanecen pueden ser engañosas o menos informativas. La moderación puede eliminar las revisiones engañosas en función de su contenido, no solo por quién las escribió o cuándo fueron escritas.

La moderación del contenido viene en tres sabores: empleado, comunidad y algoritmo. Los moderadores de empleados (a menudo llamados gestores de comunidad) pueden pasar sus días usando activamente el servicio, interactuando en línea con otros usuarios, eliminando contenido inapropiado y proporcionando comentarios a la administración. Esta opción es la más costosa, pero puede ayudarle a entender rápidamente lo que funciona y lo que no, y asegurarse de que alguien gestiona lo que aparece en el sitio en todo momento.

La moderación de la comunidad permite a todos los usuarios ayudar a detectar y marcar contenido deficiente, desde revisiones infladas artificialmente hasta spam y otros tipos de abuso. Yelp tiene un icono simple que los usuarios pueden publicar para enviar dudas sobre una revisión que acosa a otro revisor o parece ser sobre algún otro negocio. Amazon pregunta a los usuarios si cada opinión es útil o no útil y emplea esos datos para elegir qué reseñas se mostrarán primero y para suprimir las que no son útiles. Sin embargo, a menudo sólo una pequeña fracción de los usuarios marcará la calidad del contenido, por lo que se necesita una masa crítica de usuarios comprometidos para que los sistemas de marcado comunitario funcionen.

El tercer enfoque para moderar contenido se basa en algoritmos. El software de recomendación de Yelp procesa docenas de factores sobre cada revisión diariamente y varía las revisiones que se muestran más prominentemente como «recomendadas». En 2014, la compañía dijo que menos del 75% de las revisiones escritas fueron recomendadas en un momento dado. Amazon, Google y TripAdvisor han implementado algoritmos de calidad de revisión que eliminan el contenido ofensivo de sus plataformas. Los algoritmos pueden, por supuesto, ir más allá de una clasificación binaria y, en su lugar, evaluar cuánto peso colocar en cada calificación. Mike ha escrito un papel con Daisy Dai, Ginger Jin y Jungmin Lee que explora el problema de agregación de calificaciones, destacando cómo asignar pesos a cada calificación puede ayudar a superar desafíos en el proceso de revisión subyacente.

Ponerlo todo junto

Las experiencias de otros han sido siempre una importante fuente de información sobre la calidad de los productos. La Academia Americana de Médicos de Familia, por ejemplo, sugiere que las personas recurren a amigos y familiares para aprender acerca de los médicos y obtener recomendaciones. Las plataformas de revisión han acelerado y sistematizado este proceso, lo que facilita el aprovechamiento de la sabiduría de la multitud. Las revisiones en línea han sido útiles para clientes, plataformas y responsables políticos por igual. Hemos utilizado datos de Yelp, por ejemplo, para examinar cuestiones que van desde la comprensión de cómo cambian los barrios durante los períodos de gentrificación para estimar el impacto de alzas de salario mínimo sobre los resultados empresariales. Pero para que las revisiones sean útiles, a los consumidores, a los vendedores y al público en general, las personas que gestionan los sistemas de revisión deben pensar cuidadosamente sobre las decisiones de diseño que toman y cómo reflejar con mayor precisión las experiencias de los usuarios.