Para proteger los datos de los consumidores, no lo hagas todo en la nube

Borde de computación a menudo puede ofrecer los mismos resultados con menos riesgo.

Para proteger los datos de los consumidores, no lo hagas todo en la nube

A medida que las empresas almacenan cada vez más datos de los consumidores, corren cada vez más riesgo de sufrir violaciones embarazosas, e incluso muy dañinas, por parte de los piratas informáticos. Pero, ¿qué pasaría si pudieran obtener información útil sin acaparar cada fragmento de datos? La computación perimetral, en la que los datos se procesan localmente en hardware en lugar de en la nube, puede ayudarles a hacerlo implementando tres opciones de diseño críticas. Las opciones de diseño comienzan por cómo pensar en la recopilación de datos y se extienden al procesamiento de datos real. Son: 1) suficiencia, o centrarse únicamente en datos imprescindibles; 2) agregación o agrupación de datos para producir información de grupo; y 3) alteración, o realizar cambios menores en los datos para ocultar la identidad de una persona y, al mismo tiempo, afectar mínimamente la precisión de los conocimientos.


Al recopilar datos de los consumidores, casi siempre existe un riesgo para la privacidad del consumidor. La información confidencial podría filtrarse involuntariamente o ser violada por actores malos. Por ejemplo, la violación de datos de Equifax de 2017 comprometió la información personal de 143 millones de consumidores estadounidenses. Las infracciones más pequeñas, de las que puede o no oír hablar, ocurren todo el tiempo. A medida que las empresas recopilan más datos (y confían más en sus conocimientos), es probable que las posibilidades de que los datos se vean comprometidos solo aumentará.

Sin embargo, con la arquitectura de datos y los procesos adecuados, estos riesgos se pueden mitigar sustancialmente asegurando que los datos privados se toquen en el menor número posible. Específicamente, las empresas deben considerar el potencial de lo que se conoce como edge computing. Bajo este paradigma, los cálculos no se realizan en la nube, sino en dispositivos que se encuentran en el borde de la red, cerca de donde se generan los datos. Por ejemplo, los cálculos que hacen que Face ID de Apple funcione se realizan directamente en tu iPhone. Como investigadores que estudian la privacidad en el contexto de los negocios, la informática y las estadísticas, creemos que este enfoque es sensato —y debería utilizarse más— porque la computación perimetral minimiza la transmisión y retención de información confidencial a la nube, reduciendo el riesgo de que pueda caer en el mal manos.

Pero, ¿cómo funciona realmente esta tecnología y cómo pueden implementarla las empresas que no tienen recursos del tamaño de Apple?

Considere una tienda de vinos hipotética que quiere capturar las caras de los consumidores que degustan un vino nuevo para medir cómo les gusta. Los propietarios de la tienda eligen entre dos tecnologías de vídeo competidoras: el primer sistema captura horas de vídeo, envía los datos a servidores de terceros, guarda el contenido en una base de datos, procesa el material mediante algoritmos de análisis facial e informa de que el 80% de los consumidores se veían satisfechos al degustar el vino nuevo. El segundo sistema ejecuta algoritmos de análisis facial en la propia cámara, no almacena ni transmite material de vídeo e informa al minorista de vinos la misma información agregada del 80%.

El segundo sistema utiliza la computación perimetral para restringir el número de puntos en los que los humanos, los servidores, las bases de datos o las interfaces tocan datos privados. Por lo tanto, reduce las posibilidades de filtración de datos o uso no autorizado en el futuro. Solo recopila datos suficientes para tomar una decisión comercial: ¿Debería el minorista de vinos invertir en anunciar el nuevo vino?

A medida que las empresas trabajan para proteger la privacidad de sus clientes, se enfrentarán a situaciones similares a las anteriores. Y en muchos casos, habrá una solución de computación perimetral. Esto es lo que necesitan saber.

Privacidad por diseño

En 1980, la Organización de Cooperación y Desarrollo Económicos, foro internacional de 38 países, directrices establecidas para la protección de la privacidad y los flujos transfronterizos de datos personales de sus países miembros con el objetivo de armonizar la legislación nacional sobre privacidad. Estas directrices, que se basaban en principios tales como la limitación del propósito y la minimización de datos, evolucionaron hacia una legislación reciente sobre privacidad de datos, como la Reglamento general de protección de datos (RGPD) en Europa y el Ley de Privacidad del Consumidor de California (CCPA), ambos introducidos en 2018.

El auge de la computación perimetral ayuda a las organizaciones a cumplir las directrices de privacidad anteriores mediante la implementación de tres opciones de diseño críticas. Las opciones de diseño comienzan por cómo pensar en la recopilación de datos y se extienden al procesamiento de datos real. Son:

Suficiencia

Una arquitectura de datos consciente debe recopilar y conservar solo la información imprescindible. Los enfoques de recopilación de datos deben diseñarse e implementarse en torno a los conocimientos deseados (en otras palabras, su propósito debe ser limitado), reduciendo así el número de variables y personas rastreadas, lo que significa que se recopila la cantidad mínima de datos.

En cierto modo, esta es una idea antigua: en 1922, el revolucionario estadístico británico R.A. Fisher desarrolló la teoría estadística de una «estadística suficiente», que proporciona toda la información necesaria sobre la información deseada. (Por ejemplo, el 80% de los consumidores se veía feliz al probar el nuevo vino). La suficiencia mínima va un paso más allá al capturar de la manera más eficiente la información suficiente necesaria para obtener información. Traducido de forma floja, el minorista de vinos puede utilizar un dispositivo de borde para realizar análisis faciales en menos consumidores (una muestra más pequeña) y alcanzar el mismo 80% de información.

Agregación

Para muchas decisiones empresariales, no necesitamos información a nivel individual. El resumen de la información a nivel de grupo conserva la mayor parte de los conocimientos necesarios y, al mismo tiempo, minimiza el riesgo de comprometer los datos privados. Estos datos no personales a menudo no están sujetos a la legislación de protección de datos, como el RGPD o la CCPA.

Alteración

Cuando es fundamental obtener información a nivel personal, los datos pueden modificarse para ocultar la identidad de la persona y, al mismo tiempo, afectar mínimamente la precisión de los conocimientos. Por ejemplo, Apple utiliza una técnica denominada privacidad diferencial local para añadir ruido estadístico a cualquier información compartida por el dispositivo de un usuario, por lo que Apple no puede reproducir los datos verdaderos. En algunas situaciones, la modificación de los datos individuales está obligada legalmente, como en los estudios clínicos. Las técnicas pueden incluir la pseudoanonimización y llegar hasta la generación de datos sintéticos.

Saber cuándo aplicar las herramientas de procesamiento de datos es tan crítico como utilizar las herramientas adecuadas. La aplicación de la suficiencia, la agregación y la modificación durante la recopilación de datos maximiza la protección y conserva la información más útil. Este enfoque también puede reducir los costes del seguro cibernético, el cumplimiento de las normativas de protección de datos y una infraestructura más escalable.

La compensación de la privacidad de la información

Restringir la recopilación y el procesamiento de datos privados al borde no está exento de sus desventajas. Las empresas no tendrán todos sus datos de consumidores disponibles para retroceder y volver a ejecutar nuevos tipos de análisis cuando cambien los objetivos empresariales. Sin embargo, esta es la situación exacta contra la que defendemos para proteger la privacidad de los consumidores.

La información y la privacidad operan en una compensación, es decir, un aumento de la privacidad de la unidad requiere cierta pérdida de información. Al priorizar la utilidad de datos con conocimientos específicos, la computación perimetral reduce la cantidad de información de un «data lake» a los datos suficientes necesarios para tomar la misma decisión empresarial. Este énfasis en encontrar los datos más útiles sobre el mantenimiento de montones de información bruta aumenta la privacidad de los consumidores.

Las opciones de diseño que admiten este enfoque (suficiencia, agregación y modificación) se aplican a los datos estructurados, como nombres, correos electrónicos o número de unidades vendidas y datos no estructurados, como imágenes, vídeos, audio y texto. Para ilustrar, supongamos que el minorista de nuestro ejemplo de cata de vinos recibe información de los consumidores a través de vídeo, audio y texto.

Vídeo

Si el objetivo del minorista de vinos es comprender las reacciones de los consumidores desglosadas por grupos demográficos, no es necesario identificar a los consumidores individuales mediante reconocimiento facial ni mantener una base de datos biométrica. Uno podría preguntarse: ¿no son las imágenes que contienen datos privados de las caras de las personas? De hecho, lo son. Y aquí es donde la computación perimetral permite analizar la transmisión de vídeo localmente (es decir, en la cámara) sin almacenarse de forma permanente ni transmitirse a ninguna parte. Los modelos de IA están capacitados para extraer en tiempo real la información requerida, como el sentimiento positivo y la demografía, y descartar todo lo demás. Este es un ejemplo de suficiencia y agregación empleadas durante la recopilación de datos.

Audio

En nuestro entorno de cata de vinos, un análisis de audio puede distinguir entre cuándo se produce el habla y el silencio o la música de fondo. También puede revelar la edad de la persona que habla, sus emociones y sus niveles de energía. ¿La gente está más emocionada después de probar el nuevo vino? Los modelos de IA pueden comprender la energía general del altavoz sin saber qué se ha dicho. Analizan las inflexiones y entonaciones en la voz para revelar el estado mental de un individuo. La suficiencia está integrada en las clasificaciones (es decir, la salida) de la tecnología de IA de forma predeterminada. La ejecución de estos modelos en el perímetro y el resumen de los resultados por grupo demográfico también logra la agregación de datos.

Texto

Nuestro distribuidor de vinos puede utilizar los comentarios textuales de los consumidores sobre el nuevo vino no solo para entender si los consumidores están satisfechos sino, lo que es igualmente importante, aprender las palabras que utilizan los consumidores para describir el sabor y la sensación del nuevo vino. Esta información es un aporte valioso para el desarrollo de la publicidad. En este análisis, no es necesario que los datos estén vinculados a consumidores específicos. En cambio, los comentarios textuales se agregan entre los consumidores y las frecuencias relativas de las palabras clave de sabor y sensación de cada tipo de vino se envían al minorista de vinos. Alternativamente, si se desea obtener información a nivel personal, la retroalimentación textual puede modificarse sintéticamente mediante modelos de generación de lenguaje natural (NLG).

En los ejemplos anteriores, las opciones de diseño de Suficiencia-agregación y alteración mejoran la privacidad. Estas ideas también son relevantes para aplicaciones y tipos de datos, tanto como desbloquear el teléfono, evaluar su estado con dispositivos inteligentes y crear mejores experiencias. Paradójicamente, el uso consciente de la informática perimetral y la IA, que a menudo asusta a las personas, es fundamental para maximizar la protección de la privacidad. Los defensores de la privacidad también promueven la idea de que los consumidores posean y controlen sus datos personales a través de una plataforma de datos de clientes (CDP). Una arquitectura de datos que vincula el CDP a un dispositivo perimetral (piense en asistentes domésticos activados por voz) puede aumentar la confianza de los consumidores al proporcionar a los consumidores un control y transparencia completos sobre sus datos.

Sin embargo, este marco es solo una solución parcial a las preocupaciones relativas a la privacidad, que debe implementarse junto con otras prácticas beneficiosas, como el cifrado de datos, la minimización de los privilegios de acceso y la retención de datos. El cifrado se utiliza cuando los datos se almacenan de forma permanente y en tránsito. Este es un primer paso esencial para minimizar el acceso no autorizado porque convierte el conjunto de datos en una caja negra. Sin llave, la caja negra no tiene valor. Asimismo, limitar el acceso a los datos a una base de necesidad de saber, contar con políticas claras para la retención de datos y proporcionar mecanismos de exclusión voluntaria, reduce el riesgo de fugas de datos. Aunque los pasos anteriores son una práctica estándar, no todos los emplean, creando muchos más puntos de contacto en los que pueden producirse violaciones de datos privados. Sea un buen gerente y consulte a su equipo de IT y proveedores externos.

***

La privacidad es una opción social y los equipos de liderazgo deben priorizar la utilidad de datos. Muchas empresas han recopilado tantos datos como sea posible y deciden más adelante qué es útil frente a lo que no. Están negociando implícitamente toda la privacidad de los consumidores con la mayor cantidad de información. Abogamos por un enfoque más disciplinado en el que los usos de los datos se especifiquen por adelantado para guiar tanto la recopilación como la retención de datos. Además, la tecnología nos ha ofrecido todas las herramientas que necesitamos para salvaguardar la privacidad sin afectar a la inteligencia empresarial. Al aprovechar las tecnologías de computación perimetral e IA, las empresas pueden aplicar las opciones de diseño de suficiencia, agregación y alteración en la fase de recopilación de datos. Con una arquitectura cuidadosamente diseñada, podemos obtener los conocimientos deseados y garantizar la privacidad de los datos de los consumidores al mismo tiempo. Contrariamente a la sabiduría convencional, podemos comer nuestro pastel (privacidad) y comerlo también.



  • SG
    Sachin Gupta es el profesor Henrietta Johnson Luis de gestión y profesor de marketing en la SC Johnson Colegio de Negocios Universidad de Cornell, y editor en jefe de la revista Journal of marketing Research. Sus intereses de investigación incluyen la privacidad de los consumidores, la salud, y sin fines de lucro.


  • PM
    Panos Moutafis es una ciencia Ph.D. ordenador y el co-fundador y CEO de Zenus. La nueva empresa se especializa en la IA ético y soluciones de vanguardia computar el estado de la técnica.


  • SRA
    Matthew J. Schneider es Profesor Asistente de Estadística y privacidad de datos en el Colegio Lebow de negocios en la Universidad de Drexel. Sus organizaciones según la investigación de cómo obtener más valor de los datos a nivel del consumidor, mientras que anonimizar que por razones de protección de datos y ha asesorado a una variedad de servicios financieros, farmacéuticos, tecnología de privacidad, y las empresas FinTech.

  • Te pueden interesar

    Newsletter

    Avanza tu carrera profesional, con el resumen semanal de las publicaciones, un libro de negocio resumido en 10 minutos y entrevistas con líderes de negocio.