La gran idea: la próxima revolución científica

Cómo los mashups de datos pueden ayudar a salvar el mundo.

La gran idea: la próxima revolución científica
Resumen.

Reimpresión: R1011B

Durante décadas, los informáticos han intentado enseñar a los ordenadores a pensar como expertos humanos. Hasta hace poco, la mayoría de esos esfuerzos no han logrado generar ideas y soluciones creativas que parecen ser naturales para los mejores investigadores, médicos e ingenieros. Pero ahora, Tony Hey, vicepresidente de Microsoft Research, dice que estamos presenciando el nacimiento de una nueva generación de potentes herramientas informáticas que pueden «unir» grandes cantidades de datos de muchas fuentes, analizarlos y ayudar a producir descubrimientos científicos revolucionarios.

Hey y sus colegas llaman a este nuevo método de exploración científica «aprendizaje automático». En Microsoft, un equipo ya lo ha utilizado para innovar un método de predecir con impresionante precisión si un paciente con insuficiencia cardíaca congestiva que sale del hospital será reingresado en un plazo de 30 días. Se desarrolló dirigiendo un programa informático a examinar centenares de miles de puntos de datos de 300.000 pacientes y «conocer» los perfiles de los pacientes con mayor probabilidad de ser rehospitalizados. El impacto económico de esta herramienta de predicción podría ser enorme: si un hospital entiende la probabilidad de que un paciente se «recupere», puede diseñar programas para mantenerlo estable y ahorrar miles de dólares en costos de atención médica.

Se están realizando esfuerzos similares para descubrir correlaciones importantes que podrían conducir a avances científicos en la oceanografía, la conservación y la investigación sobre el sida. Y en los negocios, la exploración profunda de datos tiene el potencial de descubrir información crítica sobre los clientes, las cadenas de suministro, la eficacia de la publicidad y mucho más.


La idea en resumen

Gracias a nuestra capacidad de recopilar y analizar grandes cantidades de datos, los científicos ahora tienen el potencial de resolver algunos de los mayores problemas del mundo. Pero hasta hace muy poco, no sabíamos cómo combinar los conjuntos de datos adecuados y ver patrones cruciales.

El punto de inflexión: Al utilizar la potencia informática del siglo XXI, la experiencia humana y un enfoque sistemático para almacenar y extraer información, los científicos están empezando a lograr avances reales. También están abriendo el proceso a otros expertos, e incluso al público, al hacer que sus datos sean transparentes y estén disponibles.

Una esperanza para el futuro: En la actualidad, los investigadores de Microsoft y otras organizaciones utilizan estos métodos para atacar problemas de astronomía, oceanografía, atención médica, gestión del agua y cambio climático. Estas herramientas también tienen el potencial de aportar mejoras profundas a los negocios.

Un visitante que camina hoy por los pasillos del campus de Microsoft Research en Redmond, Washington, probablemente escuche discusiones no solo sobre informática, sino también sobre una sorprendente variedad de otros temas, desde la forma en que gira una galaxia, a una nueva vacuna contra el sida, a estrategias para gestionar el precioso planeta suministro de agua dulce.

¿Qué podrían tener en común estos problemas? ¿Y por qué debería involucrarse Microsoft, aparentemente una empresa de software, con ellos? La respuesta sencilla son los datos: grandes cantidades de datos. Tan grande que cuando ejecutamos los programas que analizan algunas de las bases de datos, la temperatura del edificio que alberga 10.000 microprocesadores aumenta varios grados. Hoy en día, nuestros informáticos se asocian con científicos destacados en una amplia gama de disciplinas —astronomía, biología, química, hidrología, oceanografía, física y zoología, por nombrar solo unas pocas— que trabajan en iniciativas como el desarrollo de fármacos, las energías alternativas y la contención de los costos de atención médica. Y sí, incluso proyectos de software comercial. Creemos que una nueva generación de potentes herramientas de software, que apoyan la colaboración y la exploración de datos a una escala sin precedentes, están a punto de permitir descubrimientos revolucionarios en estos campos.

Durante décadas, los informáticos han tratado de enseñar a los ordenadores a pensar como expertos humanos incorporando en ellas reglas complejas de lingüística y razonamiento. Hasta ahora, la mayoría de esos esfuerzos no han podido llegar a generar las ideas creativas y las soluciones que son naturales para los mejores científicos, médicos, ingenieros y especialistas en marketing. Los expertos más talentosos no solo tienen un profundo conocimiento de los datos, sino que también pueden ver las posibilidades «entre las columnas»; pueden encontrar las conexiones no obvias dentro o entre disciplinas que marcan la diferencia.

Sin embargo, hemos llegado a un punto en el que incluso los expertos se están ahogando en datos. La información digital se transmite desde todo tipo de sensores, instrumentos y simulaciones, lo que abruma nuestra capacidad de organizarla, analizarla y almacenarla. Ley de Moore ha predicho con precisión durante décadas que el número de transistores que podrían colocarse en un circuito integrado se duplicaría cada dos años y, hasta hace poco, esta disminución del tamaño del transistor iba acompañada de un mayor rendimiento del microprocesador. Para aumentar el rendimiento en la actualidad, debemos programar varios procesadores en chips multinúcleo y aprovechar el paralelismo. La revolución multinúcleo ha llegado justo cuando nos enfrentamos a un aumento exponencial de los datos. Ese aumento no es un desafío que podamos abordar con parches y actualizaciones; debemos repensar todo nuestro enfoque de la ciencia intensiva en datos. Por eso, hace varios años, nuestro colega y ganador del premio Turing, el fallecido Jim Gray, propuso lo que llamó «el cuarto paradigma» para la exploración científica. La visión de Jim de nuevas y poderosas herramientas para analizar, visualizar, extraer y manipular datos científicos puede representar la única esperanza sistemática que tenemos para resolver algunos de nuestros desafíos globales más espinosos.

Los dos primeros paradigmas de exploración y descubrimiento científicos, experimento y teoría, tienen una larga historia. El método experimental se remonta a la antigua Grecia y China, cuando la gente trataba de explicar sus observaciones por causas naturales en lugar de sobrenaturales. La ciencia teórica moderna se originó con Isaac Newton en el siglo XVII. Tras el desarrollo de ordenadores de alto rendimiento en la segunda mitad del siglo XX, el ganador del Premio Nobel Ken Wilson identificó la computación y la simulación como tercer paradigma para la exploración científica. Las simulaciones informáticas detalladas capaces de resolver ecuaciones a gran escala permitieron a los científicos explorar campos de investigación inaccesibles para la experimentación y la teoría, como el modelado climático o la formación de galaxias.

El cuarto paradigma también involucra ordenadores potentes. Pero en lugar de desarrollar programas basados en reglas conocidas, los científicos comienzan con los datos. Dirigen los programas a minar enormes bases de datos en busca de relaciones y correlaciones, en esencia, utilizan los programas para descubrir las reglas. Consideramos que el big data forma parte de la solución, no del problema. El cuarto paradigma no está tratando de reemplazar a los científicos ni a las otras tres metodologías, pero sí requiere un conjunto diferente de habilidades. Sin la capacidad de aprovechar herramientas informáticas sofisticadas que manipulan datos, ni siquiera el experto más capacitado podría desenterrar los conocimientos que ahora empiezan a centrarse.

Salvar vidas con el «aprendizaje automático»

Comencemos con un ejemplo del tipo de pensamiento que impulsa este tipo de investigación. En la década de 1980 mi colega Eric Horvitz, mientras se formaba en un hospital de la Administración de Veteranos como parte de su educación médica, observó un fenómeno inquietante. Durante la temporada de vacaciones, el hospital experimentó un aumento de los ingresos por insuficiencia cardíaca congestiva. Cada año, algunos pacientes que de otro modo habían manejado con éxito su salud a pesar de tener el corazón debilitado alcanzaban un punto de inflexión después de una comida festiva salada. Esa sal extra provocaba que sus cuerpos retuvieran líquidos adicionales, lo que provocaría congestión pulmonar y dificultad para respirar, y a menudo a una visita a la sala de emergencias.

Esos colapsos posteriores al pavo eran costosos en todos los sentidos de la palabra. Podrían ser fatales para algunos pacientes, a veces con bastante rapidez, a veces al provocar una espiral descendente de sistemas fisiológicos fallidos que tardaba días o semanas. Otros pacientes más afortunados se estabilizaron eficazmente, pero la mayoría requería una estancia de una semana o más, lo que normalmente costaría al sistema de VA entre 10.000 y 15.000 dólares por paciente. (Hoy esas facturas serían mucho más altas).

Más de dos décadas después, Eric y sus colegas de Microsoft Research han desarrollado análisis que pueden predecir con impresionante precisión si un paciente con insuficiencia cardíaca congestiva que es dado de alta del hospital será readmitido dentro de los 30 días. Esta hazaña no se basa en programar una computadora para que ejecute las consultas que le haría un diagnóstico determinado ni en una estimación general de cuántos pacientes regresan. Más bien, esta información proviene de lo que llamamos «aprendizaje automático», un proceso mediante el cual los científicos informáticos dirigen un programa para que revise una enorme base de datos; en este caso, cientos de miles de puntos de datos que implican cientos de variables probatorias de unos 300.000 pacientes. La máquina es capaz de «conocer» los perfiles de los pacientes con más probabilidades de ser readmitidos analizando las diferencias entre los casos para los que conoce el resultado. Con el programa, los médicos pueden conectar el perfil de datos de un nuevo paciente para determinar la probabilidad de que «regrese» al hospital.

En cierto sentido, debemos este proyecto a un experto humano que detecta una conexión no obvia: Eric no solo obtuvo su doctorado sino que también tiene un doctorado en ciencias de la computación, y se dio cuenta de que técnicas de aprendizaje automático similares a las que él y su equipo habían utilizado para analizar los patrones de tráfico de Seattle podrían funcionar para este importante desafío de la atención médica. En 2003 desarrollaron métodos para predecir atascos de tráfico mediante el análisis de cantidades masivas de datos, que incluían información sobre el flujo del tráfico en las autopistas, informes meteorológicos, accidentes, eventos locales y otras variables que se habían recopilado durante varios años. El nuevo programa del equipo comparó los datos sobre los pacientes que fueron y no reingresaron, y descubrió relaciones entre evidencia sutil en la historia clínica, las pruebas diagnósticas e incluso los factores socioeconómicos de un paciente, como si el paciente vivía solo. Esta integración no fue trivial: la información sobre la situación de vida de un paciente, por ejemplo, puede estar en el informe de un trabajador social, no en una historia clínica. Es poco probable que un solo médico involucrado en la atención de un paciente pueda procesar el volumen de variables suficientes para hacer una predicción como esta.

El impacto económico de esta herramienta de predicción podría ser enorme. Si los médicos u hospitales comprenden la probabilidad de que un paciente sea readmitido, pueden tomar las medidas preventivas adecuadas. Como explica Eric: «En el caso de afecciones crónicas como la cardiopatía congestiva, podemos diseñar programas de alta específicos para cada paciente que ofrezcan una combinación eficaz de educación y monitoreo, destinados a mantener a los pacientes en regímenes estables y seguros. Dichos programas pueden incluir visitas o llamadas de un enfermero, o escalas especiales que indican cambios peligrosos en el equilibrio de líquidos de un paciente y se los comunica al médico. Si podemos gastar 500 o 1.000 dólares en programas posteriores al alta para pacientes que tienen la mayor probabilidad de ser rehospitalizados, podemos minimizar los reingresos y ahorrar dinero a la vez que mejoramos los resultados de salud».

No es de extrañar que las aseguradoras de salud y las cadenas hospitalarias estén haciendo cola para hablar de esto. Y no hace falta mucha imaginación para enumerar otros tipos de empresas que también podrían beneficiarse de este tipo de descubrimiento intensivo de datos.

En Wall Street, los programas masivos de minería de datos ya están rastreando «movimientos simpáticos» o patrones comerciales relacionados entre los diferentes vehículos de inversión. Los fondos de cobertura y los grandes gestores de dinero hacen apuestas de millones de dólares cada día en función de estas relaciones descubiertas por los datos.

En el aspecto operativo de los negocios, las posibilidades son infinitas. Las empresas podrán realizar análisis masivos de clientes y oportunidades de negocio mediante programas que descubran patrones de precios, hábitos de compra, región geográfica, ingresos familiares u otros muchos datos. La gran cantidad de datos disponibles sobre la eficacia de la publicidad, la retención de clientes, la retención de empleados, la satisfacción del cliente y la gestión de la cadena de suministro permitirán a las empresas hacer predicciones significativas sobre el comportamiento de un cliente o empleado determinado y la probabilidad de que se produzcan brechas en el servicio o el suministro. Y cada vez más, encontramos empresas que utilizan técnicas de datos para detectar irregularidades en los pagos y las cuentas por cobrar. Estos programas pueden predecir, por ejemplo, los ingresos que deben recaudarse por una lista determinada de servicios prestados. Un proveedor de atención médica con el que hemos trabajado en Nuevo México descubrió 10 millones de dólares en pagos innecesarios en los primeros seis meses de haber utilizado estas herramientas de minería de datos.

La relevancia de la vieja broma «solo la mitad de todo el dinero publicitario tiene éxito; simplemente no sabemos cuál es la mitad» se verá en peligro por las nuevas herramientas analíticas. Una empresa de entretenimiento electrónico de Filipinas está utilizando la tecnología de minería de datos de Microsoft para personalizar sus propuestas de venta a clientes individuales, basándose en un análisis exhaustivo de factores tales como patrones de compra anteriores, edad, sexo, perfil financiero y ubicación. Casi inmediatamente después de implementar esta técnica, la empresa vio duplicar su tasa de respuesta a las ofertas de tonos de llamada y otros productos.

Con todas esas oportunidades de negocio, algunos se preguntan por qué Microsoft Research está trabajando en tantos proyectos globales de salud y medio ambiente. Después de todo, ¿no son esos proyectos que Fundación Bill & Melinda Gates podría financiar? Sí, pero la razón por la que Microsoft Research tiene varias docenas de informáticos trabajando en ellos es porque involucran algunos de los almacenes de datos más enormes que se puedan imaginar y constituyen un campo de pruebas de valor incalculable. Necesitamos expandir nuestro propio pensamiento y las capacidades de nuestras herramientas trabajando en los mayores problemas que existen, que resultan ser de inmensa importancia para la humanidad. Abordar estos problemas también abre más oportunidades de colaboración y experimentos. Cuando existe un incentivo convincente para que expertos de diferentes disciplinas trabajen juntos y compartan datos en un entorno transparente, es probable que logremos el progreso más rápido. Como solía decir Jim Gray, los datos astronómicos son valiosos precisamente porque carecen de valor comercial.

Investigación oceánica plug-and-play

Uno de estos ambiciosos proyectos ambientales involucra la ciencia oceánica y ahora se encuentra en construcción bajo las frías aguas del Pacífico al oeste del estado de Washington y Columbia Británica. Es imposible exagerar la importancia de los océanos, que cubren el 70% de la superficie terrestre y constituyen el ecosistema más grande del planeta. Los océanos impulsan los sistemas meteorológicos; son la fuente de peligros poderosos, aún en gran medida impredecibles, como tsunamis y huracanes; almacenan mucho más carbono que la atmósfera, la vegetación y el suelo; y son una fuente de alimento fundamental.

Sin embargo, en muchos sentidos entendemos más sobre las superficies de Marte y Venus que sobre los fondos marinos. El agua es opaca a la radiación electromagnética que nos permite explorar los cielos; por eso los pilares de nuestra investigación oceanográfica han sido los submarinos, los barcos y los satélites. Eso está a punto de cambiar. En un parche del suelo del Pacífico, los oceanógrafos involucrados con el Fundación Nacional. Ciencias de los Estados Unidos 600 millones de dólares Iniciativa de Observatorios Oceánicos (OOI) han trazado una red de nodos diseñada para ofrecer lo que mi colega Roger Barga llama iróneamente «USB para el océano». OOI colocará 1.500 millas de cable hacia y alrededor del parche, proporcionando energía, acceso a Internet y la capacidad de registrar y marcar la hora de los datos sobre los fenómenos que los científicos estudiarán con todo tipo de dispositivos, desde sencillos sensores de temperatura hasta robots controlados a distancia y secuenciadores de genes de última generación.

El proyecto tiene como objetivo involucrar a científicos de todo el mundo. La capacidad de medir y analizar procesos naturales, como la acumulación de sedimentos o los cambios en la densidad de los organismos microscópicos, no tiene precedentes. Pero la cantidad de información que generará OOI podría desbordar el esfuerzo si los datos no están organizados y almacenados inteligentemente. Por eso Roger y su equipo utilizan la tecnología de flujo de trabajo para gestionar los datos recopilados y están descubriendo cómo almacenarlos en la nube informática compartida, de modo que no abrumen a ninguna instalación y así científicos, estudiantes y ciudadanos interesados de todo el mundo puedan acceder a ellos. El equipo está elaborando los estándares de datos que permitirán a los programas de análisis combinar los hallazgos de diferentes experimentos en un análisis más amplio. Esto se llama «interoperabilidad» y es crucial para que estos mashups científicos funcionen, porque los investigadores querrán combinar y comparar datos generados por modelos predictivos en laboratorios, así como datos de otras fuentes, con datos de la red OOI en el fondo marino.

«Esta nueva era se basa en el surgimiento y la convergencia de muchas nuevas tecnologías que evolucionan rápidamente», observa Roger. La exploración se centrará en encontrar correlaciones entre los eventos oceánicos que mejorarán nuestra comprensión de las interacciones terrestres, oceánicas y atmosféricas, y tal vez nuestra capacidad de predecir. Los científicos podrán medir fenómenos submarinos que antes eran inaccesibles como volcanes en erupción, patrones migratorios importantes de la vida marina, terremotos y tormentas gigantes. El vídeo en tiempo real y las nuevas herramientas de visualización de datos permitirán a los estudiantes, educadores y al público en general ver cómo se desarrollan estos eventos y, en algunos casos, incluso llevar a cabo sus propios experimentos. «Internet surgirá como la herramienta oceanográfica más poderosa del planeta», predice Roger.

Las nuevas herramientas de vídeo y datos permitirán a los ciudadanos ver cómo se desarrollan los eventos submarinos e incluso llevar a cabo sus propios experimentos.

OOI está dando rienda suelta a la creatividad de los oceanógrafos de todo el mundo, que están desarrollando nuevos tipos de instrumentos para conectar a este laboratorio submarino. Uno es un secuenciador de ADN del tamaño de una lavadora diseñado para funcionar sin tripulación y bajo el agua. Filtrará criaturas locales, capturará y tomará muestras de su ADN y luego enviará los resultados a los científicos en tierra. Esa habilidad por sí sola es impresionante. Agregue la capacidad de fusionar la información del ADN recopilada con datos sobre los niveles de contaminación, la acidez, la temperatura de los océanos o la presencia de especies migratorias que pueden afectar la cadena alimentaria (todos ellos recopilados por otros investigadores) y tenemos el nacimiento de una nueva era de la ciencia oceanográfica.

¿Hay una dimensión empresarial en todo esto? Bueno, para empezar, imagina lo que podría pasar si un químico de una empresa energética que estaba desarrollando tecnología de mejora de derrames pudiera consultar una base de datos sobre el ADN de estos organismos. Sería capaz de buscar instantáneamente los perfiles genéticos de los microorganismos en las aguas que rodean un derrame y predecir cómo es probable que interactúen con los productos químicos o las soluciones bajo consideración. Los científicos actuales que luchan contra las secuelas del enorme derrame de petróleo en aguas profundas en el Golfo de México no cuentan con mediciones básicas exhaustivas de la salud de los océanos y, en cambio, se basan en indicadores «aguas abajo», como la salud de los peces. Otras herramientas de interoperabilidad refinadas para OOI podrían ofrecer perspectivas más prosaicas, pero no por ello menos importantes. Por ejemplo, un ejecutivo de marketing minorista sentado en un escritorio podría recibir un informe diario generado por un programa que recoge la transmisión de datos desde terminales de puntos de venta de todo el mundo en tiempo real, señalando patrones anómalos de ventas y devoluciones y estableciendo conexiones que la mayoría de los minoristas nunca harían. pienso buscar.

Soluciones para enfermedades y sequías

Una forma en que el cuarto paradigma logra avances más rápidos es permitiendo que la población en general interactúe con las bases de datos y aporte conocimientos que harán avanzar los descubrimientos. En el esfuerzo de tráfico de Seattle, por ejemplo, los voluntarios con dispositivos GPS en sus automóviles ayudaron a recopilar datos críticos sobre las rutas de tráfico locales simplemente conduciéndolas. Estos métodos se ampliaron posteriormente a la tarea de predecir los flujos en todas las calles de las grandes áreas metropolitanas y ahora permiten el enrutamiento sensible al tráfico en 72 ciudades de Norteamérica, disponible hoy en Bing Maps. (Consulte la barra lateral «Crowdsourcing in the Heavens» para obtener una descripción de otro esfuerzo que se está llevando a cabo en astronomía). Pronto todo tipo de científicos-ciudadanos de diferentes campos probablemente utilizarán dispositivos tan simples como teléfonos celulares o computadoras portátiles para recopilar información especializada y analizarla.

Mi equipo de investigación tiene un proyecto en la India, por ejemplo, que permite al personal no médico de zonas remotas diagnosticar ciertas enfermedades con la ayuda de teléfonos celulares. Al usarlos, las personas ingresan a una enorme base de datos de información médica, responden a un conjunto de preguntas y reciben diagnósticos valiosos en el acto. Este sistema podría utilizarse algún día para rastrear y estudiar la propagación de enfermedades, en particular las infecciosas. Con un gran número de personas que realizan diagnósticos rápidos que se incorporan a una base de datos, los funcionarios públicos y los trabajadores de la salud pueden ver dónde se producen los brotes, qué tan rápido se están moviendo y qué tipo de síntomas aparecen. El aprendizaje automático puede entrar en el bucle en tiempo real, comparando constantemente cada nuevo caso con cualquier otro caso de este y otros brotes infecciosos, y buscando patrones que puedan ayudar a los esfuerzos de prevención.

El énfasis que este tipo de proyecto ambicioso pone en todos los aspectos de la tecnología actual (potencia de procesamiento, demanda de programadores paralelos y almacenamiento, curación y publicación de datos) es enorme. A menos que la curación de los datos esté realmente integrada en el diseño de un proyecto, por ejemplo, los científicos involucrados suelen tratar de averiguarlo ad hoc, lo que tiende a dar lugar a soluciones locales frágiles que no se escalan. Sin embargo, los científicos y los responsables políticos no pueden darse el lujo de esperar hasta que todo esté resuelto antes de tomar medidas sobre problemas urgentes como el cambio climático o la escasez de agua o planificar huracanes o tsunamis.

Consideremos la difícil situación de California, donde se prevé que la población aumente de unos 38 millones en la actualidad a más de 50 millones en 2040. Jeff Dozier, profesor de la Escuela de Ciencias y Gestión Ambientales de la Universidad de California, Santa Bárbara, dice: «La disponibilidad de agua impulsa la economía de California. Históricamente, hemos intentado gestionar el suministro de agua para satisfacer la demanda. Puede que ya no podamos hacerlo. A todo el mundo le encantaría un suministro fiable y uniforme, pero eso no es lo que nos da la naturaleza. Necesitaremos una tecnología mucho mejor para predecir la cantidad de agua que tendremos en un año determinado».

Predecir las reservas de agua a partir de la capa de nieve es un problema mucho más difícil de lo que parece, explica Dozier. Los satélites recopilan enormes volúmenes de datos sobre la capa de nieve, pero siguen siendo insuficientes porque revelan principalmente las características de la superficie de la nieve. Para controlar la escorrentía, necesitamos conocer el «equivalente de agua» o la cantidad de agua que resultaría del deshielo. Podemos estimar el equivalente de agua a partir del peso de la nieve, pero es difícil medirlo en grandes tramos de terreno variable. El desafío: ¿Cómo combinan los científicos los datos de los satélites y las mediciones de superficie con información sobre economía y gobernanza para estimar, calibrar y gestionar mejor el suministro de agua? Solo en California, hay al menos 400 agencias diferentes que administran el agua. Microsoft está trabajando con científicos de la Universidad de California, Berkeley y el Laboratorio Nacional Lawrence Berkeley para adquirir y curar datos hidrológicos históricos para que puedan utilizarse de forma más eficaz con los datos de las nuevas redes de sensores para crear mejores modelos de predicción.

A través del análisis de datos, los científicos se están encaminando hacia una forma de detener el VIH en seco.

En otro ámbito urgente, David Heckerman de Microsoft, otro doctor en ciencias de la computación, está utilizando descubrimiento científicos intensivos en datos en la lucha contra el virus de la inmunodeficiencia humana. «En varios años en un solo paciente, el VIH muta tanto como el virus de la gripe ha mutado en su historia conocida», explica. Por eso, desarrollar una vacuna para frustrarla ha sido tan difícil. Además, las mutaciones observadas en un individuo son muy diferentes de las observadas en otro, gracias a la variabilidad del sistema inmunitario humano. David y su equipo están analizando datos sobre mutaciones virales individuales en miles de sujetos, tratando de concentrarse en los elementos del virus que son vulnerables a los ataques del sistema inmunitario. Al crear una vacuna que puede desencadenar el propio sistema inmunitario de una persona para atacar esos elementos, esperan detener el virus en seco. Él y su colaborador de Harvard Bruce Walker esperan comenzar pronto a probar la primera vacuna basada en este trabajo.

Cambios de marchas y estándares

Esfuerzos como el desarrollo de vacunas o campos como la genómica humana implican un número limitado de disciplinas pero cantidades absolutamente enormes de datos únicos para cada individuo. En un esfuerzo por caracterizar mejor un fenómeno ambiental como los procesos oceánicos o el cambio climático, lo que resulta abrumador no solo es el volumen de datos sobre un factor determinado, sino el número de disciplinas y fuentes de datos. Los cálculos exhaustivos de las tendencias de calentamiento podrían requerir tener en cuenta las mediciones del calor radiante reflejado en las capas de hielo polares, el desperdicio de las plataformas de hielo flotantes provocado por pequeños aumentos de la temperatura del océano, la salud de los bosques de manglares en climas tropicales, las tendencias mundiales de eclosión de insectos, los cambios climáticos capturados en los anillos de los árboles, los niveles de CO2 conservados en los núcleos de hielo almacenados y más. La creación de estándares para recopilar, almacenar y combinar estos datos será cada vez más importante a medida que los científicos implementen cada vez más sensores.

De manera crítica, la mayoría de nosotros creemos que la publicación científica cambiará drásticamente en el futuro. Prevemos hoy que el producto final —documentos que analizan un experimento y sus hallazgos y solo se refieren a conjuntos de datos— se transforma en un envoltorio para los datos mismos, al que otros investigadores podrán acceder directamente a través de Internet, sondear con sus propias preguntas o incluso combinarlos en sus propios conjuntos de datos en formas creativas que producen ideas con las que el primer investigador tal vez nunca haya soñado. El objetivo, como bien lo expresó Jim Gray, es «un mundo en el que toda la literatura científica esté en línea, todos los datos científicos estén en línea e interoperen entre sí. Se necesitan muchas herramientas nuevas para que esto suceda».

Si bien la realización de este objetivo significaría cambios positivos para la sociedad y el planeta, el cuarto paradigma también creará inevitablemente grandes oportunidades de negocio. Por ejemplo, el análisis genómico del VIH realizado por David Heckerman es solo una pequeña parte de la agenda mucho más amplia de la medicina personalizada. La industria farmacéutica apuesta a que descubrir qué fármacos son más eficaces para alguien con un perfil genético particular aportará una nueva dimensión al diseño de fármacos. Health Solutions Group de Microsoft integra los registros médicos y las imágenes como primer paso para proporcionar un conjunto de herramientas inteligentes para ayudar a la industria farmacéutica a cumplir esta visión.

Todas las disciplinas científicas, incluida la informática, deben colaborar para hacer realidad el poder del cuarto paradigma y resolver problemas importantes para la humanidad. Las respuestas se esconden en medio de vastas montañas de números, y está a nuestro alcance encontrarlas.


Escrito por
Tony Hey



Te pueden interesar

Newsletter

Avanza tu carrera profesional, con el resumen semanal de las publicaciones, un libro de negocio resumido en 10 minutos y entrevistas con líderes de negocio.