TIC, TAC, TEP: Aprender en el siglo XXI

IA, IoT y Tecnologías Información, Aprendizaje y Participación


Deja un comentario

Ciencia de Datos y mujer: Avances en el procesamiento del genoma y el diagnóstico precoz del parkinson

En el mundo de la Ciencia de Datos, como otros ámbitos de la Ciencia y la Tecnología en general, la brecha de género es un hecho. Una de las formas de luchar contra esta desigualdad es darle la mayor visibilidad posible, especialmente en semanas como ésta. Pero la segunda y la mejor, es dar a conocer cómo, a pesar de las dificultades, muchas mujeres demuestran día a día su gran talento en el mundo de la Ciencia de Datos y en tantas otras áreas profesionales. Porque, según apuntan distintos estudiostener referentes de liderazgo femenino es crítico en el desarrollo profesional futuro, tanto de hombres como de mujeres, y contribuye a una ciencia de mayor calidad.

Como ejemplo, vamos a hablar de dos jóvenes investigadoras españolas que han sido seleccionadas por la revista del MIT Technology en español como Innovadores menores de 35 en Europa (2019) : Idoia Ochoa y Teresa Arroyo-Gallego.

Idoia Ochoa

Idoia Ochoa es profesora adjunta del departamento de Ingeniería Eléctrica e Informática de la Universidad de Illinois en Urbana-Champaignx (EE. UU.) Su ámbito principal de investigación es la industria genómica, que se está convirtiendo en uno de los pilares de la medicina personalizada. El análisis de la ingente cantidad de información que almacena el genoma humano abre un nuevo mundo de posibilidades en investigación, búsqueda de nuevos tratamientos y desarrollo de innovadoras técnicas de diagnóstico precoz de enfermedades.

Figura 1: Idoia Ochoa
(con permiso del autor)
Figura 1: Idoia Ochoa

El reto

Sin embargo, esa gran riqueza, supone también un gran desafío. Los archivos genómicos (en bruto) con los que se trabaja actualmente ocupan volúmenes de cientos de GB. Por ello, la industria genómica es uno de los sectores que requerirá una mayor capacidad de procesamiento de datos en todos los aspectos implicados: almacenamiento, intercambio y análisis.

Una solución innovadora

La investigadora Idoia Ochoa ha diseñado nuevos formatos digitales que facilitan el almacenamiento, transmisión, visualización y análisis de los datos de genoma.

Su objetivo es avanzar en la personalización de los tratamientos médicos, mediante metodologías adaptables que permitan analizar el genoma de cada paciente. Para ello, ha creado distintos algoritmos (QualComp, QVZ, GeneComp, AliCo, FaStore y SPRING son algunos de ellos), que facilitan la lectura del genoma, conservando la calidad de los datos. Por ejemplo, el algoritmo SPRING permite reducir el volumen de datos de trabajo de unos 196 a 7 Gb.

Para que estos algoritmos puedan ser utilizados por cualquier institución, y sean compatibles con las herramientas e infraestructuras existentes, es fundamental definir estándares. Por ello, Ochoa trabaja, junto a otros expertos, en el desarrollo de un estándar de representación genómica bajo la norma ISO MPEG-G. El estándar incluye especificaciones que determinan cómo representar los datos de genoma. La participación de la investigadora en la definición del estándar ha estado centrada en definir formatos que ocupen poco espacio y al mismo tiempo faciliten el acceso de forma fácil y rápida a secciones concretas del genoma.

“El proyecto de la investigadora Idoia Ochoa tiene un gran impacto, muestra ingenio, es muy oportuno y ayudará a que la sociedad del futuro mejore la toma de decisiones y los tratamientos médicos”.

————————————–

Tiina Hynninen, miembro jurado de Innovadores menores de 35 Europa 2019 de MIT Technology Review

Teresa Arroyo-Gallego

Teresa Arroyo-Gallego, dirige el equipo de Ciencia de Datos en nQMedical, cargo que compatibiliza con su trabajo como investigadora visitante RLE, el Laboratorio de Investigación en Electrónica de MIT. En el RLE se enfocó en las áreas de machine learning, procesamiento de señales y análisis de datos del proyecto neuroQWERTY, centrado en la integración de sistemas de detección y análisis de señales de tecleado en dispositivos de pantalla táctil.

 Figura 2: Teresa Arroyo
Figura 2: Teresa Arroyo

El reto

La enfermedad de Parkinson, es el segundo trastorno neurodegenerativo más frecuente y afecta a más de 10 millones de personas en el mundo. Se trata de una enfermedad incurable, cuyos síntomas son tan sutiles que los pacientes que la sufren pueden tardar años en darse cuenta de qué les sucede. Tampoco existe ninguna prueba que proporcione un diagnóstico específico y que permita un seguimiento objetivo de la evolución de la enfermedad.

Una solución innovadora

La investigadora Teresa Arroyo-Gallego está desarrollando una  una tecnología, nQMedical, que analiza la interacción de las personas con sus dispositivos inteligentes para obtener información sobre su salud cerebral.

Para ello, utiliza algoritmos de machine learning que analizan los patrones de uso del teclado de móviles, los compara con el comportamiento habitual del usuario y detecta de esta forma posibles anomalías psicomotrices propias de las enfermedades neurogenerativas.

Esto permite obtener marcadores digitales que revelan con precisión la presencia de estas enfermedades. Así, mediante un análisis en segundo plano de los patrones naturales de tecleado, esta tecnología permite evaluar de forma objetiva, transparente y en tiempo real variaciones en el estado psicomotor características de la enfermedad de Parkinson. Este diagnóstico temprano permite tomar decisiones más ágiles y mejor informadas que con los métodos actuales.

De cara al futuro, su objetivo es poder aplicar estas técnicas al diagnóstico de otras enfermedades como como el alzhéimer, la esclerosis múltiple y la esclerosis lateral amiotrófica.

“Teresa Arroyo-Gallego es una candidata excepcional, que está haciendo un trabajo extremadamente pionero y que merece un reconocimiento”

————————————–

Daniel Dickens, miembro jurado de Innovadores menores de 35 Europa 2019 de MIT Technology Review

Como vemos, los datos y la inteligencia artificial, pueden ayudarnos a mejorar nuestras vidas cuidando de nuestra salud, bien facilitando el diseño de nuevos medicamentos, o en la detección precoz de enfermedades.

Anuncio publicitario


Deja un comentario

Tutorial Power BI: ¿De donde vienen los nuevos madrileños?

Si quieres aprender a visualizar datos con Power BI, la mejor manera es ponerse manos a la obra y trabajar sobre un ejemplo. En un post anterior ya explicamos cómo instalar la herramienta y trabajamos sobre un conjunto de datos publicado en el portal de datos abiertos de Londres.

Primeros pasos: instalamos la herramienta

Descargamos los datos.

En esta ocasión, nos hemos planteado investigar sobre el origen de los “nuevos madrileños”. Para ello, vamos a trabajar sobre un conjunto de datos que recoge los nacimientos producidos en la ciudad de Madrid por nacionalidad/origen de la madre, publicado en el portal de datos abiertos de la Comunidad de Madrid.

Analizando estos datos, vamos a poder dar respuesta a preguntas del tipo:

  • ¿En qué distritos/barrios se producen más nacimientos y cuáles menos?
  • ¿Cuáles son las raíces de estos “nuevos madrileños”?¿de qué región española o país proceden sus madres?

En este ejemplo, hemos descargado directamente el csv (botón rojo), pero también hay disponible una API de datos. El asistente nos ofrece ejemplos sencillos sobre cómo cargar los datos en Python, o ejemplos de consultas SQL y Ajax.

 Figura 1: Dataset de trabajo, descargable desde el portal de datos abiertos de la Comunidad de Madrid
Figura 1: Dataset de trabajo, descargable desde el portal de datos abiertos de la Comunidad de Madrid

Exploramos los datos.

Lo primero, como siempre, es echarle un vistazo preliminar al conjunto de datos. Nos interesa conocer aspectos como el número de registros disponibles, quién creó el dataset, cuándo, bajo qué licencia, con qué frecuencia se actualizan etc. Toda esta información está en la ficha de los datos.

Figura 2: Información adicional de la ficha de datos.
Figura 2: Información adicional de la ficha de datos.

También necesitamos conocer la descripción de los campos o variables del conjunto de datos, en qué formato están, de dónde proceden los datos, Para ello, consultamos el “Dicccionario de datos”.

En este conjunto de datos tenemos información, desagregada por distrito y barrio , sobre niños y niñas nacidos en el Municipio de Madrid . También se indica la nacionalidad u origen de la madre. Las madres nacidas en el extranjero se agrupan en la provincia 66 denominada “Extranjero”. En la categoría “No consta” se incluyen tanto las que no se sabe si han nacido en España o el extranjero, como las que sabiendo que han nacido en España no se sabe en qué provincia lo hicieron. Los datos proceden de la última explotación del Movimiento Natural de la Población.

Cargamos los datos en Power BI.

Cargamos el csv en la herramienta. Si la usas por primera vez, no dejes de leer el post que hemos indicado al principio, donde estos pasos se describen con todo detalle.

Figura 4: Carga de datos en Power BI
Figura 4: Carga de datos en Power BI

¿Cuántos nacimientos hubo en Madrid capital en 2018?

Una de las primeras preguntas que podemos hacerlos es: ¿Cuántos niños nacieron en Madrid en 2018? ¿Nacieron más niños o más niñas?. Para responder a estas preguntas, podemos simplemente visualizar, en una tabla, los campos “Número de nacimientos” y “sexo”.

Figura 5: Visualización del número de nacimientos y sexo del bebé en una tabla
Figura 5: Visualización del número de nacimientos y sexo del bebé en una tabla

Obtenemos:

Figura 6: Número de nacimientos por sexo del bebé.
Figura 6: Número de nacimientos por sexo del bebé.

Para calcular los porcentajes, no tenemos más que cambiar a la visualización de “pie chart” o bien la “gauge”, seleccionar el modo “Focus” para verlo mejor y pasar el ratón por cada sector de la los sectores.

Figura 7: Visualización de la distribución de nacimientos por sexo. (Tamaño real)

Como era de esperar, los porcentajes están muy igualados, aunque, en este caso, nacieron más varones, con un 48,62% de niñas frente a un 51, 38 de niños.

¿En qué distritos nacieron más niños ?

Para saber en qué distritos/barrios han tenido lugar más nacimientos, agregamos el campo “nombre de distrito” a nuestros datos de trabajo.

Figura 8: Agregamos campos distrito-barrio.
Figura 8: Agregamos campos distrito-barrio.

En este caso, por ejemplo, la visualización de “line and clustered column chart” (gráfico de líneas y columnas agrupadas) nos permite apreciar, de un vistazo, la gran diferencia entre distritos. Seleccionamos la opción “Data Labels on” en el menú “Formato” para que indique el valor de referencia.

(Pulsar “tamaño real” , en el pie de imagen para verlas a mayor tamaño)

Figura 9: Visualización del número de nacimientos por distrito. (tamaño real)

Modificamos las visualizaciones según nuestras preferencias.

Podemos, por ejemplo, ordenarlos de mayor a menor, usando el menú “más opciones”, que aparece en la esquina superior derecha:

Figura 10: Menú "mas opciones"
Figura 10: Menú “mas opciones”

O cambiar el color, tipo de letra, tamaño, títulos etc. usando el menú “Formato”:

Figura 11: Menú formato
Figura 11: Menú formato
Figura 10: Visualización del número de nacimientos por distrito, de mayor a menor (tamaño real)
Figura 10: Visualización del número de nacimientos por distrito de mayor a menor (tamaño real)

O bien usar otra visualización diferente, como por ejemplo, el diagrama de árbol (“treemap“):

 Figura 11: Visualización del número de nacimientos por distrito diagrama árbol
Figura 11: Visualización del número de nacimientos por distrito diagrama árbol (tamaño real)

En todas ellas se puede apreciar que el distrito de Fuencarral-El Pardo, con 2521 nacimientos, es aquel donde han nacido más niños, mientras que el de Barajas, con 490, es donde menos.

Saltamos al siguiente nivel (“drill down”)

Pulsando la flecha que aparece en la esquina superior derecha activamos el “Drill down” que nos permite “profundizar” un nivel. Podemos seleccionar un distrito concreto, haciendo click sobre la columna que lo representa y pasamos a ver la distribución de nacimientos por barrios. Por ejemplo, si seleccionamos el distrito de Retiro, vemos la siguiente distribución. Puede ser interesante comparar esta distribución de nacimientos por barrios con la correspondiente a otros distritos de Madrid. En este caso, hemos escogido los distritos de Centro, Fuencarral y Puente de Vallecas. Se aprecia una gran diferencia entre barrios en prácticamente todos los distritos, lo que sugiere que es importante bajar hasta este nivel para asegurarse de que los recursos lleguen a los ciudadanos que los necesitan.

Por ejemplo, es fácil ver que la mayor parte de los nacimientos en el distrito de Retiro corresponden al popular barrio de Pacífico. (Podríamos incluso bajar un nivel más y ver, dentro de cada barrio, el número de nacimientos que corresponden a cada sexo, pero en este caso, no aportaría información relevante).

Esta información es de gran importancia a la hora de valorar qué inversiones son precisas para proveer a estos nuevos madrileños de las instalaciones y servicios necesarios. Hablamos de temas tan importantes como escuelas infantiles, colegios, profesores, pediatras, zonas verdes, bibliotecas, servicios sociales, instalaciones deportivas etc.

Por ello, también nos podría interesar averiguar qué porcentaje de nacimientos corresponde a cada barrio. Una forma muy rápida de verlo es cambiar el tipo de gráfico, y seleccionar el diagrama de sectores o “pie chart”. Al pasar el cursor sobre cada sector, nos indica el número de nacimientos por barrio y el porcentaje que supone respecto del total. También, desde el menú “Formato” /Etiquetas de detalles/Estilo de etiqueta se puede elegir que el porcentaje aparezca de forma explícita.

El barrio de Valverde, en Fuencarral, por ejemplo, supone un 33,68% del total.

Figura 11: Porcentaje de nacimientos por barrio.
Figura 11: Porcentaje de nacimientos por barrio.

¿Cuál es el origen de las madres?

Para contestar a esta pregunta, agregamos un nuevo campo de datos. En particular el campo ” provincia de nacimiento de la madre”. Su valor puede ser cualquier provincia española, “nació en el extranjero“, o “no consta” .

Si queremos ver, “grosso modo” el origen de las madres, nos sirve el mismo diagrama de sectores o “pie chart” una vez agregado el nuevo campo.

Figura 12: Nacimientos según el origen de la madre (tamaño real)

Así, podemos ver que, de un total de 29.032 nacimientos, un 43,76% de las madres eran originarias de Madrid. Del resto, un 21,01% procedían de otras provincias españolas, y un 34,13% del extranjero. Los datos corresponden sólo a los nacimientos producidos en Madrid en 2018 y para ser precisos, habría que considerar un conjunto de datos más amplio que abarcara un intervalo temporal más amplio.

Ya que no tenemos datos de nacionalidades, podemos filtrar por los campos “Origen Madrid, Extrajero y no consta”, podemos ver de qué provincias españolas proceden las madres. Podemos elegir, por ejemplo, un diagrama de barras agrupadas (“clustered bar chart”), en el que resulta muy sencillo ver que Barcelona, Asturias y Toledo son las provincias que más pequeños “nuevos madrileños” han aportado, con 307, 296 y 273 nacimientos respectivamente. Y Ceuta, Teruel y Lérida, las que menos, con 10.

Figura 13: Nacimientos por provincia (tamaño real)

Conclusiones.

Hemos visto lo sencillo que es visualizar información a partir de conjuntos de datos públicos con la herramienta Power BI. A la hora de sacar conclusiones, no hay que olvidar que los datos se refieren a los nacimientos producidos en Madrid en 2018. No podemos extrapolar directamente conclusiones sobre la composición de la población madrileña. Para ello, habría que considerar periodos de varios años, o considerar otras fuentes de datos. Por ejemplo, censales, de la seguridad social, sistema educativo etc.

Lo que es evidente, es que los datos son la mejor herramienta con la que contamos para conocer las necesidades de la población y gestionar los recursos disponibles de la forma más eficiente.

Con este objetivo, el Ayuntamiento de Madrid lanzó un concurso para diseñar un sistema capaz de sistematizar de forma consistente la valoración de las necesidades de los barrios. La herramienta, desarrollada por la Universidad Carlos III, se basa en el análisis jerarquizado de 12 parámetros agrupados en 5 categorías que permiten detectar situaciones de vulnerabilidad en los barrios. De esta forma, los datos se convierten en una poderosa herramienta en pro de la igualdad.

Lo que sí podemos afirmar, tras este pequeño “ejercicio” es el hecho de que Madrid, pese a todos los problemas propios de una gran ciudad, es una ciudad abierta, y acogedora, donde personas de orígenes muy diversos pueden sentirse tan a gusto como los auténticos “gatos”.


Deja un comentario

Ciencia Ciudadana e IA para luchar contra la soledad

Soledad

Ante el aumento de personas mayores en riesgo de soledad, el proyecto Serena propone una interesante alianza entre Psicología, Inteligencia Artificial y Ciencia Ciudadana. Veamos cómo el aprendizaje automático puede usarse para mejorar la calidad de vida de la personas mayores y sus cuidadores.

¿Qué es la Ciencia Ciudadana?

La “Ciencia Ciudadana” es un concepto abierto que abarca las distintas formas en las que el público general participa en la ciencia. Hay dos características definitorias:

  • Los ciudadanos contribuyen activamente a la ciencia, con su esfuerzo intelectual , conocimientos, herramientas o recursos; en colaboración con científicos o profesionales.
  • La obtención de resultados que se traduzcan en conocimiento científico, acciones de conservación o iniciativas políticas.

El objetivo de la ciencia ciudadana es mejorar las interacciones entre la ciencia, la sociedad y la política, para lograr una investigación más democrática, basada en la toma de decisiones fundamentadas en la evidencia.

Tanto los campos de actuación, como la escala son muy variados. Proyectos locales o globales; breves o con desarrollos que se extienden durante décadas. En campos como la medicina, astronomía, ecología, informática, historia etc.

Serena, un chatbot contra la soledad

El proyecto Gerontecde ‘Aprendizaje automático como herramienta de ciencia ciudadana para mejorar la calidad de vida de las personas mayores y sus personas cuidadoras’, desarrollado por el equipo de investigación GIANT (Machine Learning for Smart Environments) de la Universitat Jaume I de Castelló es una iniciativas financiadas por FECYT.

La Fundación Española para la Ciencia y la Tecnología (FECYT), promueve en sus convocatorias la realización de acciones que acercan la ciencia a la población y también la hacen partícipe de ella.

El objetivo final del proyecto es la creación de un chatbot conversacional diseñado para hablar con las personas y evaluar sus sentimientos de soledad: Serena.

Un problema de salud pública

Las evidencias de efectos adversos de la soledad no deseada en las personas mayores son muy numerosas. Y la situación de alerta sanitaria por la COVID-19 no ha hecho sino aumentar el aislamiento social de un gran número de ellas. Tanto es así, que los especialistas han llegado a considerarlo un problema de salud pública.

Para poder llevar a cabo cualquier estrategia de mitigación de este problema, un paso previo ineludible es la detección de estas personas en riesgo de soledad. Con este objetivo, el equipo GIANT creó Serena, un chatbot diseñado para hablar con las personas y evaluar sus sentimientos de soledad. Serena es un eficaz herramienta que permite a alertar a los profesionales de la salud de situaciones en las que es necesaria su intervención.

La herramienta ha sido desarrollada por un equipo interdisciplinario en los campos de la Psicología y las Ciencias de la Computación y aprovecha la tecnología para recoger la colaboración de la población, en el marco de la Ciencia Ciudadana.

Así, una investigación científica sobre el análisis de constructos como la soledad, el aislamiento social, el bienestar o el estrés; se realiza de forma accesible a la ciudadanía, y se enriquece con su participación, gracias a herramientas de aprendizaje automático.

¿Cómo?

El proyecto, que se desarrolló entre octubre de 2019 y junio de 2020, se articula en tres fases: captación de datos, procesamiento y etiquetado, entrenamiento y puesta en marcha de la plataforma web.

Primera fase: Recogida de información

En esta fase, personas voluntarias (mayores y cuidadores/as) respondieron a cuestionarios estandarizados y preguntas de respuesta abierta de forma natural y sencilla: a través de la voz y el uso de teléfonos móviles y aplicaciones tipo chat-bot.

La herramienta utilizada para la programación del chat-bot, la recolección de locuciones y la transcripción de las respuestas de voz a texto, es DialogFlow1 de Google.

Para la difusión y captación de personas voluntarias, se contó con el apoyo de instituciones públicas y privadas de Castellón, además de empresas del sector del cuidado de personas mayores.

En esta primera fase se prestó especial atención a la protección de los datos, así como a la confiabilidad y trazabilidad de los mismos.

A partir de las locuciones de las respuestas a las preguntas realizadas por el chat-bot, se obtuvo gran volumen de datos no etiquetados.

Segunda fase: Etiquetado colaborativo de los datos

Una vez recogidos los datos en la fase uno, se anonimizaron, eliminando cualquier información que permita identificar a la persona que los generó.

A continuación, y para que los algoritmos de aprendizaje automático “aprendieran” a detectar cuando un determinado mensaje indica que una persona está en situación de riesgo, era necesario etiquetar los datos.

En esta segunda fase, se recurrió nuevamente a la ciencia ciudadana para la realización de un etiquetado colaborativo a través de la plataforma Zooniverse. De esta forma, fueron personas voluntarias las que leyeron un determinado mensaje como “Mi hija se ha ido de viaje y mi mujer lleva días llegando tarde de trabajar” y lo etiquetaron como “Expresa soledad” “No expresa soledad”.

A continuación, con un gran volumen de datos etiquetados, ya se pudo entrenar los algoritmos de aprendizaje automático para que aprendieran a etiquetar audios de forma automática e indicar si éstos expresan soledad, aislamiento, estrés, bienestar etc

Tercera fase: Entrenamiento de los algoritmos de aprendizaje automático

En la tercera fase, y siguiendo una metodología de co-diseño, en la que los usuarios finales participan en toda las fases del proyecto, se creó una plataforma web accesible tanto para los profesionales de salud, como para la ciudadanía en general.

A través de esta plataforma, los algoritmos de aprendizaje automático entrenados con los datos etiquetados en la fase anterior se pusieron a disposición de los usuarios como herramienta de valoración de situaciones de riesgo emocional. De esta forma, los algoritmos ya entrenados, seguían aprendiendo, mejorando su eficacia.

Si quieres colaborar o comprobar cómo funciona… Habla con Serena.

Conclusión

Con este proyecto vemos un ejemplo más de cómo distintas disciplinas científicas se alían con la colaboración ciudadana y tecnologías basadas en el aprendizaje automático para ayudar a resolver un problema tan humano como la soledad no deseada.


Deja un comentario

Dato o Data… ¿Tienen género los datos?

Ya conocemos el enorme potencial de aplicar herramientas de Big Data en distintos campos de nuestra vida, siendo, uno de ellos el Desarrollo Sostenible y la Acción Humanitaria. Sin embargo, las acciones y políticas que se emprendan basadas en Insights extraídos de esta información presentan un sesgo muy claro que impide que lleguen a uno de los grupos más vulnerables. Nos referimos al sesgo de género, especialmente en países donde culturalmente no se reconocen los derechos de las mujeres y las niñas.


Si no se las considera individuos con derechos, no se registran datos sobre ellas o sobre los problemas que les afectan. Por ello, la desigualdad en los datos es un nuevo factor de desigualdad contra el que hay que luchar. Afortunadamente, hay importantes iniciativas que van en esta dirección. Vamos a ver cuáles son.

Posts de Twitter, compras con tarjetas de crédito, llamadas telefónicas, datos de satélites… Todos estos datos pueden ser captados, almacenados, procesados y analizados para generar Insights que permitan a los gobiernos o a las organizaciones no gubernamentales definir políticas y estrategias que mejoren la calidad de vida de las personas.

Figura 1: "Good Data helps make good decisions".
Figura 1: “Good Data helps make good decisions”.

Sin embargo, muchas veces estos datos son incompletos o responden a prejuicios que nos ofrecen una visión distorsionada de la realidad. Por ejemplo, en países donde existe discriminación hacia las mujeres, no se considera necesario recopilar datos sobre aspectos tan importantes como:

  • Mortalidad materna
  • Salud de las adolescentes
  • Exclusión del sistema educativo
  • Resultados de aprendizaje
  • Propiedad de activos por parte de mujeres
  • Acceso a teléfonos móviles e Internet
  • Registro de votantes
  • etc.

El análisis de estos datos incompletos o sesgados puede llevar a conclusiones inexactas que, por ejemplo hacen que las mujeres parezcan más dependientes y menos productivas de lo que son. Otras veces, el sesgo de los datos se debe a otras causas, como ocurre con la “brecha digital”. Aunque no es un sesgo exclusivo de género, es habitual que las mujeres tengan un menor  acceso a teléfonos móviles e internet, sobre todo en zonas rurales. Por ello es fundamental trabajar con conjuntos de datos complementarios. Así, para identificar a los grupos de población que no tienen acceso a  herramientas digitales se recurrirá a herramientas tradicionales, como los sondeos clásicos sobre el terreno.

Figura 2: "We need the complete Data Picture".
Figura 2: “We need the complete Data Picture”.


La buena noticia es  que una corriente global promueve más y mejores datos sobre mujeres para avanzar en los Objetivos de Desarrollo Sostenible (ODS). Veamos en qué consiste.

 ¿Tienen género los datos?

Pues, va a ser que sí. Si analizamos los datos estadísticos, junto con los obtenidos por las nuevas fuentes de datos desglosadas por sexo, podemos ver que:

Figura 3: ¿Qué indican los datos desglosados  por sexo o datos de género?
Figura 3: ¿Qué indican los datos desglosados por sexo o datos de género?

Por ello, organizaciones internacionales como la ONU y el Banco Mundial y entidades como la Fundación ONU se han puesto al frente de un movimiento global para promover más y mejores datos sobre la vida de las mujeres, con el objetivo de fundar políticas más eficaces para avanzar en la igualdad de género y en los Objetivos de Desarrollo Sostenibles (ODS) de la ONU hasta 2030.“Medimos lo que valoramos y valoramos lo que medimos. Comprendiendo las necesidades de las mujeres, podemos trabajar juntos para asegurar que —en el espíritu de los Objetivos Desarrollo Sostenible—
no se las deja atrás”.

 

¿Qué pasos se han dado?

El I Foro Mundial de Datos ONU celebrado entre este 15 y 18 de enero en Cape Town (Sudáfrica) ha reunido por primera vez a más de 1.000 profesionales de diversos ámbitos —sectores público, privado, académico y de organizaciones sociales— en torno al uso de datos para los ODS.Entre los participantes, Data2X es una organización no gubernamental creada por iniciativa de la Fundación ONU, con el apoyo de las Fundaciones William and Flora Hewlett y Bill & Melinda Gates. Trabaja con agencias de la ONU, gobiernos, sociedad civil, académicos y el sector privado para   mejorar la calidad, disponibilidad y uso de datos de género, y así rellenar esas lagunas de información sobre mujeres y niñas, que repercuten negativamente en la toma de decisiones y estrategias que afectan a su bienestar y calidad de vida. Su directora ejecutiva Emily Courey Pryor, afirma que los Objetivos de Desarrollo Sostenible (ODS) suponen una oportunidad sin precedentes para:

Figura 4: Oportunidades que brindan los ODS.
Figura 4: Oportunidades que brindan los ODS.

Una de las aportaciones más interesantes de este primer foro ha sido  tener la oportunidad de debatir la cuestión de los datos de género, no sólo entre los especialistas de género, sino también entre los profesionales de la estadística y ciencia de datos.

Personas ricas y personas pobres en información

También se está produciendo, según alerta en un informe el Grupo Asesor de la ONU sobre revolución de datos, una nueva brecha social entre los que tienen datos y los que no los tienen, que divide a las personas en “ricas o pobres en información”. Las barreras que generan esta nueva exclusión son “viejas conocidas”:

  • Barreras lingüísticas,
  • Pobreza,
  • Falta de educación o de infraestructura tecnológica,
  • Aislamiento
  • Discriminación

Y, al igual que cuando hemos hablado de la “brecha digital” no afecta exclusivamente a las mujeres y niñas, este grupo es uno de los que salen peor parados dentro de los “nuevos excluidos”.

¿Qué propone Data2X?

Data2X considera que es fundamental disponer de más y mejores datos desagregados por género, edad y otros atributos para poder lograr la plena inclusión y monitorizar sus avances. No olvidemos que el principio fundamental de la Agenda 2030 para el desarrollo sostenible de Naciones Unidas es “No dejar a nadie atrás”. Por ello, los objetivos de la agenda están descritos por indicadores muy comprometidos en expandir los esfuerzos de monitorización a nivel global de aquellos grupos previamente excluidos o infrarrepresentados, como son las mujeres y las niñas.

Figura 5: Objetivos para el Desarrollo Sostenible (ODS).
Figura 5: Objetivos para el Desarrollo Sostenible (ODS).

Como herramienta básica de actuación, Data2X ha analizado estos objetivos y ha identificado las áreas en las que la carencia de datos de género o su baja calidad suponían un mayor obstáculo para su consecución (Gender Data Gaps).  En concreto, las áreas de:

  • Salud
  • Educación
  • Oportunidades económicas
  • Participación política
  • Seguridad

En la Figura 5 podemos ver cuáles son estas “lagunas de información”  (pulsando el enlace que aparece en la leyenda se puede ver la imagen ampliada).

Figura 6: Carencias detectadas en datos de género ´ Gender Data Gaps
Figura 6: Carencias detectadas en datos de género ´Gender Data Gaps 

Sobre éstas áreas, y, en colaboración con Open Data Watch, Data2X ha definido 16 indicadores que se pueden empezar a medir de forma inmediata en la mayoría de países y con un bajo coste. Sus definiciones han sido acordadas por los distintos países teniendo en cuenta la disponibilidad de instrumentos/procedimientos para su medida, asegurándose de que estén libres de sesgos de género y siguiendo las recomendaciones de las principales agencias humanitarias y estadísticas.

La Figura 6 representa un ejemplo de estos indicadores para los objetivos relacionados con el fin de la pobreza y el hambre y con el de vivir en una sociedad más justa y pacífica. El listado con los 16  indicadores se puede consultar en la página web de Data2X.


Figura 7: Objetivos relacionados con el fin de la pobreza y el hambre.
Figura 7: Objetivos relacionados con el fin de la pobreza y el hambre.

Sumados a los datos complementarios ya existentes para medir el progreso de los ODS, estos indicadores van a permitir la promoción y puesta en práctica de políticas más inclusivas, a la vez que ofrecen a los ciudadanos información que les permite supervisar la actuación de sus gobernantes.

Llamamiento a la acción

Para avanzar en la inclusión de las mujeres en todos las esferas de la vida económica y social, Data2X hace cuatro llamamientos a la acción.

Figura 8: Llamamiento a la acción por parte de DataX2.
Figura 8: Llamamiento a la acción por parte de DataX2.

Primeros resultados

Data2X no se ha conformado con analizar dónde están las principales carencias de datos sobre mujeres y indicadores que ayuden a rellenar esas lagunas de información, y hacer un llamamiento a la acción. También se ha puesto manos a la obre y ha desarrollado proyectos pioneros que aplican las tecnologías de Big Data a esta labor de “rellenar estos huecos” y definir políticas que ayuden a mitigar la desigualdad de género global.En cada uno de los proyectos, se trabaja sobre una fuente de datos diferente:

  • Procedentes de redes sociales,
  • De telefonía móvil y movimientos en tarjetas de crédito
  • Recogidos por un satélite.

En uno de los proyectos, en colaboración con la Universidad Georgia Tech, se puede ver cómo los datos procedentes de redes sociales actúan como un preciso barómetro de salud mental, permitiendo medir niveles de ansiedad y depresión que afectan de forma significativa a la calidad de vida de las adolescentes.

En un segundo proyecto, en este caso en colaboración con el MIT, se trabaja sobre los datos registrados sobre teléfonos móviles y movimientos en tarjetas de crédito. Estos datos ofrecen información sobre prioridades de gasto, estatus social, hábitos de consumo y movilidad. Al igual que en el estudio anterior basado en redes sociales, surgen desafíos relacionados con el respecto a la privacidad, y se hace necesario contrastar estos datos con otros tipos de información complementarios que pongan de relieve posibles sesgos relacionados con la capacidad económica, competencia digital u otras dificultades de acceso al entorno digital.

En el tercer ejemplo, se utilizan imágenes por satélite no sólo para cartografiar accidentes naturales, sino también para medir la desigualdad de género. Este proyecto, en colaboración con la Fundación Flowmider correlaciona variables geoespaciales (como la distancia a una carretera) con otros indicadores de bienestar (como nivel educativo) que permiten extraer patrones que reflejan fenómenos sociales y relacionados con la salud que muchas veces estaban enmascarados por promedios a nivel local o de país.

La Figura 8 representa, precisamente un ejemplo de la correlación entre factores geográficos y el indicador relacionado con la baja estatura (“stunting rate”) en niñas menores de 5 años, respecto a de los niños en esa misma franja de edad en Nigeria.

Imagen 9: Diferencia en el Indicador de baja estatura de niños respecto a las niñas.
Imagen 9: Diferencia en el Indicador de baja estatura de niños respecto a las niñas.

Podemos ver los casos concretos con mayor detalle en su informe Big Data and the Well-Being of Women and Girls.

Challenge

Para aunar fuerzas en esta dirección, Data2X ha convocado a Big Data for Gender Challenge. Este tipo de convocatoria es habitual en el mundo del Big Data. Al ser de carácter abierto, investigadores de distintos orígenes, formaciones, y experiencias aportan una gran diversidad de enfoques y estrategias que resultan muy enriquecedoras. En este desafío los objetivos de los participantes son:

  • Usar una combinación de fuentes de datos convencionales y digitales para poder realizar investigaciones sobre determinados aspectos de la vida de las personas desde una perspectiva de género

O bien:

  • Enviar propuestas para la creación de herramientas que permitan monitorizar de forma viable el bienestar de mujeres y niñas a lo largo del tiempo

Si quieres aportar tu granito de arena para contribuir a la igualdad de género a través de la igualdad de datos… ¡participa!


Deja un comentario

Drones que “ven bajo tierra”

Patatas

Estamos acostumbrados a leer sobre el uso de drones en seguridad vial, conservación del medio ambiente, en el mundo de la construcción, usos recreativos, militares, para espantar aves en los aeropuertos, para transportar medicamentos…etc. Pero también son componentes habituales de las soluciones SmartAgro. Incluso, para cultivos que crecen bajo tierra, como patatas, también mandioca, zanahorias, rábanos o cualquier tubérculo o raíz comestible de interés económico.

En el post de hoy vamos a hablar de una de ellas en particular.

El problema

Los tubérculos son uno de los alimentos más nutritivos, económicos y versátiles de la naturaleza. De hecho, la patata, un alimento básico en todo el mundo, ocupa el cuarto lugar en la producción mundial de alimentos, después del maíz, el arroz y el trigo.

Este tipo de cultivos tiene un problema. Al crecer bajo tierra, es habitual que enfermedades o deficiencias que afectan a su crecimiento, pasen desapercibidas al agricultor. En ocasiones, plantas enfermas en la raíz, tienen un aspecto exterior verde y sano.

Esto plantea serias dificultades a los fitomejoradores, que investigan el desarrollo de los cultivos para poder determinar qué variedades ofrecen un mayor rendimiento, son más apropiadas para un determinado clima, o se adaptan mejor a la sequía o a los cambios de temperatura.

Uno de los grandes misterios para los fitomejoradores es si lo que ocurre en la superficie es lo mismo que lo que ocurre en la parte inferior

Michael Selvaraj, coautor de Alliance of Bioversity International y del CIAT

Para saber qué está sucediendo bajo tierra, y si el cultivo está sano, son necesarios muchos ensayos para recopilar datos sobre el dosel de las plantas, su altura y otras características físicas, lo cual resulta muy costoso en tiempo y recursos.

Una solución: drones+aprendizaje automático

Un estudio publicado recientemente en la revista Plant Methods plantea el análisis de imágenes de alta resolución tomadas por drones, mediante técnicas de aprendizaje automático que permiten construir modelos para predecirsobre el terreno y en tiempo real, cómo reacciona las plantas frente a distintos estímulos.

En lugar de esperar hasta la temporada de cosecha, se recogen datos sobre la cubierta vegetal e índices de vegetación en distintos momentos del ciclo de crecimiento, a partir de las imágenes multiespectrales tomadas por los drones. El procesamiento de estas series temporales mediante técnicas de aprendizaje automático permite extraer modelos de predicción del crecimiento de las raíces a partir de las imágenes.

Ubicación del trabajo de campo y plataforma de teledetección. a) Las pruebas uno y dos se llevaron a cabo en (CIAT). b)Dron, DJI S1000s. c) Cámara multiespectral, Micasense RedEdge 3. d) Arduino nano. e) Punto de control terrestre (GCP). f) GCP instalado en la prueba uno. g) RTK-GPS (Ampliar Imagen)

Para acelerar el procesamiento de imágenes, se desarrolló la plataforma de análisis automático de imágenes CIAT Pheno-i. A partir de datos tomados sobre el terreno y los índices de vegetación obtenidos por un sensor multiespectral se construyeron modelos de regresión lineal múltiple en las distintas etapas clave del crecimiento de la mandioca. Posteriormente, los índices espectrales/características se combinaron para desarrollar modelos de predicción del crecimiento de la raíz de mandioca usando diferentes técnicas de aprendizaje automático. Entre ellas, los modelos que mostraron mejor rendimiento fueron los basados en los algoritmos k-neighbours, bosque aletorio y máquina de vectores de soporte.

Ya son muchos los estudios que demuestran cómo las tecnologías avanzadas de teleobservación, combinadas con métodos de aprendizaje automático, permiten predecir de forma precisa datos valiosos sobre distintos tipos de cultivos. Esta técnica aplicada al cultivo de la yuca puede aplicarse también a otros cultivos de tubérculos para acelerar el trabajo de fenotipado digital llevado a cabo por el CIAT (Centro Internacional de Agricultura Tropical, Cali).

Gracias a esta tecnología, los fitomejoradores pueden ahora reaccionar de forma inmediata ante la falta de agua, o de un nutriente en particular, mejorando de esta forma la eficiencia de los cultivos.

Estos datos también permiten a los investigadores aconsejar a los productores sobre qué variedades resisten mejor las perturbaciones climáticas, para que cultiven las más adecuadas en cada lugar.


Referencias:

Selvaraj, M.G., Valderrama, M., Guzman, D. et al. Machine learning for high-throughput field phenotyping and image processing provides insight into the association of above and below-ground traits in cassava (Manihot esculenta Crantz). Plant Methods 16, 87 (2020).


Deja un comentario

Cómo usar los datos para luchar contra la pobreza: ODS1

Niño del tercer mundo con una pluma y un portátil

En 2019, el premio Nobel de Economía fue otorgado a un proyecto liderado por los economistas Michael KremerEsther Duflo y Abhijit Banerjee, que propone un uso diferente de los datos para apoyar la lucha contra la pobreza. Durante años, los economistas se valían de modelos econométricos que analizaban la pobreza de un país tratando de identificar los factores determinantes del desarrollo en grandes series de datos agregados a niveles nacional o regional.

No fue hasta mediados de los 90, cuando Michael Kremer, profesor de la Universidad de Harvard, dio los primeros pasos hacia una metodología que iba más allá de la teoría y los modelos econométricos en uso. Su principal innovación fue llevar a cabo experimentos de campo para evaluar la interrelación entre los factores que la ciencia económica ya había identificado como determinantes de la pobreza.

ODS1: Fin de la pobreza

Poner fin a la pobreza en todas sus formas en todo el mundo es primero de los 17 Objetivos de Desarrollo Sostenible (ODS) de la Agenda 2030 para el Desarrollo Sostenible, cuyo fin es trabajar por un mundo más justo y pacífico en el que nadie se queda atrás.

Veamos cómo los datos pueden ayudar a definir las políticas adecuadas para avanzar en la consecución de este objetivo.

El primer experimento

En este primer experimento, Many Children Left Behind? Textbooks and Test Scores in Kenya, se analizó el impacto de facilitar libros de texto a determinados grupos de alumnos, analizando la diferencia de resultados académicos con los de aquellos grupos que no los recibieron.

Los resultados mostraron que, contrariamente a lo predicho en los modelos tradicionales, el hecho de proporcionar libros de texto no elevó las puntuaciones medias de las pruebas. Sí lo hizo en el caso de los estudiantes cuyas puntuaciones preliminares ya eran más altas. Esto desmostró que el impacto de esta estrategia estaba sobrevalorado y no se tuvieron en cuenta otras variables que, sin embargo, resultaban determinantes. Por ejemplo, el hecho de que muchos niños no pudieran usar estos libros de forma eficaz al estar escritos en inglés, segunda o tercera lengua de muchos de ellos.

El laboratorio de Acción contra la Pobreza Abdul Latif Jameel

Michael Kremer y el matrimonio de economistas académicos del MITAbhijit BanerjeeEsther Duflo y crearon en 2003 el Laboratorio de Acción contra la Pobreza Abdul Latif Jameel (MIT-J-PAL) desde donde aplican este enfoque experimental a la evaluación de distintos planes o estrategias de lucha contra la pobreza. Su objetivo es crear un marco práctico que permita formular recomendaciones específicas de política económica y social con la evidencia concreta de los estudios.

Es decir, que permita ofrecer a los los políticos datos contrastados sobre si sus programas para erradicar la pobreza funcionan o no.

Los programas contra la pobreza

Estos programas abarcan aspectos tan variados como impulsar el uso de fertilizantes por pequeños agricultores en Kenia, capacitar médicos en la India, prevenir el SIDA en África, o analizar los efectos de los microcréditos o el impacto de los programas de ayuda en Indonesia.

Lo innovador y relevante de los estudios de Kremer, Duflo y Banerjee es que no se centran en observar la pobreza a vista de pájaro y proponer políticas generalizadas a nivel nacional. Ponen el foco en determinados grupos de la población y estudian el impacto que tienen sobre ellos intervenciones sobre diversos indicadores relacionados con su nivel de vida:

  • Alfabetización
  • Salud
  • Renta
  • Educación …

Las evaluaciones aleatorias (RTC)

Para ello es preciso aislar al grupo estudiado de efectos externos que pudieran interferir sobre los derivados de la intervención propuesta, y distorsionar así la comparativa con otros grupos (no intervenidos, o a los que se les aplica una intervención distinta). Dichos “experimentos reales” son denominados  Evaluaciones alteatorias (Randomized Controlled Trials -RCT).

En un experimento muy conocido, demostraron cómo modestos incentivos para las familias (en forma de lentejas), aumentaron drásticamente las tasas de inmunización de niños en la India rural.  Del 5 al 39%.

Por tanto, el enfoque de Kremer, Banerjee y Duflo consiste en dividir la pobreza en componentes como la poca formación escolar o la mala salud infantil y desarrollar experimentos precisos que permitan comprender el impacto de cada componente en las poblaciones afectadas.

Herramientas que permitan tomar decisiones basadas en datos

En los últimos años, gobiernos y administraciones públicas se han dado cuenta de la necesidad de basar la toma de decisiones sobre políticas públicas en datos y evidencias. Por ello es tan importante el desarrollo de herramientas y metodologías como las “evaluaciones aleatorias” propuestas por J-PAL. En particular, por 3 razones.

  1. Las evaluaciones aleatorias ayudan a determinar el impacto causal. Es decir, entender lo que habría sucedido si un programa no hubiera tenido lugar. Por ejemplo, el análisis de un programa que facilitaba ordenadores gratuitos a estudiantes de escuelas públicas en California mostró resultados inesperados. Una evaluación aleatoria de la iniciativa mostró que el acceso a la tecnología por sí sólo no mejoraba los resultados escolares.
  2. Los datos necesarios, están ahí. Ni son caros, ni difíciles de conseguir, porque las administraciones públicas ya recopilan enormes cantidades como parte de sus procesos operativos normales. En Chicago se analizó el impacto de la participación de jóvenes en los programas de empleo de verano en relación a las estadísticas de crímenes y violencia. Gracias a los datos ya disponibles sobre cifras de arrestos y encarcelamientos, no hizo falta invertir en costosas encuestas de seguimiento de los jóvenes que participaron en esos programas.
  3. Las evaluaciones aleatorias no requieren largos periodos de tiempo para llevarse a cabo. El tiempo necesario para realizar una evaluación depende de lo que queramos analizar. Se pueden diseñar para hacer seguimientos a corto plazo o largo plazo. Así, el impacto de mejoras educativas medido por los resultados a final de curso, o al finalizar la etapa educativa

Conclusión

Vemos cómo J-PAL utiliza los datos para llevar a cabo la evaluación de programas de políticas innovadoras. Así, identifica las acciones más eficaces contra la pobreza y trabaja con socios para trasladar e implementar estas soluciones a gran escala. Un excelente motivo para ser galardonados por el Premio Nobel.

Referencias: A Nobel-Winning Way to Make Effective Policy


Post original publicado en ThinkBig Empresas


Deja un comentario

¿Puede la Inteligencia Artificial predecir conflictos armados?

Soldado de juguete sobre mapamundi

No es fácil adivinar cuándo va a estallar un nuevo conflicto. A veces las causas pueden ser tan variadas como un boom de natalidad, una mala cosecha o, si recordamos nuestras lecciones de historia, el asesinato de un archiduque…

El problema

Pese a la dificultad del empeño, sí que ha habido iniciativas interesantes que tratan de determinar qué países corren mayor riesgo de sufrir acciones deliberadas de grupos armados que provoquen víctimas civiles.

Suelen basarse en el análisis de distintos factores de riesgo como pueden ser: un historial previo de sucesos similares, restricciones a la libertad de movimiento, coexistencia de distintos grupos étnicos y tipo de régimen político. Los modelos creados, reconvierten estos factores de riesgo en variables de entrada, como por ejemplo:

  • la densidad de población
  • el crecimiento del PIB,
  • el tiempo de viaje a la ciudad más cercana
  • la proporción de tierra sin cultivar
  • los años transcurridos desde la independencia
  • el tipo de gobierno.

A partir de estas variables de entrada, los modelos generan un valor de riesgo o “score”.

Algunos modelos.

Por ejemplo, en 2011 el Peace Research Institute de Oslo, creó un modelo para predecir los conflictos entre 2010 y 2050. Sin embargo, no fue capaz de predecir la guerra civil en Siria.

Por ello, lo habitual es combinar distintos modelos, maximizado sus fortalezas y reduciendo al máximo sus limitaciones. Un esquema de este tipo de ensamble de modelos sería similar al representado en la Figura 1.

Figura 1: Modelo idealizado creado por technologyreview
Figura 1: Modelo idealizado creado por technologyreview

En 2013, investigadores US Holocaust Museum y la Universidad de Dartmouth publicaron su primer modelo “ensemble”: The Early Warning Project.

El objetivo es generar un sistema de alerta temprana, capaz de detectar en qué países el riesgo de que se produzcan brotes de violencia armada es elevado.

Uno de los éxitos notables, aunque trágicos, del proyecto fue la capacidad de predecir una matanza en Myanmar, poco antes de que comenzara la persecución masiva de los rohingya en 2016. Myanmar ocupaba entonces el primer lugar en el informe.

Statistical Risk Assessment Results 2016 Map —Data from the Early Warning Project
Figura 2: Statistical Risk Assessment Results 2016 Map —Data from the Early Warning ProjectSource: US Holocaust Museum

Otros modelos, como ViEWS, creado por investigadores de la Universidad de Uppsala, ofrecen niveles de resolución impensables hace pocos años. El modelo ViEWS, está centrado en los conflictos en África, y ofrece lecturas predictivas mensuales sobre múltiples regiones dentro de un estado dado. Puede pronosticar el riesgo de tres tipos diferentes conflicto -desde el estado, unilateral y no estatal- en una cuadrícula geográfica con celdas de sólo 55 kilómetros de lado y tener en cuenta desde la primera muerte atribuible a la violencia organizada. En la Figura 3 se puede ver un ejemplo de predicción extraído del último informe mensual elaborado por el equipo del proyecto VieWs.

Figura 3: Extracto del informe de predicción de riesgo de Octubre 2019. Descargar pdf.
Figura 3: Extracto del informe de predicción de riesgo de Octubre 2019. Descargar pdf.

Conclusión

Últimamente, por desgracia, cuando vemos juntos los términos y “Guerra” e “Inteligencia Artificial”, el uso de ésta última parece ir enfocado exclusivamente a la mejora de las capacidades armamentísticas.

Sin embargo, vemos que también puede usarse como herramienta de paz. Una herramienta capaz de generar alertas tempranas que permitan a la ONU y otras organizaciones humanitarias dirigir la ayuda allí donde sea necesaria. También, alertar a los más vulnerables con antelación para que puedan buscar un lugar seguro.

La inteligencia artificial, como cualquier tecnología, no es algo “bueno” ni “malo”. Lo son los objetivos con los que la usamos las personas.

Referencias


Post original publicado en ThinkBig Empresas


Deja un comentario

Deep Learning para predecir la calidad del aire

Contaminación en la ciudad

La contaminación atmosférica por gases procedentes de combustibles fósiles genera graves problemas de salud a los habitantes de las ciudades. Por ello, la creación de modelos predictivos que permitan estimar los niveles de calidad del aire en un lugar, momento y condiciones dadas resulta de gran interés. Pero no es una tarea fácil. Veamos cómo el Deep Learning puede a superar estas dificultades.

El problema

Las principales agencias encargadas de la protección de la salud y del medio ambiente -como la OMS, la Agencia Europea de Medio Ambiente o la Agencia de Protección Ambiental de los EEUU (EPA), afirman que la inhalación de contaminantes, especialmente de las partículas de menor tamaño, incrementa el riesgo de daños pulmonares permanentes y muerte prematura. A pesar de la gravedad de sus efectos, tanto a corto como a largo plazo, las observaciones existentes sobre contaminación no son adecuadas para planificar estrategias de protección a la población vulnerable con suficiente antelación.

¿Por qué resulta tan complicado?

El problema principal radica en cómo combinar las dos fuentes de datos principales. Por un lado, las observaciones por satélite, que permiten medir la contaminación atmosférica en un lugar determinado a la misma hora cada día, pero no pueden medir cómo varían las emisiones a horas distintas. Por otro lado, las estaciones meteorológicas terrestres, que recogen datos de forma continuada, pero sólo en un número limitado de ubicaciones.

Sensores satelitales

El Sentinel-5p (p de precursor) es un satélite de monitorización atmosférica que, mediante instrumentos como el TROPOMI y UVNS, permite monitorizar la distribución de componentes atmosféricos como: ozono (O3), dióxido de nitrógeno (NO2), dióxido de azufre (SO2), formaldehidos (HCHO), monóxido de carbono (CO) y metano (CH4), o el espesor óptico de aerosoles (AOD).

(los datos de los satélites Sentinel son siempre gratuitos y de acceso libre para todos los usuarios y, por supuesto, preferente para los servicios Copernicus).

En particular, TROPOMI, el espectrómetro de imágenes multiespectrales fue desarrollado conjuntamente por la ESA y la Oficina Espacial de los Países Bajos. Proporciona una medición de la calidad del aire troposférico de alta resolución espacial (~5 km) que capta la variabilidad espacial de la contaminación del aire. En la imagen, podemos ver como ejemplo una visualización de la variación en la concentración de dióxido de nitrógeno sobre China.

Gif: Concentración de dióxido de nitrógeno sobre China (ESA (CC BY-SA 3.0 IGO) )
Gif: Concentración de dióxido de nitrógeno sobre China (ESA (CC BY-SA 3.0 IGO) )

Estaciones terrestres

AirNow es una asociación que unifica datos procedentes de diferentes asociaciones gubernamentales de EEUU, y datos procedentes de sus embajadas y consulados en todo el mundo con el objeto de poner a disposición del investigadores, empresas y publico en general datos de calidad sobre contaminación atmosférica.

Las estaciones de AirNOW, ofrecen observaciones horarias de los niveles de dióxido de nitrógeno (NO2) a nivel del suelo. Sin embargo, se trata de mediciones discretas, procedentes de las distintas estaciones terrestres asociadas al programa. Los niveles de dióxido de nitrógeno varían mucho durante el día. Por ello, resultaría muy interesante comparar las observaciones a nivel de superficie con las registradas por satélite, para así poder elaborar estimaciones con mayor resolución espacial y temporal. Lo ideal sería disponer de medidas a escala suburbana cada hora.

Deep Learning para medir contaminación atmosférica

En un estudio publicado en Science Direct, los investigadores Manzhu Yu y Qian Liu aplican algoritmos de aprendizaje profundo (Deep Learning) para integrar las observaciones horarias de NO2 a nivel del suelo, con las observaciones de la columna de NO2 troposférica recogidas por TROPOMI. Para ello, trabajaron con datos de la ciudad de Los Ángeles, donde los altos niveles de NO2 se deben, principalmente a emisiones del tráfico y de las centrales eléctricas.

¿Por qué usar Deep Learning?

El deep learning o aprendizaje profundo es, por tanto, un subcampo dentro del Machine Learning que utiliza redes neuronales para obtener representaciones cada vez más significativas de los datos mediante el aprendizaje por capas. Cada una de estas capas va extrayendo características de un nivel cada vez más alto hasta llegar a su respuesta final.

Es por ello, que el deep learning es especialmente apropiado para detectar patrones a partir de grandes volúmenes de datos, incluso datos no estructurados. También realiza de forma automática una de las tareas más complejas del proceso de trabajo de Machine Learning: la ingeniería de atributos. Las redes neuronales seleccionan de forma automática qué atributos son los relevantes y cuáles se pueden desechar. 

¿Cómo lo hicieron?

Para obtener estimaciones de las emisiones de NO2 a escala suburbana sobre una base horaria, los investigadores entrenaron los modelos con los siguientes datos de entrada:

  • Ubicación de las estaciones AirNOW
  • Observaciones de NO2 de AirNOW, la altura de la capa límite,
  • Información meteorológica
  • Altitud
  • Vías de tráfico principales
  • Centrales eléctricas

Trabajaron sobre dos modelos:

  • un método integrado entre la distancia ponderada inversa y una red neuronal de avance (IDW + DNN),
  • y una red matricial profunda (DMN) que mapea las observaciones discretas de AirNOW directamente a la distribución de las observaciones de TROPOMI

Compararon las precisiones de ambos modelos utilizando diferentes configuraciones de predictores de entrada y validamos su error medio cuadrático medio (RMSE), su error medio absoluto (MAE) y la distribución espacial de los errores. Comprobaron que el modelo DMN, que compara las observaciones terrestres directamente con las observaciones por satélite, genera estimaciones de NO2 más fiables y captura una mejor distribución espacial de las concentraciones de NO2 que el modelo IDW + DNN. La adición de información como los datos meteorológicos, la elevación y la ubicación de las estaciones terrestres y las principales carreteras y centrales eléctricas mejoró aún más la precisión de la predicción.

El modelo, una vez entrenado, ofrece estimaciones horarias de de dióxido de nitrógeno atmosférico en cuadrículas de aproximadamente 5km cuadrados. Esta alta resolución espacio-temporal resulta muy útil para estudiar la evolución de los contaminantes en el aire, ya que también podría aplicarse a otros gases de efecto invernadero y a otras escalas geográficas (de ciudades a regiones o continentes). Por otra parte, el modelo también podrá actualizarse y mejorar su precisión cuando se lancen nuevos satélites de mayor resolución.

Conclusión

La aplicación de algoritmos de deep learning a las distintas fuentes de datos sobre contaminación atmosférica permite crear modelos que predicen, con una alta resolución espacio-temporal, los niveles de calidad del aire. Este resultado es de gran importancia, la calidad del aire, especialmente en los entornos urbanos, tiene un gran impacto sobre nuestra salud.

________________________________________

1.         Manzhu Yu, Qian Liu. Deep learning-based downscaling of tropospheric nitrogen dioxide using ground-level and satellite observations. Science of The Total Environment, 2021; 773: 145145 DOI: 10.1016/j.scitotenv.2021.145145 ________________________________________

Post original publicado en ThinkBig Empresas.


Deja un comentario

¿Cómo crear una Inteligencia Artificial “verde”?

Imagen de un prado

¿Sabes lo que es la “inteligencia artificial verde” o “green AI“? Efectivamente, se trata de hacer un uso de la inteligencia artificial de forma que sea más inclusiva y respetuosa con el medioambiente. Hace pocos meses, ya hablamos en nuestro blog sobre una de las posibles iniciativas encaminadas a conseguir una Inteligencia Artificial más verde, los “centros de datos verdes”. En este post, nos enfocaremos en los aspectos relacionados con los datos, y el entrenamiento de algoritmos y modelos.

La potencia de cálculo necesaria para entrenar la IA está aumentando más rápido que nunca. Siguiendo la Ley de Moore, de 1959 a 2012, se ha duplicado cada dos años. Éste hecho no sólo se traduce en la explosión de las emisiones de carbono. También dificulta que los laboratorios académicos compitan con los privados más ricos.

Inteligencia artificial verde: “Green AI”

En julio de este año, un equipo de investigadores del Instituto Allen Institute para la IAla Universidad Carnegie Mellon y la Universidad de Washington presentaron un estudio sobre cómo hacer un uso más “verde” de la Inteligencia Artificial.

En este estudio, se plantea si la tendencia actual de hacer un uso masivo de recursos de computación para obtener cada día una mayor precisión (o mejoras en la métrica de rendimiento elegida), merece la pena o no.

¿Cómo medir los recursos que consume la IA?

¿Cómo podemos cuantificar estos recursos? Hay que considerar tres factores principales. Por un lado, está el volumen de datos de entrenamiento, que impacta sobre el tiempo dedicado a entrenar los modelos. Por otro lado, el tiempo de ejecución del propio modelo. Y, por último, el número de iteraciones necesarias para optimizarlo.

El estudio propone que el coste general de un modelo de aprendizaje automático es proporcional al producto de procesar una sola muestra o ejemplo (E), multiplicado por el tamaño del dataset de entrenamiento (D), por el número de iteraciones de optimización de los hiperparámetros (H).

Figura 1: El coste de la IA, según el estudio "Green AI"
Figura 1: El coste de la IA, según el estudio “Green AI”

Por ejemplo, el coste de entrenar AlphaGo, está estimado por un estudio de la revista nature en 1000$ /hora. Entrenar algoritmos con grandes corpus de unas 40.000 millones de palabras como FAIR´sRoBERT puede llegar a 25000 horas de GPU.

Algoritmos y modelos ecológicos

¿Cómo podemos medir si un desarrollo basado en IA es ecológico? Lo suyo sería poder medir la huella de carbono del modelosu consumo eléctrico o los tiempos de entrenamiento. Sin embargo, todos estos aspectos tienen una gran dependencia del hardware y hacen difícil comparar modelos distintos. Algo parecido ocurre con métricas más “técnicas” como puede ser el número de parámetros o el número de operaciones en coma flotante (FLOP) .

El número de parámetros que maneja el modelo está relacionado con el uso de recursos de memoria y por tanto, con la cantidad de energía requerida. Por su parte, FLOP, está relacionado con el número de operaciones aritméticas básicas que realiza el modelo, y tiene la ventaja de ser independiente del hardware. Sin embargo, aunque existen librerías que calculan su valor, y estudios que los reportan, no es una práctica extendida, ya que un mismo modelo puede tener diferentes implementaciones.

¿Cómo ser un “green-data scientist”?

En cualquier caso, y a título individual, sí que hay cosas que puede hacer el científico de datos de a pie para ser un “Green data scientist”.

Lo primero, tener en mente la ecuación propuesta y considerar por separado cada uno de los elementos. Esto nos lleva a plantearnos preguntas como:

¿Realmente necesitamos un conjunto de datos de entrenamiento tan masivo?

Podemos incluso llegar a preguntarnos de deberíamos entrenar este modelo o no.

¿Seguro que hace falta un nuevo clasificador de gatos?

Ya ha muchos modelos entrenados para este fin que podemos usar sin necesidad de entrenar uno nuevo.

También podemos explorar otras técnicas como el transfer learning, que utilizan modelos entrenados para una tarea como punto de partida para nuevos modelos, reduciendo así los tiempos de entrenamiento en gran medida. O bien usar la versión lite de los modelos (muchos la tienen). Aunque no sean tan precisos como las versiones completas, pueden ser lo suficientemente rápidos y eficientes.

En definitiva, se trata de dejar usar los recursos indiscriminadamente, sin pararnos a pensar en su impacto medioambiental y reservarlos para cuando son realmente necesarios, como ocurre en las aplicaciones para diagnóstico de enfermedades, coches autónomos etc.

Inteligencia artificial “Si”, pero siempre “con cabeza”.


Original publicado en ThinkBig Empresas


2 comentarios

¿Contamina internet?: Centros de datos “verdes”

¿Tienes idea de cómo afecta Internet al medio ambiente? Según datos del Banco Mundial, en 2017 ya estaba conectado a Internet un 48,5% de la población mundial (por supuesto de forma muy desigual, desde un 1% en países como Eritrea, a un 98% en los países más desarrollados). Y el número no deja de crecer. Tanto es así, que desde enero de 2018, el número de personas que se han conectado por primera vez a Internet ha aumentado un 9%, llegando a los 4.390 millones de usuarios en 2019, Veamos cómo se genera este impacto y qué podemos hacer para reducirlo lo más posible.

Figura 1: Evolución del porcentaje de la población mundial conectada a Internet (Banco Muncial)
Figura 1: Evolución del porcentaje de la población mundial conectada a Internet (Banco Mundial)

Los datos.

Una de las consecuencias más fácilmente identificables de este crecimiento exponencial es la generación paralela de grandes volúmenes de datos. De hecho, el nivel de datos que se genera cada semana a nivel mundial, supera el acumulado en los últimos 1000 años de Historia de la Humanidad.

Esta creciente demanda de intercambio de datos y el volumen de información almacenada en la nube ha creado la necesidad de construir espacios de almacenamiento y procesamiento de cada vez mayor tamaño. Estas instalaciones, que funcionan 24 horas, 7 días a la semana y bajo condiciones muy concretas de temperatura y humedad, pueden llegar a consumir más energía de la que consumen países de gran tamaño. Y su número aumenta cada día.

De hecho, la empresa Cisco Systems, estima que el número de centros de datos a hiperescala en el mundo aumentará de 259 en 2015 a 485 para 2020

Los dispositivos.

Además de las implicaciones derivadas del imparable crecimiento de los datos, hay otras que nos pueden pasar más desapercibidas.

Cuando hablamos de dispositivos, por un lado, debemos tener en cuenta el impacto que supone su fabricación , tanto en lo referente a uso de materias primas muy específicas y recursos energéticos, como al que tiene la forma en la que nos deshacemos de ellos cuando ya no son útiles (basura tecnológica). A ésto habría que sumarle otros “aportes” relativos a transporte, logística etc

¿Podemos cuantificar de alguna manera cómo afectan a nuestro entorno? La respuesta es “si”, y para ello, lo que hacemos es cuantificar su huella de carbono.

¿Qué es la huella de carbono de Internet?

La huella de carbono es forma de cuantificar las emisiones de gases de efecto invernadero liberados a la atmósfera como consecuencia de una determinada actividad. Se utiliza como  herramienta de sensibilización para tomar conciencia del impacto que genera cada actividad en el calentamiento global.

Y sí, se puede calcular la huella de carbono que genera cada correo enviado (un alto porcentaje de ellos no deseados), cada tuit, cada búsqueda en Google, cada foto subida a una red social…

Esto ha permitido darse cuenta de que los centros de datos constituyen una de las industrias más contaminantes del mundo. Tanto es así que, si no hacemos nada para evitarlo, el impacto de las industrias TIC en la generación de gases de efecto invernadero puede llegar a alcanzar para 2040 valores equivalentes al 50% del impacto generado por el uso de el combustibles fósiles en el sector transportes.

Los equipos y servicios de tecnología de la información y la comunicación (TIC) consumen más del 8 % de la energía eléctrica en la UE y producen alrededor del 4 % de sus emisiones de CO2. Estas cifras podrían duplicarse de aquí a 2020.

Agencia Digital de la Comisión Europea (Septiembre 2010)

Es por ello que, a pesar de suponer un gran reto, desde 2008, la UE cuenta con un Código de Conducta voluntario para mejorar la eficiencia de los centros de datos y reducir el consumo de energía al que ya se han sumado muchas empresas.

¿Cómo podemos reducir el efecto de las TIC sobre el calentamiento global?

A título personal, podemos llevar a cabo acciones tales como darnos de baja en newsletters que no nos interesen, evitando la conocida como “contaminación latente”, debida al almacenamiento innecesario de correos electrónicos. También podemos reducir nuestras consultas a Google, y evitar parar horas viendo vídeos de gatitos en Youtube o conectados a las redes sociales.

En definitiva, hacer un uso responsable de Internet, siendo conscientes de que cada una de estas acciones es un granito de arena, sí, pero es un suma y sigue al balance global, y somos muchos millones de personas los que “aportamos nuestro granito”.

Sin embargo, la parte del león, está en conseguir unos centros de datos más eficientes y respetuosos con el medio ambiente: los “green datacenters” o centros de datos “verdes”.

Centros de datos verdes.

En 2017, Greenpeace USA elaboró un informe “Clicking Clean: ¿Quién gana la carrera para crear un Internet verde? 2017” que analiza a las huellas energéticas de los operadores de los mayores centros de datos y de casi 70 de los sitios y aplicaciones más populares del mundo y explicó la situación en un didáctico vídeo:

Urgió a las principales compañías de Internet a dejar de usar energías “sucias” anticuadas y contaminantes, y empezar a cubrir su necesidades energéticas al 100% con energías renovables como, por ejemplo, fuentes hidraúlicas y eólicas.

Fruto de este interés surgieron los centros de datos verdes, que son aquellos que adoptan soluciones tecnológicas sostenibles que contribuyen a la mejora de la eficiencia energética y, por tanto, a la sostenibilidad económica y medioambiental.

Las condiciones medioambientales de algunos países como Irlanda, Noruega, Islandia, Suecia etc les han convertido en auténticas “superpotencias” de centros de datos verdes.

Por ejemplo, en Noruega se construyen centros de datos energéticamente eficientes y sostenibles junto a los fiordos. Utilizan sistemas de refrigeración que llevan el agua, a 8ºC, desde el fiordo a la estación sin utilizar energía eléctrica, únicamente con la ayuda de la gravedad, y sin necesidad de hacer uso de gases refrigerantes, lo que asegura que es una planta sostenible con cero emisiones .

En otros casos, se construyen centros de datos subterráneos, como el Lefdal Mine Datacenter, que, situado en una antigua mina a más de 600 metros de profundidad, obtiene el suministro energético de una central hidroeléctrica cercana; o incluso submarinos, como el proyecto Nactik de Microsoft en las islas Shetland.

Conclusión

El sector de las tecnologías de la información y la comunicación (TIC) debe ser pionero en la adopción de soluciones tecnológicas sostenibles que contribuyan a la mejora de la eficiencia energética y, por tanto, a la sostenibilidad económica y medioambiental.

Uno de los principales avances hacia esta sostenibilidad consiste en la evolución de los centros de datos tradicionales hacia centros de datos a “hiperescala”. Estos centros consiguen importantes ahorros en el consumo energético usando grandes matrices de servidores básicos diseñados para tareas específicas en lugar de servidores convencionales, y  adoptando los últimos avances en refrigeración.

Por otra parte, empresas como Google, han conseguido importantes reducciones en el consumo energético de sus centros de datos optimizando el uso sus sistemas de refrigeración mediante algoritmos de inteligencia artificial.

Por último, no podemos olvidar que muchas start-ups y grandes empresas como Intel y AMD, están desarrollando semiconductores para fabricar nuevos microchips basados en tecnologías como la fotónica para alimentar las redes neuronales y otras herramientas de inteligencia artificial y que consumen mucha menos energía.

En definitiva, aunque el avance tecnológico plantea importantes desafíos para la conservación del medio ambiente, al mismo tiempo, cada día, ofrece nuevas soluciones.


Post original publicado en ThinkBig Empresas