EsCovid19data: los voluntarios que llevan tres meses poniendo orden en los datos de la pandemia
Un grupo de periodistas, científicos y desarrolladores se organiza en las redes para unificar el maremágnum de estadísticas oficiales y promueve un manifiesto por una información pública accesible
Como los datos no iban a la montaña, la montaña ha tenido que acercarse a buscar los datos. Un grupo de periodistas, científicos sociales, matemáticos, analistas de datos, profesores de universidad y desarrolladores españoles, organizados de forma espontánea en las redes han dedicado de forma voluntaria los últimos tres meses a unificar el maremágnum de datos de la pandemia. Para obtener la información detallada por provincias, el proyecto bautizado como EsCovid19data, recopila desde marzo los datos sobre casos, ingresos en...
Como los datos no iban a la montaña, la montaña ha tenido que acercarse a buscar los datos. Un grupo de periodistas, científicos sociales, matemáticos, analistas de datos, profesores de universidad y desarrolladores españoles, organizados de forma espontánea en las redes han dedicado de forma voluntaria los últimos tres meses a unificar el maremágnum de datos de la pandemia. Para obtener la información detallada por provincias, el proyecto bautizado como EsCovid19data, recopila desde marzo los datos sobre casos, ingresos en la UCI y fallecimientos que cada comunidad configura y publica siguiendo criterios diferentes y con formatos variados. El fruto de ese trabajo de extracción, procesamiento y publicación de información en plataformas colaborativas y en formatos adecuados para el manejo de datos ha sido empleado ya en una larga lista de artículos de revistas científicas y medios generalistas, como el mapa de EL PAÍS con los riesgos de rebrote por provincias, que se actualiza cada día con los datos del colectivo.
“Poco antes de declararse el Estado de Alarma nos dimos cuenta de que no existía información detallada sobre la covid-19”, recuerdan desde el grupo. Cuando se percataron de esto, todavía eran un conjunto de profesionales desperdigados, pero unidos por la sed de información. “Como queríamos datos más detallados, hicimos un llamamiento inicial por Twitter y poco a poco nos fuimos conociendo y encontrando”.
EsCovid19data nació en remoto y ha trabajado de esta manera durante toda la crisis. La oficina de esta veintena de recolectores de datos es un chat de Telegram en el que se canalizan y resuelven todas las dudas que surgen en el proceso. La complejidad que han supuesto estas tareas no pilló desprevenido a Pablo Rey, parte de este colectivo y de Montera34, otro grupo habitualmente dedicado a proyectos de apertura de datos. “Para quienes hemos trabajado con datos de cualquier administración antes, esta situación no es una sorpresa. Siempre que me he puesto a estudiar cualquier tema surgen problemas tanto en el formato de los datos, en su metodología de generación o la falta de acceso”, señala.
La acuciante necesidad de información en tiempos de pandemia global ha llevado a este grupo de voluntarios a impulsar, junto con otros colaboradores, un manifiesto en el que piden a la administración una solución a las carencias que han estado intentando subsanar durante los últimos meses. “Por un lado, nos alegra que los medios de comunicación y la ciencia usen nuestros datos, por eso surge este proyecto. Por otro, asusta pensar que la ciencia esté sostenida por estructuras tan frágiles como la de un grupo de voluntarios”, lamentan.
En recién difundida declaración se piden datos accesibles, detallados, anónimos y actualizados sobre la pandemia, con el argumento de que “todavía es posible” una mejor gestión. “Nuestro objetivo es contribuir al bien común, seguir trabajando para conseguir que el acceso al conocimiento sobre esta pandemia sea libre y, así, no solo favorecer una ciudadanía mejor informada, sino también mejor capacitada para colaborar en la lucha contra esta y futuras crisis. Y trabajar de esta manera transparente y coordinada debería ser la norma a partir de ahora, no la excepción”.
Mientras llegan los datos
Por lo pronto, la única fuente oficial y unificada que publica datos desglosados de la pandemia a nivel estatal es el Instituto de Salud Carlos III que ofrece series históricas por autonomías, un nivel de detalle que resulta insuficiente para comprender el fenómeno, caracterizado por su desarrollo a nivel local. “La puesta a disposición de todos los datos referidos a la pandemia por parte de las administraciones públicas no solo no ha ido mejorando paulatinamente, sino que incluso ha empeorado. Tanto a nivel estatal como autonómico se ha interrumpido la publicación de las series de datos”, denuncia el manifiesto.
En contraste con esto, encuentran casos como el de Castilla y León, en la que los formatos abiertos y el mantenimiento de las series históricas ha sido una constante desde el principio, y Canarias, que aunque el 2 de junio dejó de publicar las cifras de tests de anticuerpos realizados diariamente, ha ido ampliando progresivamente la información contenida en sus series históricas. “Esto es positivo, ¿pero por qué se publican en abierto ciertas informaciones a la vez que se dejan de notificar otros datos? Y algo muy importante: ¿por qué motivo no se abrieron antes ciertas informaciones?”.
En este contexto, el primer paso de EsCovid19data para construir una imagen más clara del impacto y evolución de la pandemia fue repartir los territorios entre los miembros del grupo. “La mayoría se encarga de amadrinar una comunidad autónoma o provincia: buscar dónde y cómo se publica la información”, explican. Lo arduo de la puesta en común depende del formato en que se encuentren los datos originales. Algunas madrinas trabajan con fuentes de información estable y reutilizable cuya extracción puede hacerse de forma automática. Otras, menos afortunadas, pueden limitarse a copiar y pegar valores numéricos. Las peor paradas topan con la necesidad de extraer los datos de notas de prensa o gráficos interactivos que no admiten la descarga de los valores que los componen.
En el paso final, se juntan todas las bases de datos en una única que tiene dos características tan fundamentales como difíciles de encontrar en las informaciones publicadas por las administraciones durante los últimos meses: es coherente y descargable. La vocación de transparencia del proyecto, que vuelca todos sus avances e incluso los scripts que emplean para procesar los datos en GitHub —la plataforma colaborativa donde programadores de todo el mundo desarrollan y difunden sus proyectos—, hace posible que sus trabajos estén también revisados por observadores externos. “Hay personas que no participan de ese grupo de coordinación pero que aportan externamente: publican los datos que consiguen en repositorios abiertos que podemos utilizar o realizan visualizaciones y detectan errores en nuestra base de datos”, añaden.
Los autores del manifiesto reconocen las dificultades asociadas a una situación como la pandemia y a la necesidad de publicar datos en tiempo real, pero, en contraste con el caso español, destacan gestiones como la que se ha hecho en Italia. Allí el Gobierno publica sus datos en un repositorio público en GitHub desde hace meses. “Tienen toda la información de forma robusta y cualquiera puede acceder a ella sin sustos de que mañana cambien la URL, desaparezca o la eliminen”, explican desde esCovid19data.
Puedes seguir a EL PAÍS TECNOLOGÍA RETINA en Facebook, Twitter, Instagram o suscribirte aquí a nuestra Newsletter.