La cuarta ola del open data en la era de la Inteligencia Artificial
El informe de Verhulst revisa la evolución histórica de los datos abiertos y plantea un nuevo marco en el que la IA y los datos públicos trabajen de forma complementaria
El investigador Stefaan G. Verhulst ha publicado el informe ‘¿Una cuarta ola de datos abiertos? Combinando datos abiertos e inteligencia artificial de forma creativa para generar impacto social’ en el que examina la trayectoria del movimiento de datos abiertos desde sus orígenes hasta la actualidad, y propone una ‘cuarta ola’ caracterizada por la interacción con la inteligencia artificial. El documento, presentado en el marco de los EU Open Data Days de 2025, invita a repensar el papel de los datos públicos en un contexto tecnológico marcado por el avance de modelos de IA cada vez más potentes y dependientes de grandes volúmenes de información.
El informe parte de la idea de que el open data no ha sido un fenómeno estático, sino que ha evolucionado en etapas bien diferenciadas, cada una con prioridades, actores y retos propios.
De la primera a la tercera ola: tres décadas de transformación
Según Verhulst, la primera ola del open data se centró en el derecho de acceso a la información, con la aprobación de leyes de libertad de información (FOIA) que permitieron a la ciudadanía solicitar datos a las administraciones. Era un modelo reactivo, en el que el acceso se obtenía bajo demanda y, en muchos casos, con limitaciones importantes.
La segunda ola supuso un salto cualitativo con la implantación del principio “open by default” (abierto por defecto). Las administraciones comenzaron a publicar datos de manera proactiva, sin necesidad de solicitudes previas, creando portales y catálogos accesibles al público. Fue un momento clave para sentar las bases de la cultura de apertura.
La tercera ola, que Verhulst define como “publish with purpose” (publicar con un propósito), orientó la publicación de datos hacia objetivos concretos: resolver problemas sociales, fomentar la colaboración entre sectores y reducir asimetrías de información. Aquí, la apertura se volvió más estratégica, con la creación de alianzas público-privadas y la búsqueda de un impacto medible en el bien común.
La propuesta de una cuarta ola: datos abiertos 'listos para la IA'
El informe plantea que estamos ante el inicio de una cuarta ola, impulsada por el rápido desarrollo de la inteligencia artificial. En este nuevo escenario, los datos abiertos no se conciben solo como un recurso de transparencia o reutilización económica, sino como recursos clave para el entrenamiento, validación y auditoría de sistemas de IA.
Esta etapa exigiría un cambio de enfoque en varios sentidos:
- Preparar los datos para IA (AI-ready), mejorando su calidad, estructura, metadatos y trazabilidad.
- Garantizar que las fuentes sean verificables y que su procedencia esté documentada, algo esencial para auditar modelos y prevenir sesgos.
- Diseñar interfaces accesibles, incluidas consultas conversacionales, que permitan a más personas trabajar con datos sin barreras técnicas.
- Crear espacios comunes de datos (data commons) con licencias adaptadas al uso en IA, que definan claramente derechos y obligaciones en el entrenamiento de modelos.
- Priorizar la apertura de conjuntos de datos con alto valor social, como los relacionados con el clima, la salud pública o la gestión de emergencias.
Oportunidades y riesgos: ¿hacia un ‘invierno de los datos’?
Verhulst también advierte de riesgos que podrían frenar el avance de esta cuarta ola. Entre ellos, destaca la privatización de datos antes públicos, las restricciones al acceso a información en redes sociales y la posibilidad de un “data winter”, una etapa de retroceso en las políticas de apertura.
En paralelo, señala que la IA también puede convertirse en una aliada del open data, ayudando a catalogar, limpiar y enriquecer conjuntos de datos, e incluso a identificar qué información sería más útil abrir. No obstante, para que esta relación sea fructífera, será necesario definir marcos éticos y jurídicos claros que regulen el uso de datos abiertos en el entrenamiento de modelos, así como mecanismos de reparto de beneficios.
Datos abiertos para entrenar una IA más transparente
Uno de los mensajes centrales del informe es que los datos públicos pueden jugar un papel clave en el desarrollo de modelos de IA más transparentes y auditables. Frente a un panorama dominado por datasets privados y de difícil acceso, el uso de datos abiertos para entrenamiento ofrece ventajas como la posibilidad de revisión independiente, la replicabilidad de experimentos y la reducción de sesgos ocultos.
Verhulst sugiere que, si se adoptan las licencias y estructuras adecuadas, estos datos podrían nutrir una nueva generación de modelos abiertos y auditables, reforzando tanto la innovación tecnológica como el control democrático sobre la inteligencia artificial.
Un momento para repensar el valor del open data
El informe concluye que esta potencial cuarta ola representa una oportunidad para renovar el compromiso con la apertura, conectando la agenda del open data con la de la inteligencia artificial. Hacerlo implicará invertir en calidad y gobernanza de los datos, actualizar marcos legales y fomentar la cooperación entre gobiernos, empresas, academia y sociedad civil.
En definitiva, se trata de pasar de un modelo centrado en ‘abrir por abrir’ a uno en el que la apertura esté orientada a fortalecer ecosistemas tecnológicos y sociales en los que los datos públicos se conviertan en un motor de innovación responsable en la era de la IA.