
Desde principios de siglo se viene diciendo que los datos tienen más valor que el oro, o simplemente que son el oro del siglo XXI.
La revolución de los datos nunca ha sido tan paradójica. En el mismo instante en que el Derecho se esfuerza por proteger la privacidad real de las personas, la tecnología avanza hacia un territorio donde esos datos ya no pertenecen a nadie. Me refiero a los datos sintéticos, que son aquellos generados por modelos estadísticos o algoritmos que imitan patrones humanos sin copiar información concreta. Dichos datos representan un nuevo horizonte para la economía digital, y lógicamente un desafío para la teoría jurídica.
Y es que, si un sistema puede crear información “ficticia” que reproduce la estructura de datos personales, sin revelar ninguna identidad concreta, se abre la posibilidad de entrenar modelos de inteligencia artificial, probar sistemas de seguridad o realizar investigaciones sin vulnerar la protección de datos personales. En apariencia, todo parece encajar en una lógica de cumplimiento normativo impecable, ya que si no hay persona identificada o identificable, no hay dato personal. Obvio. Pero el Derecho, especialmente el Derecho Digital, rara vez se mueve por apariencias.
La primera cuestión es de concepto: ¿cuándo un dato deja de ser personal? Pues bien, el artículo 4.1 del Reglamento General de Protección de Datos (RGPD) no deja lugar a dudas, ya que indica que la clave está en la identificabilidad, directa o indirecta. Sin embargo, la frontera entre un dato real y uno sintético es difusa. Los algoritmos generativos pueden incorporar rastros estadísticos tan precisos que permitan reconstruir o inferir la existencia de una persona real. En ese caso, cabe preguntarse si seguimos ante un dato no personal o ante una especie “híbrida” que conserva parte de la huella original.
A medida que los sistemas de generación sintética se perfeccionan, también se multiplican los riesgos jurídicos. El legislador europeo ha apostado por un marco que distingue entre datos personales y datos anónimos, pero apenas ha comenzado a plantear una categoría intermedia para estos supuestos.
El RGPD no aborda de manera expresa el estatuto de los datos sintéticos, pese a que su uso se extiende en proyectos de investigación médica, predicción financiera o entrenamiento de algoritmos. La ausencia de regulación específica se puede ver como un vacío normativo, aunque habría que discrepar de ello. En realidad, parece que lo que falla no es tanto la normativa, sino la carencia de guías claras para aplicar estos datos.
Y aquí entra la problemática de los sesgos, adquiriendo el debate un matiz ético. Si los datos sintéticos son fruto de la inferencia y no de la observación, ¿hasta qué punto reproducen los sesgos del mundo real? Un conjunto de datos artificial puede eliminar nombres y direcciones, pero conservar la distribución desigual de género, etnia o renta. El problema no está en la identidad, sino en la representación. Y el Derecho, diseñado para proteger personas, no siempre dispone de herramientas para proteger representaciones inexactas o injustas del colectivo.
De ahí que muchos juristas comiencen a hablar de una “responsabilidad difusa” en la producción y uso de datos sintéticos. No se trata de proteger a alguien en concreto, sino de asegurar que el proceso de generación no perpetúe estructuras discriminatorias o falsifique la realidad de forma significativa. En ese sentido, los datos sintéticos no son una negación de los datos personales, sino su prolongación cultural, un intento de mantener la utilidad de la información sin la carga de la identidad. Pero esa promesa técnica puede volverse contra su propio propósito si el resultado final sigue condicionando decisiones humanas con efectos jurídicos.
Resulta revelador observar cómo los equipos de cumplimiento normativo y los departamentos de privacidad comienzan a debatir sobre el grado de anonimización exigible en los datos sintéticos. Algunos sostienen que basta con demostrar que no existe correlación directa entre el dato generado y una persona real. Los más precavidos insisten en que no basta con ocultar datos personales sino que hay que evaluar el riesgo de que alguien pueda volver a identificarlos de forma indirecta, especialmente cuando se cruzan diferentes bases de datos. En ese matiz técnico se juega una parte del futuro del cumplimiento en inteligencia artificial.
Estamos ante una nueva categoría ontológica: datos que no existen, pero que influyen; datos que no identifican, pero que deciden. El reto ya no es distinguir entre lo real y lo falso, sino entre lo jurídicamente relevante y lo digitalmente posible. Mientras tanto, los datos sintéticos siguen expandiéndose, poblando laboratorios, universidades y empresas, como si fueran un espejo donde la sociedad se contempla sin saberse observada. En el futuro, ¿qué será real o falso?