Datos sintéticos: la IA que finge lo que no sabe
miércoles, 15 de abril de 2026
Santiago Jiménez Londoño
El mercado global de datos sintéticos supera los US$700 millones en 2026. Crece a más de 30% anual. No son datos que vengan de encuestas, sensores ni registros. Los fabrica un algoritmo. Simulan patrones de lo real sin haberlo tocado. Y cada vez más empresas los usan para entrenar los modelos de IA con los que toman decisiones.
Suena eficiente. Y lo es. Resuelve problemas legítimos: escasez de datos de calidad, restricciones de privacidad, costos de etiquetado manual. Pero lo que empezó como solución técnica se convirtió en atajo organizacional. Y el atajo tiene consecuencias que pocos están midiendo.
En 2024, Ilia Shumailov y su equipo publicaron en Nature un hallazgo incómodo. Cuando los modelos se entrenan recursivamente con datos generados por otros modelos, las distribuciones originales se deforman. Las minorías estadísticas desaparecen primero. Después se pierde varianza. Al final, el modelo repite frases en bucle. Lo llamaron colapso del modelo. Es una fotocopiadora de fotocopias: cada copia pierde resolución hasta que lo que queda no se parece a nada.
Nassim Taleb lo diría de otro modo. Un sistema sin skin in the game es un sistema frágil. Un modelo entrenado con datos que nunca enfrentaron la fricción de lo real no tiene piel en el juego. No soporta el caso atípico. No resiste el dato que no encaja, el evento que ningún patrón predijo. Datos sintéticos sin anclaje empírico producen certezas sin consecuencias. Y las decisiones sin consecuencias, advierte Taleb, son el origen de toda crisis sistémica.
Hay cifras que lo confirman. Según Deloitte, 66% de las organizaciones reporta mejoras de productividad con IA. Pero solo uno de cada cuatro ha llevado más de 40% de sus pilotos de IA a producción. 84% no ha rediseñado un solo puesto de trabajo. 73% señala la privacidad de datos como su principal riesgo. Se adopta rápido. Se gobierna despacio. Se escala el modelo. No se audita el dato.
Colombia va por el mismo carril. El Conpes 4144 trazó más de cien acciones para gobernar la IA hasta 2030. El Foro Económico Mundial advirtió en 2025 que la gobernanza de datos sintéticos debe tratarse como prioridad estratégica independiente. Pero una encuesta con 1.500 empresas reveló que 81% sigue en etapas tempranas de madurez en IA responsable. Se fabrica el dato. No se verifica.
En Algoritmos deshumanizantes dediqué un capítulo a esta tensión: la falacia de la certeza algorítmica. Un modelo alimentado con datos que no representan la realidad no produce predicciones. Produce ficciones con formato de informe.
Fernando Pessoa escribió que el poeta es un fingidor que finge tan completamente que llega a fingir que es dolor el dolor que de veras siente. La IA generativa hace algo parecido: finge datos que fingen ser reales. Pero, a diferencia del poeta, el algoritmo no sabe que finge. Y quien decide con base en esa ficción, tampoco.
El dato más peligroso no es el falso. Es el dato sintético que parece verdadero.