No se puede "desentrenar" un modelo: proteger tu trabajo en la era de la IA

16 de junio de 2026

Un gran modelo de IA puede leer el trabajo de un millón de personas en lo que tardas en terminar esta frase. Normalmente no pregunta, no siempre atribuye, y una vez que tu obra forma parte de lo que aprendió, no hay ningún botón que la saque de ahí. La mayoría de las veces ni siquiera puedes saber que ocurrió.

Esa es la forma incómoda del problema, y fingir lo contrario no ayuda a nadie. Así que este no es un artículo que prometa hacer tu obra a prueba de IA. Nada lo consigue. Trata de la única cosa sencilla y duradera que todavía puedes hacer, por qué merece la pena de todos modos, y hacia dónde va la regulación.

El pasado: cómo aprendieron a leer las máquinas

La primera generación de grandes modelos de lenguaje e imagen no aprendió de la nada. Aprendió de nosotros. Sus datos de entrenamiento fueron internet público a gran escala: enormes rastreos de la web, Wikipedia, libros digitalizados, repositorios de código, foros y vastas bibliotecas de imágenes. Y no es una suposición. Los propios artículos de investigación de quienes construyen estos modelos enumeran esas fuentes, y cuando periodistas e investigadores abrieron en canal uno de los conjuntos de entrenamiento más usados, Wikipedia resultó ser su segunda mayor fuente, solo por detrás de una base de datos de patentes. Si era accesible y legible, a menudo se trató como material disponible, y buena parte se recopiló sin preguntar a quienes lo habían creado.

Eso produjo un salto real en lo que el software puede hacer. También absorbió una cantidad enorme de trabajo humano (novelas, fotografías, ilustraciones, canciones, entradas de blog escritas para unos pocos cientos de lectores) y lo incorporó, sin atribución, a sistemas que hoy valen miles de millones. Si eso es uso legítimo (fair use) o una infracción es una cuestión abierta y muy debatida, que los reguladores están examinando y que se dirime, caso por caso, en los tribunales. No vamos a intentar resolverla aquí. El punto práctico para un creador es más simple: el rastreo ya ocurrió, a una escala y una velocidad que ningún individuo puede igualar ni revertir.

El entrenamiento es solo la primera puerta

En realidad hay dos formas en que tu trabajo llega a una IA, y solo una es el entrenamiento que acabamos de describir. Esa primera puerta, el entrenamiento, mira al pasado y, como hemos visto, es prácticamente permanente.

La segunda puerta está abierta de par en par ahora mismo. La mayoría de los asistentes más usados (ChatGPT, Claude y otros) pueden buscar en la web en tiempo real mientras responden. Pregúntale algo a uno y puede sacar tu artículo, tu comentario de Reddit o tu publicación de LinkedIn en ese mismo instante y entretejer la idea, o la formulación, en su respuesta. La atribución no siempre es clara: cuando la salida es un artículo nuevo y sintetizado, cuesta saber cuánto se apoya en tus palabras, y el modelo no necesariamente mostrará sus fuentes a menos que le pidas de forma explícita que cite todo y evite el plagio. Tu trabajo no necesita estar en ningún conjunto de entrenamiento para acabar moldeando la salida. Solo tiene que ser encontrable cuando alguien pregunta.

Las dos puertas se diferencian en cosas que importan. El entrenamiento es una instantánea del pasado que no puedes cambiar con facilidad; la recuperación en vivo es continua y alcanza incluso algo que publicaste hace una hora. El entrenamiento ocurre una vez; la recuperación puede resurgir tu trabajo, sin atribución, ante una persona distinta cada día. Lo que comparten es la parte que debería darte que pensar: en ambos casos tu autoría puede integrarse en silencio en la respuesta de otro, y en ninguno de los dos te preguntan antes.

El presente: la parte que es genuinamente difícil

Esta es la parte que la mayoría de los artículos se salta, y conviene ser honesto. Puede dar la sensación de que no hay nada que hacer, y en un punto concreto esa sensación es comprensible: demostrar que un modelo determinado se entrenó con tu obra concreta, o que la reutilizó en una respuesta en vivo, es, hoy, muy difícil. Los conjuntos de entrenamiento rara vez se publican completos. Las salidas son mezclas, no copias, así que un sistema puede estar impregnado de tu estilo sin reproducir nunca tu archivo. Desde fuera, el modelo es una caja negra que de vez en cuando dice algo sospechosamente familiar.

Seremos claros sobre lo que esto significa para la herramienta que hacemos: un sello de tiempo no demuestra que una IA te haya rastreado, y no impedirá que lo haga. Quien te diga lo contrario te está vendiendo algo. Lo que un sello de tiempo te da es más limitado, y más útil de lo que parece al principio.

Lo que sí puedes hacer: guarda una prueba fechada de lo que es tuyo

Reduce el problema a su esencia y una sola pregunta sobrevive a cualquier disputa sobre una obra: ¿puedes demostrar que esto exacto existía, en tus manos, en esta fecha? No un vago "lo hice hace años", sino un registro que cualquiera pueda comprobar.

Para eso sirve el sellado de tiempo. Calculas una huella digital de tu archivo (un hash SHA-256 corto que cambia por completo si cambia un solo byte) y anclas esa huella a un registro público con una fecha que nadie puede antedatar. La obra permanece privada. La huella no significa nada para quien no tenga ya el archivo. Pero el día en que la prioridad importe (un diseño robado, un "se nos ocurrió de forma independiente", una reclamación de licencia, un futuro mecanismo que reconozca o pague a los creadores) tendrás una prueba verificable de qué existía y cuándo, en lugar de una captura de pantalla y una historia.

La razón para hacerlo es casi vergonzosamente práctica: es económico, es inmediato y el registro es duradero. Sellar un archivo lleva segundos y cuesta más o menos lo que una pizza. Es un seguro que contratas una vez y esperas no necesitar nunca. Con EMOZ la huella se calcula en tu navegador, así que el archivo nunca sale de tu dispositivo, y la prueba puede verificarla cualquiera, de forma independiente, incluso si EMOZ desapareciera mañana. Cuando algo es así de asequible y la contrapartida de saltárselo es "no tenía ninguna prueba", la cuenta no es complicada.

Declara también tus condiciones

Demostrar la autoría es una mitad. Declarar cómo puede usarse tu obra es la otra, y hay un movimiento discreto para que eso sea legible por máquinas.

Si publicas en tu propia web, puedes pedir a los rastreadores que se comportan que se mantengan fuera con un archivo robots.txt, y en Europa puedes reservar formalmente tu obra frente a la minería de textos y datos, una exclusión que la Ley de IA de la UE obliga ya a los mayores fabricantes de modelos a detectar y respetar. Una propuesta más reciente, llms.txt, va un paso más allá: un simple archivo que declara tus condiciones directamente a los sistemas de IA. Si tu web usa WordPress, plugins como Website LLMs.txt lo generan por ti, y a día de hoy solo ese plugin supera las 40.000 instalaciones activas, una señal de que muchos propietarios de sitios web ya buscan la manera de declarar sus condiciones a la IA.

Mírate esto sin ilusiones. Hoy se parece más a un cartel educado en la puerta que a un cerrojo. Ninguna gran empresa de IA se ha comprometido a respetar llms.txt, y un cartel solo funciona con quien decide leerlo. ¿Entonces por qué mencionarlo? Porque es una cosa más que puedes dejar registrada. El sello de tiempo es lo que aporta la fecha y la prueba contra manipulaciones; combínalo con una nota de tus condiciones y más adelante podrás demostrar no solo que la obra existía un día dado, sino que ese día ya habías dicho que no querías que se usara para entrenar IA. Si estas señales acaban teniendo fuerza, quienes declararon sus condiciones pronto y pueden demostrar cuándo lo hicieron tendrán un registro en lugar de un argumento.

El futuro: la Ley de IA de la UE y las reglas que se están escribiendo

La razón por la que todo esto merece el esfuerzo es que el terreno se está moviendo. Los reguladores han decidido que la opacidad sobre los datos de entrenamiento ya no es aceptable, y Europa ha ido primero.

La Ley de IA de la UE entró en vigor el 1 de agosto de 2024, y sus normas se activan por fases. La parte que más importa a los creadores, las obligaciones para los modelos de IA de uso general del artículo 53, se aplica desde el 2 de agosto de 2025; el grueso de la Ley llega el 2 de agosto de 2026 (en el momento de escribir esto, a mediados de 2026, esa fecha está a solo unas semanas). Según el artículo 53, los proveedores de esos modelos deben publicar un "resumen suficientemente detallado" del contenido con el que los entrenaron, siguiendo una plantilla que la Comisión Europea publicó en julio de 2025, y deben aplicar una política que respete la ley de derechos de autor de la UE, incluida la exclusión legible por máquinas que permite a los creadores reservar su obra frente a la minería de textos y datos. Los modelos que ya estaban en el mercado tienen hasta el 2 de agosto de 2027 para publicar su resumen.

Léelo de nuevo como creador. Por primera vez, las empresas detrás de estos modelos tienen que declarar, en público y por escrito, con qué se entrenaron, y respetar una señal que significa "no uses esta obra sin preguntar". Esa transparencia es la bisagra: una norma de divulgación y una exclusión solo se convierten en ventaja para ti si, llegado el momento, puedes demostrar qué hiciste, cuándo lo hiciste y que lo habías reservado. Estados Unidos avanza más despacio, pero la Oficina de Copyright de EE. UU. ha publicado informe tras informe sobre exactamente esta cuestión, y empiezan a aparecer acuerdos de licencia entre empresas de IA y grandes titulares de derechos donde antes solo había silencio.

Nada de esto está cerrado, y no vamos a fingir que hoy te protege. Pero la dirección del viaje es inequívoca: hacia más transparencia, exclusiones reales y la posibilidad de reconocimiento o pago por el trabajo que entrena estos sistemas. Cuando esa maquinaria llegue, funcionará con pruebas, y los creadores en mejor posición serán quienes puedan responder "¿qué hiciste y cuándo?" sin titubear.

En pocas palabras, con honestidad

Así que, claramente, lo que un sello de tiempo hace y lo que no.

Demuestra que una obra concreta existía en una forma concreta en una fecha concreta, de forma verificable, por cualquiera, mientras el registro público se mantenga. Esa es la base de cualquier reclamación de prioridad. No demuestra que una IA usara tu obra. No detiene el rastreo. Y no concede ni sustituye el copyright: los derechos de autor son automáticos en cuanto registras tu obra, y cuando lo justifique deberías registrarlos formalmente, porque el registro aporta ventajas en algunos lugares que ningún sello de tiempo puede dar. El sello de tiempo es el complemento: un registro instantáneo y económico que puedes crear en el momento en que existe una obra. El registro formal es algo bastante más pesado, y funciona de forma distinta en cada jurisdicción (la UE, EE. UU. y el resto tienen sus propios sistemas): puede llevar meses y, en cuanto entran en juego las marcas, varios países o un abogado, asciende con facilidad a miles de euros o dólares.

La era de la IA no inventó el problema más antiguo del creador, que es demostrar que tu obra era tuya, primero. Solo lo hizo urgente y mucho más difícil de ignorar. No puedes desentrenar los modelos que ya leyeron internet. Lo que sí puedes hacer, a partir de tu próximo archivo, es asegurarte de que todo lo que crees de aquí en adelante lleve una prueba que puedas defender.

Séllalo cuando lo termines. Declara tus condiciones. Guarda tus originales. Cuesta casi nada, y es la parte de todo este lío que sí está en tus manos.