De los Transformers al Nested Learning: el nuevo paradigma de Google que podría cambiar la IA

De los Transformers al Nested Learning: el nuevo paradigma de Google que podría cambiar la IA

En 2017 nos dieron los Transformers. Ahora, Google presenta "Nested Learning", un paradigma que ataca el "olvido catastrófico" y podría redefinir la carrera de la IA.

En 2017, un paper de Google Research titulado "Attention Is All You Need" lo cambió todo. Introdujo la arquitectura Transformer, el pilar fundamental sobre el que se construye toda la IA generativa moderna (sí, la "T" en GPT).

Ocho años después, en Noviembre de 2025, parece que el mismo equipo de investigación podría tener en sus manos la siguiente pieza clave. Un nuevo paper presenta el "Nested Learning" (Aprendizaje Anidado), un paradigma que no busca hacer modelos más grandes, sino solucionar su defecto más fundamental: el "olvido catastrófico".

En resumen: los LLM actuales no pueden aprender cosas nuevas sin olvidar las antiguas. Son estáticos. El Nested Learning propone una forma radicalmente nueva de evitarlo.

El "Clic" Mental: Arquitectura y Optimización son lo Mismo

El enfoque tradicional del deep learning trata dos conceptos como cosas separadas:

  • La Arquitectura: La estructura de la red (las capas, las neuronas, los transformers).
  • El Algoritmo de Optimización: La regla que usamos para entrenarlo (cómo se ajustan los pesos, como el backpropagation).

El equipo de Google propone un cambio de perspectiva: ¿Y si la arquitectura y la optimización son, fundamentalmente, el mismo concepto, solo que operando en diferentes "niveles"?

Aquí es donde nace el Nested Learning (Aprendizaje Anidado).

La idea es ver un modelo de ML no como un bloque monolítico, sino como un sistema de problemas de optimización interconectados y anidados.

Imagínalo así: en lugar de que todo el modelo aprenda a la misma velocidad (durante el entrenamiento), el Nested Learning permite que diferentes componentes del modelo tengan sus propias "frecuencias de actualización".

  • Algunas partes pueden aprender muy rápido (como la memoria a corto plazo, adaptándose al prompt actual).
  • Otras partes pueden aprender muy lento (almacenando conocimiento fundamental y estable, como la memoria a largo plazo).
  • Y crucialmente, puede haber todo un espectro de velocidades intermedias.

Esto se asemeja mucho más a las diferentes ondas y ritmos que vemos en la neuroplasticidad del cerebro humano.

"Hope" y los Sistemas de Memoria Continua

Para probar esto, los investigadores no solo se quedaron en la teoría. Crearon una arquitectura de prueba de concepto llamada "Hope".

Lo fascinante de "Hope" es que implementa lo que llaman un "Sistema de Memoria Continua" (CMS). En lugar de la división binaria de memoria (largo plazo vs. corto plazo) que tienen los Transformers estándar, "Hope" tiene un espectro de módulos de memoria, cada uno actualizándose a su propia frecuencia.

¿El resultado? En las pruebas, "Hope" superó a las arquitecturas estándar en tareas de modelado de lenguaje y, de forma destacada, en tareas de memoria de largo contexto (como las famosas pruebas "Needle-In-Haystack", o NIAH). Demostró ser mucho más eficiente en cómo gestiona y retiene la información a lo largo del tiempo.

Mi Perspectiva: Google Pisa el Acelerador en la Carrera de la IA

Aquí es donde este paper se pone realmente interesante para mí.

Debo admitir que, últimamente, mi opinión sobre los avances en IA estaba muy posicionada. Tenía la sensación de que China estaba a "años luz" de ventaja, especialmente con la explosión de modelos open-source que rivalizan (o superan) a los propietarios, o con avances técnicos brutales como la implementación exitosa de Mixture of Experts (MoE) por parte de DeepSeek, u otros ejemplos como los que traté en uno de mis posts:

DeepSeek lo vuelve a hacer: De MoE a DSA, la nueva era de eficiencia en los LLMs
Imagen de cabecera obtenida de Chat-Deep. Introducción: El Muro Invisible de los LLMs En el vertiginoso mundo de la Inteligencia Artificial, a menudo nos maravillamos con el tamaño y la capacidad de los nuevos modelos de lenguaje (LLMs). Sin embargo, detrás de cada avance existe un muro invisible, un desafío

Sin embargo, este paper de Google me hace matizar esa idea.

Sí, China está liderando la carga en muchos frentes, sobre todo en la velocidad de iteración. Pero este artículo demuestra que EE. UU., y bajo mi punto de vista, más en concreto Google (seguido de cerca por Anthropic), sigue de lleno en la disputa por la innovación fundamental.

El Nested Learning no es una mejora incremental. Es una propuesta de fundamento. Y esto es importante por varias razones:

  1. Un Camino Más Allá de la "Fuerza Bruta": Hasta ahora, hemos mejorado los LLM principalmente escalándolos (más datos, más parámetros, más GPUs). El Nested Learning ofrece un camino hacia modelos más inteligentes y eficientes, no solo más grandes. Es una apuesta por la elegancia arquitectónica, no solo por la escala.
  2. Hacia la Verdadera Adaptación: Esto abre la puerta a modelos que puedan adaptarse en tiempo real. Imagina una IA que pueda leer las noticias del día e integrar ese conocimiento sin necesidad de un costoso re-entrenamiento completo que dura semanas. Esto es un cambio de juego.

En resumen, mientras un lado de la carrera se enfoca en optimizar y escalar la arquitectura que ya tenemos (los Transformers), Google acaba de proponer una arquitectura completamente nueva que quizás, sea la revolución para la próxima década. Es un paso firme para cerrar la brecha entre la IA actual y la asombrosa capacidad de aprendizaje del cerebro humano.

Enlaces de Referencia

Para los que quieran profundizar, aquí dejo los enlaces directos al material original:

  • El Post del Blog de Google Research:
Introducing Nested Learning: A new ML paradigm for continual learning
  • El Paper (NeurIPS 2025): (Enlace al paper en ArXiv).
Sample Compression Scheme Reductions
We present novel reductions from sample compression schemes in multiclass classification, regression, and adversarially robust learning settings to binary sample compression schemes. Assuming we have a compression scheme for binary classes of size $f(d_\mathrm{VC})$, where $d_\mathrm{VC}$ is the VC dimension, then we have the following results: (1) If the binary compression scheme is a majority-vote or a stable compression scheme, then there exists a multiclass compression scheme of size $O(f(d_\mathrm{G}))$, where $d_\mathrm{G}$ is the graph dimension. Moreover, for general binary compression schemes, we obtain a compression of size $O(f(d_\mathrm{G})\log|Y|)$, where $Y$ is the label space. (2) If the binary compression scheme is a majority-vote or a stable compression scheme, then there exists an $ε$-approximate compression scheme for regression over $[0,1]$-valued functions of size $O(f(d_\mathrm{P}))$, where $d_\mathrm{P}$ is the pseudo-dimension. For general binary compression schemes, we obtain a compression of size $O(f(d_\mathrm{P})\log(1/ε))$. These results would have significant implications if the sample compression conjecture, which posits that any binary concept class with a finite VC dimension admits a binary compression scheme of size $O(d_\mathrm{VC})$, is resolved (Littlestone and Warmuth, 1986; Floyd and Warmuth, 1995; Warmuth, 2003). Our results would then extend the proof of the conjecture immediately to other settings. We establish similar results for adversarially robust learning and also provide an example of a concept class that is robustly learnable but has no bounded-size compression scheme, demonstrating that learnability is not equivalent to having a compression scheme independent of the sample size, unlike in binary classification, where compression of size $2^{O(d_\mathrm{VC})}$ is attainable (Moran and Yehudayoff, 2016).

Me encantaría saber qué piensas. ¿Crees que este es el camino correcto para el aprendizaje continuo? ¿Sigues viendo a China en la delantera o crees que Google ha movido ficha clave?

Te invito a que compartas lo que piensas sobre este tema en los comentarios.

Te suscribiste correctamente a The Dave Stack
¡Excelente! A continuación, complete el proceso de pago para acceder a The Dave Stack
¡Dar una buena acogida! Has iniciado sesión correctamente.
¡Éxito! Su cuenta está completamente activada, ahora tiene acceso a todo el contenido.
¡Éxito! Su información de facturación está actualizada.
Error al actualizar la información de facturación.