Cómo se entrena un LLM. Parte 2: cómo se le dice al modelo «esto está bien»
Esta es la segunda entrada de la serie sobre cómo se entrenan los modelos de lenguaje grandes (Large Language Models, LLMs). En la Parte 1 vimos que un modelo recién pre-entrenado es como un erudito que ha leído todo, pero que nunca ha hablado con nadie: tiene conocimiento, pero no sabe responder. Para convertirlo en un asistente útil hace falta una segunda fase llamada alineamiento (en inglés alignment).
Pero antes de meternos en las técnicas concretas (RLHF, DPO, RLVR…), conviene parar en una pregunta más básica:
Cuando hablamos de «premiar» o «penalizar» a un modelo, ¿qué pasa físicamente dentro?
Esa es la mecánica que está debajo de todas las técnicas de alineamiento. Si la entiendes, las siguientes entradas se entienden casi solas.
¿De qué está hecho un LLM por dentro?
Un LLM, en su interior, es esencialmente un montón enorme de números ajustables. A esos números se les llama parámetros o, más a menudo, pesos (en inglés weights). Para que te hagas una idea de la escala:
- GPT-3 (2020): unos 175.000 millones de pesos.
- Llama 3.1 405B (2024, de los modelos abiertos más potentes): 405.000 millones.
- Modelos punteros muy recientes: del orden del billón de pesos.
Cuando le metes una frase al modelo, esos miles de millones de números se multiplican, suman y combinan en una secuencia de operaciones matemáticas hasta que sale una predicción: «la siguiente palabra es X con probabilidad 0,7; Y con 0,2; Z con 0,01…».
Lo importante: el comportamiento del modelo está determinado completamente por esos números. Si los cambias un poquito, el modelo cambia un poquito. Si los cambias mucho, cambia mucho. No hay ninguna «regla escrita» del comportamiento del modelo aparte de esos pesos.
La analogía: una orquesta enorme de cuerdas afinables
La forma más visual de imaginar un LLM es esta. Piensa en una orquesta inmensa, con miles de millones de cuerdas afinables.
- Cada cuerda contribuye con su pequeña vibración a la sinfonía final.
- La «sinfonía» es lo que el modelo toca: las respuestas que produce.
- Si todas las cuerdas están en su tensión justa, la orquesta suena bien: respuestas coherentes, pertinentes, útiles.
- Si las cuerdas están mal tensadas, la orquesta suena desafinada: el modelo dice cosas raras, sin sentido o que no responden a lo que se le ha preguntado.
«Entrenar» el modelo es ir tensando o aflojando cada una de esas cuerdas hasta que la orquesta entera suene como queremos.
¿Cómo se afinan las cuerdas?
Hacen falta tres ingredientes. El proceso es siempre el mismo, da igual si estás en pretraining o en alineamiento.
1. Que la orquesta toque algo
Le pasas al modelo una entrada (una frase, una pregunta, un trozo de texto). El modelo, con todas sus cuerdas en las tensiones actuales, toca: produce una predicción.
2. Compararlo con la nota objetivo
Tienes una nota que debería haber sonado (la respuesta correcta). Comparas lo que ha tocado la orquesta con esa nota objetivo y mides cuánto se ha desviado. Esa desviación se resume en un único número que se llama función de pérdida, o más comúnmente por su nombre en inglés: loss.
- Cuanto más alta la loss, más desafinada está la orquesta en ese instante.
- Cuanto más baja, mejor suena.
Es exactamente lo que hace un afinador digital cuando pulsas una cuerda de la guitarra: compara la frecuencia que ha sonado con la frecuencia objetivo y te dice «estás un poco bajo» o «estás un poco alto». La loss hace lo mismo, pero con un modelo entero.
3. Ajustar las cuerdas
Aquí está la pieza no obvia. Hay un algoritmo que, partiendo de ese número (la loss), calcula matemáticamente en qué dirección hay que tensar o aflojar cada una de los miles de millones de cuerdas para que la próxima vez la nota salga más afinada.
- Algunas cuerdas hay que tensarlas un pelín.
- Otras, aflojarlas un pelín.
- Otras, dejarlas como están.
Y el modelo aplica todos esos micro-ajustes a la vez, en una sola pasada. Después de millones de iteraciones (entrada → predicción → loss → ajuste de todas las cuerdas), la orquesta suena cada vez mejor.
A ese proceso de bajar la loss ajustando los pesos se le llama gradient descent («descenso por el gradiente») y al algoritmo concreto que reparte el ajuste por toda la orquesta, backpropagation («retropropagación»). No hace falta retener los nombres. Lo importante es la idea:
«Premiar» o «penalizar» al modelo = tensar o aflojar sus cuerdas internas en la dirección que reduce la loss.
No hay un «bien hecho» simbólico. No hay refuerzo emocional. Hay un número (la loss) y un algoritmo que afina las cuerdas para que la próxima vez ese número sea menor.
Y ahora la pregunta crucial: ¿de dónde sale «la nota objetivo»?
Esta es la pregunta que lo cambia todo, y es lo que separa el pretraining del alineamiento.
En el pretraining: la nota objetivo es gratis
Recuerda: en el pretraining el modelo predice la siguiente palabra. Pues la nota objetivo ya está en el propio texto. Tapas la palabra siguiente, pides al modelo que la adivine, comparas con la palabra real, calculas la loss, afinas. Y repites. Billones de veces.
No hace falta ningún humano. El «afinador» funciona solo. La señal de afinado/desafinado sale automáticamente del propio dato. Internet entero ya lleva incorporada la verdad: la siguiente palabra está siempre ahí, esperando, y eso le sirve al modelo como diapasón.
Por eso el pretraining, aunque es carísimo en cómputo (miles de GPUs durante semanas o meses), no necesita personas dándole feedback constante. Solo texto y máquinas.
En el alineamiento: aquí se acaba el regalo
Y entonces ¿qué pasa cuando le pides al modelo «escribe un poema sobre el otoño» y quieres que lo escriba bien?
- ¿Cuál es la nota objetivo? No hay una. Hay infinitos poemas válidos.
- ¿Cuál es la loss? No la sabes calcular automáticamente. Necesitas a alguien (un humano, otro modelo) que oiga el poema y diga «este suena bien» o «este no».
Y ese es el problema central que toda la familia de técnicas de alineamiento intenta resolver:
Si quiero seguir afinando la orquesta para que toque «bien», pero no tengo un diapasón objetivo, ¿cómo me invento una nota de referencia para poder seguir comparando y afinando?
Cualquier técnica de alineamiento que veas (las viejas, las nuevas, las que vendrán) es siempre una respuesta a esa pregunta. Lo que cambia es de dónde se saca la señal y cuánto cuesta sacarla.
El mapa de las próximas entradas
Cada técnica de alineamiento es una forma distinta de improvisar un afinador cuando no tienes diapasón natural:
- RLHF (Reinforcement Learning from Human Feedback, aprendizaje por refuerzo a partir de feedback humano): se contratan humanos para que comparen pares de respuestas y digan «esta suena mejor que esta otra». Con esos juicios se entrena otra orquesta más pequeña que aprende a puntuar respuestas (un «modelo de recompensa»), y sus puntuaciones se usan como loss.
- RLAIF (Reinforcement Learning from AI Feedback) y Constitutional AI: lo mismo, pero quien compara las respuestas no es un humano caro, es otro modelo siguiendo unos principios escritos.
- DPO (Direct Preference Optimization): ¿para qué pasar por una orquesta intermedia? Se salta el modelo de recompensa y se usan las preferencias humanas directamente para afinar las cuerdas.
- RLVR (Reinforcement Learning from Verifiable Rewards): en algunos dominios (matemáticas, código) sí hay una nota objetivo verificable —«¿el código compila?», «¿el resultado de la suma es correcto?»—. La loss vuelve a ser gratis, como en el pretraining. Es la técnica detrás de los modelos de razonamiento recientes como o1 de OpenAI o DeepSeek-R1.
Cada una resuelve el problema de «no tengo nota objetivo» de una manera distinta, con sus pros y sus contras. Y cada una se inventó (o se popularizó) en un momento concreto, en respuesta a las limitaciones de la anterior. Eso es lo que iremos viendo.
Resumen
- Un LLM por dentro es una orquesta enorme de cuerdas (pesos) que produce una sinfonía: las respuestas.
- «Aprender» = tensar o aflojar las cuerdas para que un número llamado loss baje.
- Para afinar las cuerdas necesitas saber cuál era la nota objetivo.
- En el pretraining, la nota objetivo es gratis: la siguiente palabra del texto. Por eso es escalable.
- En el alineamiento, la nota objetivo no es obvia: depende de juicios sobre qué respuesta es mejor.
- Las técnicas de alineamiento (RLHF, RLAIF, DPO, RLVR…) son distintas formas de improvisar un afinador cuando no tienes diapasón natural.
Próxima entrega
Antes de meternos en las técnicas concretas de alineamiento, conviene parar un momento en una pregunta más operativa: ¿cómo se ven físicamente los datos de entrenamiento? ¿Dónde se guarda la loss? ¿Qué queda dentro del modelo cuando termina el bucle?. Esas preguntas, naturales sobre todo si vienes de programación, las resolvemos en la Parte 3: por dentro del bucle, que sirve de suelo conceptual para todo lo que viene después.
En la Parte 4 entraremos de lleno en la primera de las técnicas serias de alineamiento: RLHF (Reinforcement Learning from Human Feedback, aprendizaje por refuerzo a partir de feedback humano), la que durante años fue el estándar de facto para alinear LLMs y la que está detrás de la primera versión exitosa de ChatGPT. Veremos qué es un «modelo de recompensa», cómo se entrena a partir de preferencias humanas y por qué —aunque funciona— es caro y frágil. Esas limitaciones son las que motivaron todas las técnicas que vendrían después.
