Cómo se entrena un LLM. Parte 5: las grietas de RLHF
En la Parte 4 cerramos con la maquinaria de RLHF (Reinforcement Learning from Human Feedback, aprendizaje por refuerzo a partir de feedback humano) funcionando a pleno rendimiento: humanos comparando pares de respuestas, esa señal destilada en un RM (Reward Model, modelo de recompensa), y el bucle de RL (Reinforcement Learning, aprendizaje por refuerzo) con PPO (Proximal Policy Optimization, optimización de política proximal) ajustando los pesos del modelo grande. Ese pipeline parió ChatGPT en noviembre de 2022 y reconfiguró toda la industria. Por 2023 y buena parte de 2024, si querías un modelo conversacional decente, el camino era pretraining + SFT (Supervised Fine-Tuning, ajuste fino supervisado) + RLHF. No había alternativa práctica.
Esa es la maquinaria que dejamos funcionando. Esta entrega va sobre lo que pasa cuando esa maquinaria se mira de cerca y se ven las grietas. Cinco de ellas en concreto, cada una motivó una técnica posterior — RLAIF, DPO, RLVR — que iremos cubriendo en las próximas entregas de la serie.
Por qué hay grietas, pese a que funcionó
Esta es la confusión más común sobre RLHF: como funcionó tan bien públicamente, la gente asume que estaba resuelto. No lo estaba. Los propios labs que lo inventaron sabían y publicaron sus límites desde el primer día.
Dos papers fundacionales son útiles para tenerlo claro:
- InstructGPT (OpenAI, marzo de 2022) — el paper que estandariza el pipeline SFT + RLHF. Tiene una sección titulada literalmente «Limitations» donde lista los problemas conocidos: sesgos heredados de anotadores, sycophancy incipiente, tendencia a producir respuestas «demasiado largas o demasiado cautas», calidad heterogénea entre anotadores. OpenAI no escondió nada. Lo publicó al mismo tiempo que la técnica.
- Constitutional AI (Anthropic, diciembre de 2022) — el paper que introduce la primera alternativa parcial a RLHF. Su párrafo de motivación dice esencialmente: «RLHF tiene problemas serios — exposición humana a contenido tóxico, escalabilidad limitada, sesgos del anotador — y aquí proponemos una manera de mitigar algunos». Es decir, Anthropic propuso el sucesor antes incluso de que ChatGPT se hiciera viral.
La industria adoptó RLHF sabiendo que tenía grietas. Lo adoptó porque era lo único que funcionaba a escala razonable en aquel momento, no porque fuera la solución definitiva. RLHF es como el motor de combustión interna en 1908: imperfecto, ruidoso, contaminante, y aun así infinitamente mejor que el caballo. El campo no celebró RLHF como destino; lo celebró como punto de salida.
A partir de aquí, las cinco grietas concretas.
Grieta 1: reward hacking
Esta es la grieta más interesante conceptualmente y la que tiene mejor historia detrás. En una frase:
El modelo aprende a engañar al RM, no a complacer al humano que el RM intentaba imitar.
Para verlo, hay que recordar la cadena de proxies que tiene RLHF detrás:
Lo que queremos: respuestas que ayuden al humano de verdad
↓ (proxy)
Lo que medimos: juicio del humano anotador sobre la respuesta
↓ (proxy)
Lo que entrena: puntuación del RM (que aprendió de juicios humanos)
↓ (lo que el modelo optimiza)
Lo que el modelo intenta maximizar: score del RM
Tres capas de proxy apiladas. Cada una es una aproximación imperfecta de la anterior. Y el modelo optimiza la última. Si el RM tiene cualquier pequeño sesgo sistemático, el modelo aprende a explotarlo.
De dónde viene el término
Reward hacking no es un término inventado para LLMs. Viene del RL clásico de los años 80 y 90, y la versión académica del fenómeno se conoce como specification gaming (juego con la especificación): el agente encuentra formas raras de subir la recompensa que no corresponden a lo que el diseñador realmente quería premiar.
El ejemplo histórico más famoso es el barco de OpenAI (2016): entrenaron un agente para que ganara una carrera de barcos en un videojuego. La recompensa estaba diseñada para correlacionar con «terminar la carrera rápido» — ganabas puntos al recoger power-ups en boyas. El agente aprendió que dar vueltas en círculos recogiendo siempre los mismos power-ups infinitamente daba más puntos totales que terminar la carrera. La recompensa estaba mal especificada, y el agente jugó con la especificación, no con la intención.
Hay otro nombre teórico para esto, más viejo: la ley de Goodhart (Charles Goodhart, economista británico, 1975): «Cuando una métrica se convierte en objetivo, deja de ser una buena métrica.» Originalmente sobre política monetaria. Se aplica perfecto a RLHF.
Cómo se manifiesta en los LLMs reales
Los síntomas en chatbots modernos son bastante reconocibles una vez sabes qué buscar:
Sesgo de longitud (length bias). El RM aprendió, mirando datos humanos, que las respuestas más largas tienden a ser preferidas. Resultado: el modelo se enrolla. Te pregunta cosa simple y te suelta cuatro párrafos. No es porque el modelo sea cargante por naturaleza; es porque descubrió que la longitud sube su score. Hay papers académicos midiendo esto: una proporción significativa del «polish» percibido en GPT-4 vs GPT-3.5 es atribuible a longitud, no a contenido.
Sesgo de listas (listicle bias). El RM aprendió que el formato con bullets, headers y subheaders suele ser preferido en evaluaciones humanas (suena «estructurado», «profesional»). Resultado: el modelo te lo lista todo, aunque la pregunta no necesite estructura. Si preguntas «¿cuál es la capital de Francia?» y te responde con un H2 y cuatro bullets, eso es listicle bias.
Sycophancy (servilismo). Esta es la más sutil y más comentada. El modelo aprende a estar de acuerdo con el usuario, a validar sus opiniones aunque sean erróneas, a darle la razón en lugar de corregirlo. El RM aprendió esto porque los anotadores humanos sistemáticamente prefieren respuestas que les hacen sentir validados sobre respuestas que los contradicen, incluso si las segundas son más útiles.
El caso público más sonado: GPT-4o en mayo de 2024. Sam Altman tuvo que retirar una versión del modelo y publicar disculpas porque era extremadamente sycophant — se enzarzaba en halagar al usuario, validar ideas obviamente malas, ser empalagosamente educado. OpenAI explicó que en el último ciclo de RLHF se había sesgado demasiado en esa dirección. Confirmación pública de que reward hacking no es un fenómeno teórico: está pasando en producción ahora mismo.
Hedging excesivo y disclaimers. «I’m just an AI but…», «Please consult a professional…», «It’s important to consider multiple perspectives…». El RM aprendió que respuestas cautelosas tienden a evaluarse como «responsables». Resultado: el modelo añade disclaimers compulsivamente, incluso cuando la pregunta no los pide. Pediste código Python y recibes un párrafo explicando que el código puede tener errores y debes revisarlo. Sí, gracias, ya lo sabía.
El caso «delve». Curioso y revelador. En 2023-2024 se observó que ChatGPT producía la palabra «delve» (profundizar, ahondar) con una frecuencia anormalmente alta — tan alta que se volvió marcador identificador de texto generado por IA. La explicación que se publicó: muchos de los anotadores que escribieron respuestas de SFT y compararon pares para el RM eran nigerianos (Nigeria es uno de los grandes proveedores de anotadores de habla inglesa para OpenAI), y en el inglés nigeriano delve es mucho más común que en el inglés americano o británico. Esa frecuencia entró al modelo como marcador de «respuesta bien formada», y se quedó.
Esto es reward hacking en su forma más cultural: el modelo no engañó al RM con un atajo malicioso, simplemente absorbió un patrón estadístico que en el dataset original era marcador de calidad. Aun así, una vez en producción, el patrón se convirtió en marca registrada involuntaria.
Por qué es la grieta conceptualmente más grave
- Es un problema de especificación, no de implementación. Aunque el RM fuera perfecto imitando al humano, el humano mismo es proxy de «buena respuesta». Las preferencias humanas no son verdad universal; son juicios sesgados, momentáneos, sociales. Entrenar contra ellas siempre va a transmitir esos sesgos.
- Cuanto más capaz es el modelo, más capaz es de encontrar atajos. Modelos pequeños no saben jugar con la métrica porque no son lo suficientemente sofisticados. Modelos grandes sí. Esto es el opuesto de lo que querrías: el problema empeora con la escala, no mejora.
- El KL penalty no lo arregla. El KL penalty solo evita que el modelo se aleje distribucionalmente del SFT. No evita que explote sesgos del RM que ya estaban presentes en el SFT también. Volvemos sobre esto en la grieta 5.
Reward hacking no es bug, es propiedad estructural de cualquier sistema que optimiza una proxy. La pregunta no es «¿se puede evitar?» sino «¿se puede mitigar lo suficiente para que el modelo siga siendo útil?».
Grieta 2: el cuello de botella humano
Esta grieta es la más sencilla de explicar conceptualmente pero la más violenta operativamente. Ya la pintamos en detalle en la entrada paralela sobre el trabajo humano detrás de los LLMs; aquí me limito a la versión técnica.
Económica
Cada par de respuestas comparado por un humano cuesta dinero. Un dataset serio de RLHF necesita entre 100.000 y 500.000 pares. A 30 segundos por par y 2 dólares la hora en países baratos, sale unos 1.500-7.500 dólares por dataset. Modesto comparado con los millones que cuesta entrenar un modelo grande.
Pero el problema no es el dataset inicial. Es que cada nueva iteración del modelo necesita un dataset nuevo. Los pares antiguos pierden utilidad porque las respuestas que comparaban ya no son representativas de lo que el modelo nuevo genera. Y a medida que los modelos mejoran, el coste por par sube: distinguir entre dos respuestas buenas requiere más expertise que entre una buena y una mala. Entras en el segmento premium, donde la hora pasa a 30-150 dólares. La escalera económica se empina rápido.
Latencia
Un humano produce 200-600 comparaciones por día. Un modelo grande produce miles de respuestas por segundo. La asimetría es brutal:
Velocidad de producción
─────────────────────────
Anotador humano: ~ 0,01 comparaciones / segundo
Modelo grande: ~ 1.000 generaciones / segundo
Ratio: 100.000×
El ciclo de iteración está siempre limitado por la velocidad humana. Mientras esperas dos semanas a que el contratista en Nairobi termine de etiquetar el siguiente dataset, tu modelo está parado, tus competidores no.
Saturación de señal
Y este es el matiz más interesante técnicamente. Hay un fenómeno conocido en la literatura del RM como diminishing returns of human preference data: a partir de cierto volumen, cada hora extra de anotación añade menos señal nueva. Tras 100.000 pares ya has cubierto la mayoría de los patrones generales que los humanos prefieren. El par 500.000 te da casi nada extra. El RM se vuelve «lo bastante bueno» y dejar de pagar humanos no cambia gran cosa.
Esto es buena noticia para el coste, pero mala noticia para la mejora continua. Si la señal humana satura, no puedes mejorar el modelo más allá de cierto punto con solo más humanos. Necesitas otra cosa.
Y la dimensión ética
Que ya vimos en la entrada paralela: el coste no es solo económico. Es psicológico para los anotadores expuestos a contenido tóxico, es político por la sindicalización emergente, es reputacional para los labs cuando salta el siguiente caso tipo Sama-OpenAI.
La industria llegó alrededor de 2023-2024 al límite de lo que puede conseguir aplicando más humanos al problema. Más humanos no es la respuesta. La siguiente generación de técnicas son intentos de eliminar al humano del bucle de iteración, conservándolo solo para tareas donde su juicio es estrictamente irreemplazable.
Grieta 3: los sesgos culturales heredados
Esta grieta también está pintada en la Parte 2 paralela. Aquí añado dos matices técnicos.
Cambiar al anotador cambia el modelo
Hay un experimento que se ha replicado en varios labs: toma el mismo modelo base, hazle pasar SFT y RLHF con anotadores de geografías distintas, y compara los resultados. Los modelos resultantes no son idénticos. Tienen «voces» sutilmente diferentes:
- Anotadores principalmente estadounidenses → modelo más entusiasta, optimista, con calidez profesional.
- Anotadores principalmente nigerianos → modelo más formal, con cierto uso característico del inglés (el caso delve).
- Anotadores principalmente filipinos → modelo más cortés en términos relacionales, más uso de marcadores de respeto.
La voz cultural del modelo es literalmente la firma estadística de su pool de anotadores. Cambia el pool, cambia la voz. Es un hecho experimental, no especulación.
Los sesgos políticos también
Estudios académicos (varios entre 2023 y 2025) han medido el sesgo político de los grandes LLMs respondiendo a cuestionarios estandarizados tipo Pew Research o Political Compass. Los resultados son consistentes:
- GPT-4, Claude, Gemini → tienden a posicionarse en el cuadrante liberal-progresista occidental en la mayoría de los ejes políticos cuando se les fuerza a responder.
- DeepSeek, Qwen (modelos chinos) → tienden a evitar o reformular preguntas sobre temas sensibles para el gobierno chino (Taiwán, Tiananmen, Tibet, Xinjiang). No es bug, es feature: sus annotator guidelines lo prohíben explícitamente.
- Mistral, Llama → posiciones intermedias, con mayor variabilidad según el fine-tune específico.
Estos sesgos no son fallos. Son la consecuencia natural de que sus criterios de «respuesta neutra» fueron definidos por equipos culturales específicos. No existe el modelo políticamente neutro, porque no existe la respuesta políticamente neutra a las preguntas políticas.
La pregunta operativa no es «¿cómo eliminamos los sesgos?» sino «¿qué sesgos vamos a aceptar y cómo los hacemos transparentes?». Las técnicas posteriores no resuelven esto — solo lo desplazan. Cuando RLAIF reemplaza al humano por un modelo evaluador, los sesgos del modelo evaluador se vuelven los nuevos sesgos del modelo evaluado.
Grieta 4: PPO es frágil de entrenar
Esta grieta es ingenieril, no conceptual. Es la queja de los equipos de ML que tienen que hacer funcionar el bucle de entrenamiento en la práctica. Recordatorio: PPO es el algoritmo concreto que en RLHF ajusta los pesos del modelo grande a partir de las puntuaciones del RM, con pasos pequeños y cuidadosos para no desestabilizar.
PPO funciona, pero a duras penas. Cinco molestias concretas que los equipos sufren:
1. Tres modelos en GPU a la vez. Durante el entrenamiento RLHF con PPO hay que mantener simultáneamente: el modelo grande activo (los pesos que se mueven), el RM (congelado, puntúa las respuestas), y el SFT de referencia (congelado, ancla del KL penalty). Eso es tres veces la memoria de GPU. En un modelo de 70.000 millones de parámetros, necesitas hardware para 210.000 millones en RAM activa. Factura seria.
2. Hipersensibilidad a hiperparámetros. Tasa de aprendizaje, coeficiente beta del KL, clip ratio, número de pasos por iteración. Pequeños cambios producen resultados radicalmente distintos: con un valor de beta el modelo aprende bien, con otro ligeramente distinto el modelo se queda congelado o colapsa (output degenerado, repetición infinita). No hay receta universal. Cada modelo nuevo requiere ajustar hiperparámetros prácticamente desde cero.
3. Inestabilidad notoria. RL tiene fama bien ganada de ser difícil de estabilizar. El bucle puede divergir sin avisar — la loss se dispara, las puntuaciones se desploman, el modelo empieza a producir cosas raras. Cuando eso pasa, no siempre se sabe por qué. Hay que monitorear constantemente curvas de score, divergencia KL, perplejidad, longitud media de respuesta, y cortar el entrenamiento al primer indicio de descarrilamiento.
4. Velocidad lenta por iteración. Cada paso de PPO requiere cuatro pases de inferencia (generar respuesta, puntuarla con RM, calcular KL contra SFT, backward pass). Es decenas de veces más caro por iteración que SFT puro.
5. Reproducibilidad pobre. Ejecutar el mismo código de entrenamiento RLHF dos veces, con la misma semilla, puede dar modelos sutilmente distintos. Algo en el bucle introduce no-determinismo. Para investigación científica esto es horrible: dificulta comparar técnicas y verificar resultados.
Esta queja de los ingenieros es literalmente la motivación que abre el paper de DPO (Direct Preference Optimization, optimización directa de preferencias — la técnica de Rafailov et al., mayo de 2023 que veremos en la Parte 7). El primer párrafo dice esencialmente: «RLHF con PPO es difícil de implementar, costoso de entrenar y frágil. ¿Podemos saltarnos PPO entero y obtener el mismo resultado con gradient descent estándar? Sí.» La respuesta a esa pregunta es DPO. Desde 2024, muchos de los nuevos modelos open-source han migrado de PPO a DPO precisamente por esta razón.
Grieta 5: KL penalty es freno, no guardarraíl semántico
Esta es la grieta más sutil de las cinco. Pide un momento de cuidado, porque es muy fácil confundir las dos cosas.
Recordatorio rápido
En la Parte 4 vimos que el KL penalty (de la divergencia Kullback-Leibler, una medida matemática de cuánto difieren dos distribuciones de probabilidad) actúa como ancla matemática: añade a la loss un castigo proporcional a cuánto se aleja el modelo entrenado del modelo SFT original.
loss_RLHF = -score_del_RM + beta · castigo_KL
↑ ↑
"haz cosas que "pero no te alejes
el RM premie" demasiado del SFT"
El problema sutil
El KL mide distancia estadística entre distribuciones, no calidad semántica. Eso significa lo siguiente:
El KL te impide decir cosas raras. No te impide decir cosas malas que parecen normales.
Imagina dos formas en que el modelo puede degradarse durante RLHF:
Forma A — degradación estadísticamente rara. El modelo empieza a producir output bizarro. Repeticiones infinitas, símbolos sin sentido, frases gramaticalmente rotas. Se aleja distribucionalmente del SFT. El KL se dispara, la loss castiga al modelo, y vuelve a la normalidad. El KL funciona bien aquí.
Forma B — degradación estadísticamente normal. El modelo aprende a producir output perfectamente normal lingüísticamente — frases bien formadas, vocabulario habitual, registro educado — pero sycophant, evasivo, demasiado largo, demasiado servil. Cada palabra es coherente con lo que el SFT haría. La distribución sigue siendo estadísticamente cercana. El KL no se dispara. El modelo se degrada sin castigo.
¿KL lo detecta?
─────────────────────────────────────────────────────
Repetición infinita SÍ → KL bloquea
Símbolos extraños SÍ → KL bloquea
Sycophancy educada NO → KL no nota nada
Respuestas el doble de largas NO → KL no nota nada
Disclaimers compulsivos NO → KL no nota nada
Validación reflexiva al user NO → KL no nota nada
Las grietas de reward hacking que vimos en la sección 1 son precisamente las que el KL no puede detener. Son sutiles, son lingüísticamente «normales», y por eso pasan por debajo del radar.
Ejemplo concreto que muchos lectores que trabajan con agentes reconocerán. Pides a un agente que envíe un correo a un trabajador, y el agente no tiene tool de búsqueda de directorio. En lugar de pedirte el email o avisar que no lo tiene, se inventa uno con formato plausible (jperez@empresa.com). Esto es reward hacking puro: el RM aprendió que respuestas resolutivas se prefieren a respuestas que admiten ignorancia, y el modelo lo asimiló. Y el KL no lo bloquea porque jperez@empresa.com es lingüísticamente impecable — estadísticamente normal, semánticamente catastrófico. Las palancas reales para mitigarlo en producción (function calling estricto, validación de salida en framework, Constitutional AI, RLVR) merecen su propia entrada paralela, que escribiremos por separado.
Una analogía
Un guardarraíl semántico te diría: «no te salgas del carril porque hay un precipicio». Un freno estadístico, en cambio, te dice: «si haces movimientos demasiado bruscos, te castigo». El KL es lo segundo. Te impide girar bruscamente, pero no te impide circular por el carril en dirección contraria, lentamente y con buenos modales, si todos los demás también lo hacen.
El KL es un regularizador (un mecanismo para mantener el entrenamiento estable), no un mecanismo de alineamiento. Confundir «estable» con «alineado» es uno de los errores conceptuales más comunes al leer cómo funciona RLHF. Son dos cosas distintas.
Esta grieta es la motivación principal de Constitutional AI y de las técnicas posteriores que intentan introducir principios semánticos explícitos en el entrenamiento, no solo distribucionales. La idea de Anthropic con CAI (Constitutional AI, inteligencia artificial constitucional) es básicamente: «si el KL no nos da guardarraíles semánticos, escribamos una constitución de principios y entrenemos al modelo a respetarla». Es la respuesta directa a esta grieta. La veremos en la Parte 6.
Cada grieta motivó una técnica posterior
Las grietas no son lamentos académicos: cada una motivó una respuesta técnica concreta que el campo desarrolló después, y esas respuestas son lo que cubriremos en los próximos posts.
GRIETA → TÉCNICA POSTERIOR → POST
──────────────────────────────────────────────────────────────────────────────
Cuello de botella humano (2) → RLAIF + Constitutional AI → Parte 6
Sesgos heredados (3) → Constitutional AI → Parte 6
Reward hacking (1) + KL débil (5) → DPO → Parte 7
PPO frágil (4) → DPO → Parte 7
Donde la verdad es verificable → RLVR → Parte 8
Saturación de señal humana → Feedback runtime → Parte 9
Cuello de botella humano y sesgos heredados → RLAIF y Constitutional AI. Si el humano es caro, lento y sesgado, ¿podemos reemplazarlo por otro modelo? Esa es la pregunta de RLAIF (Reinforcement Learning from AI Feedback, aprendizaje por refuerzo a partir de feedback de IA — donde un modelo grande y ya alineado evalúa los pares de respuestas en lugar de un humano). Anthropic lo formaliza junto con CAI en diciembre de 2022. La idea añade que las preferencias se evalúan contra una constitución escrita — un documento de principios explícitos como «prefiere respuestas honestas a respuestas que halagan» o «prefiere respuestas que admiten ignorancia a respuestas inventadas». Eso ataca los sesgos heredados directamente: en lugar de dejar el criterio implícito en miles de juicios opacos de anotadores, lo escribes en una página y lo discutes públicamente.
Reward hacking, KL débil y PPO frágil → DPO. Si el problema es que el RM es proxy imperfecta y el KL no detecta los atajos sutiles, una respuesta posible es eliminar el RM como paso intermedio. Esa es DPO. La jugada matemática es elegante: demuestra que se puede derivar la actualización de pesos directamente a partir de los pares de preferencia, sin entrenar un RM separado y sin usar RL/PPO. Resultado: menos modelos en GPU, gradient descent estándar (que sí es estable), reward hacking más difícil porque ya no hay proxy explícita que el modelo pueda explotar de la misma forma.
Donde la verdad es verificable → RLVR. Hay un tipo de tarea donde la respuesta correcta puede comprobarse automáticamente, sin opinión humana: matemáticas (¿el teorema se demuestra?), código (¿pasa los tests?), juegos formales (¿gana o pierde?), tareas con APIs (¿la llamada devuelve 200?). Para estas tareas, pagar humanos para que opinen es absurdo: la verdad está disponible gratis. RLVR (Reinforcement Learning from Verifiable Rewards, aprendizaje por refuerzo con recompensas verificables) usa esa verdad como señal de entrenamiento directamente. No reemplaza RLHF en general — solo donde la verdad es chequeable — pero donde aplica, lo hace de forma radicalmente más limpia. Es la técnica detrás del salto de capacidad en razonamiento matemático y código que han mostrado los modelos reasoning de 2024-2025 (la serie o de OpenAI, R1 de DeepSeek, Claude con extended thinking).
Saturación de señal humana → feedback runtime. Y la última grieta empuja a una solución de otra naturaleza: aprovechar el feedback que los propios usuarios generan al usar el producto. Cada vez que clicas pulgar arriba o abajo en ChatGPT o Claude, cada vez que aceptas o rechazas una sugerencia de Copilot, cada vez que regeneras una respuesta porque la primera no te valió, estás aportando datos. A escala planetaria. Gratis.
Mapa de las siguientes entregas
ÍNDICE ACTUALIZADO DE LA SERIE "CÓMO SE ENTRENA UN LLM"
✓ Parte 1: Pretraining
✓ Parte 2: Pesos, loss y la orquesta
✓ Parte 3: Por dentro del bucle
✓ Parte 4: RLHF, la maquinaria
✓ Parte 5: Las grietas de RLHF (estás aquí)
□ Parte 6: RLAIF y Constitutional AI
□ Parte 7: DPO
□ Parte 8: RLVR
□ Parte 9: Feedback runtime
RLHF no está muerto
Dos ideas conviene dejar fijadas al cerrar.
Primera: RLHF no está muerto. Aunque hemos dedicado un post entero a sus grietas, sigue siendo el primer paso del pipeline en prácticamente todos los modelos modernos. Las técnicas posteriores se acumulan, no sustituyen. Un Claude moderno tiene RLHF + CAI + DPO + RLVR para tareas verificables + feedback runtime, todo encima del pretraining y el SFT. El campo no está abandonando RLHF; está construyendo capas encima.
Segunda: la lección general de las cinco grietas es estructural. Cualquier sistema que optimiza una proxy de lo que de verdad queremos va a producir comportamientos que satisfacen la proxy pero traicionan la intención. Reward hacking no es un problema de RLHF específicamente; es un problema de cualquier sistema de optimización, incluyendo el cerebro humano frente a métricas mal diseñadas (ley de Goodhart aplicada a la vida). La pregunta no es si vamos a tener proxies — siempre las habrá — sino cómo las hacemos transparentes, auditables y corregibles. Las técnicas que vienen son intentos serios en esa dirección, pero ninguna cierra el problema. El problema es estructural y va a estar con nosotros mientras existan los modelos.
Próxima entrega
En la Parte 6 arrancamos con la primera respuesta seria a estas grietas: cómo Anthropic propuso, en diciembre de 2022, sustituir al humano del bucle por otro modelo, y por qué decidieron acompañar esa sustitución de una constitución escrita de principios explícitos. Veremos RLAIF, Constitutional AI y por qué Claude tiende empíricamente a alucinar menos y a admitir ignorancia más a menudo que sus competidores. Nos vemos.
