Cómo se entrena un LLM. Parte 5: las grietas de RLHF
RLHF funcionó, pero tiene grietas serias que motivaron todo lo que vino después. Reward hacking, cuello de botella humano, sesgos heredados, PPO frágil y KL como freno y no guardarraíl: las cinco limitaciones estructurales y la respuesta del campo a cada una.

