Cómo se entrena un LLM. Parte 4: RLHF, la maquinaria
La técnica que convirtió GPT-3 en ChatGPT: cómo se afina un modelo a base de comparaciones humanas. Reward model, PPO y por qué noviembre de 2022 cambió todo.
La técnica que convirtió GPT-3 en ChatGPT: cómo se afina un modelo a base de comparaciones humanas. Reward model, PPO y por qué noviembre de 2022 cambió todo.