Una mano sobre una mesa de madera clara señala una de dos burbujas de diálogo recortadas en papel, colocadas lado a lado, indicando una preferencia entre ambas. La burbuja elegida se desvanece hacia la derecha transformándose en partículas de luz que dan forma a una red neuronal estilizada con tonos cálidos, de la que emergen otras burbujas de diálogo luminosas. Metáfora visual del proceso de RLHF: un humano elige entre dos respuestas de chat y ese juicio se integra en el modelo, que aprende a hablar como un asistente conversacional.
IA, LLMs

Cómo se entrena un LLM. Parte 4: RLHF, la maquinaria

La técnica que convirtió GPT-3 en ChatGPT: cómo se afina un modelo a base de comparaciones humanas. Reward model, PPO y por qué noviembre de 2022 cambió todo.