Una mano ajusta con precisión una clavija de un piano de cola moderno con la tapa abierta, dejando ver todas las cuerdas iluminadas por luz natural. Metáfora visual del proceso de afinar los pesos internos de un LLM durante el entrenamiento.
IA, LLMs

Cómo se entrena un LLM. Parte 2: cómo se le dice al modelo «esto está bien»

Qué pasa físicamente dentro de un LLM cuando se le ‘premia’ o ‘penaliza’. La analogía de la orquesta, la función de pérdida y por qué el alineamiento no es trivial.