Cómo se entrena un LLM. Parte 2: cómo se le dice al modelo «esto está bien»
Qué pasa físicamente dentro de un LLM cuando se le ‘premia’ o ‘penaliza’. La analogía de la orquesta, la función de pérdida y por qué el alineamiento no es trivial.
Qué pasa físicamente dentro de un LLM cuando se le ‘premia’ o ‘penaliza’. La analogía de la orquesta, la función de pérdida y por qué el alineamiento no es trivial.