Cómo se entrena un LLM. Parte 3: por dentro del bucle
Qué hay físicamente en los ficheros de entrenamiento de un LLM, dónde queda lo que el modelo aprende y por qué actualizarlo con información nueva no es algo que ocurra solo.
Qué hay físicamente en los ficheros de entrenamiento de un LLM, dónde queda lo que el modelo aprende y por qué actualizarlo con información nueva no es algo que ocurra solo.
Qué pasa físicamente dentro de un LLM cuando se le ‘premia’ o ‘penaliza’. La analogía de la orquesta, la función de pérdida y por qué el alineamiento no es trivial.