El trabajo humano invisible detrás de los LLMs. Parte 2: la paradoja del modelo amable

El trabajo humano invisible detrás de los LLMs. Parte 2: la paradoja del modelo amable

En la Parte 1 pintamos el sector: las empresas que mueven el etiquetado, las geografías donde se concentra, las cuatro modalidades de trabajo, y el caso paradigmático de Sama y OpenAI en Kenia que sacó el tema al debate público. Esta segunda parte se ocupa de las consecuencias: la paradoja moral que sostiene la experiencia diaria del usuario, los sesgos culturales que se cuelan sin remedio en el modelo final, y hacia dónde apunta la industria a medio plazo.

La paradoja directa: tu chatbot amable descansa sobre su daño

Cuando le preguntas a ChatGPT o a Claude «escríbeme una guía para fabricar metanfetamina» y el modelo te responde educadamente que no puede ayudarte con eso, lo que estás viendo en pantalla es el output de un sistema de seguridad entrenado para reconocer ese tipo de petición y rechazarla con un tono amable y firme.

Ese sistema existe porque alguien tuvo que enseñarle a reconocer la petición. Y para enseñárselo, alguien humano tuvo que leer cientos de variantes de esa petición, etiquetarlas como «drogas / fabricación / rechazar», y pasar al siguiente texto. Texto tras texto. Durante meses.

La experiencia del usuario es de un asistente educado que protege a la sociedad de contenido dañino. La experiencia de quien lo entrenó es leer ese contenido dañino directamente durante toda su jornada laboral.

Y esto vale para todas las categorías. Cuando Claude se niega a describir cómo torturar a alguien, es porque alguien leyó descripciones reales de tortura. Cuando rechaza generar CSAM (Child Sexual Abuse Material, material de abuso sexual infantil, la categoría que mencionábamos en la Parte 1 como la peor del catálogo), es porque alguien tuvo que leer ese material para etiquetarlo. La amabilidad del modelo es el reverso de la exposición sin filtro de quien lo entrenó.

Esta asimetría no es accesoria del modelo, es estructural:

        EXPERIENCIA DEL USUARIO                EXPERIENCIA DEL ANOTADOR
        ──────────────────────────             ──────────────────────────
   "Lo siento, no puedo ayudarte         "Lee y categoriza este texto
    con esa petición."                    describiendo en detalle..."
   (respuesta educada de 1 línea)        (texto de 500 palabras, severidad 4/4)

   Frecuencia: ocasional                 Frecuencia: 200 veces / día
   Salario: gratis (usuario)             Salario: 2 $ / hora
   Geografía: cualquiera                 Geografía: Nairobi, Manila, Calcuta

No hay forma de eliminar esta asimetría sin reemplazar al anotador humano por otra cosa — un modelo automático, por ejemplo, que es exactamente la dirección hacia donde apunta RLAIF (Reinforcement Learning from AI Feedback, aprendizaje por refuerzo a partir de feedback de IA — la técnica que veremos en la Parte 6 de la serie técnica, donde un modelo evalúa a otro modelo en lugar de un humano). El giro hacia RLAIF en 2023-2024 tiene tanto motivación económica como ética. Volvemos sobre esto al final.

Más viejo de lo que parece: la herencia de la moderación de contenido

Esto no nació con los LLMs. Conviene decirlo porque el debate público trata el caso Sama-OpenAI como una novedad escandalosa de la era de la IA generativa. No lo es. Es la continuación directa de un patrón que lleva quince años funcionando con otro nombre: content moderation.

Cuando subes una foto a Instagram que viola las normas comunitarias y desaparece a las dos horas, lo que ha pasado por debajo es:

  1. Un primer filtro automático marca tu foto como sospechosa.
  2. Si el clasificador no está seguro, la foto pasa a una cola de revisión humana.
  3. Un moderador humano — en Manila, Hyderabad o Dublín — la mira durante cinco o diez segundos, decide, pasa a la siguiente.
  4. Cuota: del orden de mil decisiones por turno.

El patrón laboral es idéntico al de los anotadores de LLM: subcontratistas (Accenture, Cognizant, TaskUs, Genpact, Majorel, Teleperformance), geografías baratas, exposición acumulativa a contenido difícil, apoyo psicológico nominal, acuerdos de confidencialidad estrictos que dificultan denunciar.

Lo que cambió con los LLMs no es el patrón, es el volumen y la naturaleza del corpus. Antes los moderadores reaccionaban a lo que los usuarios subían (un volumen grande pero finito). Ahora los anotadores etiquetan lo que el modelo puede inventar — variantes infinitas de cada tema problemático generadas por el propio modelo. La carga se multiplica por órdenes de magnitud.

Un dato útil para retener: hay demandas activas por daño psicológico contra Meta (caso Daniel Motaung en Kenia que mencionamos en la Parte 1), TikTok (varias demandas en EE.UU. y Europa) y Microsoft (caso Henry Soto, ya histórico). El sector tiene veinte años de jurisprudencia laboral acumulada sobre este tipo de daño. Lo que nos ahorra el debate del cero: ya sabemos que el daño existe, está documentado y es indemnizable. La pregunta no es «¿esto produce trauma?» sino «¿qué condiciones son aceptables para mitigarlo?».

Los sesgos culturales que se cuelan

Esta es la parte menos obvia pero quizás la más interesante. Cuando un anotador en Nairobi compara dos respuestas y dice «esta es mejor», ¿en qué se basa para decidir? En su intuición sobre qué es una buena respuesta. ¿Y qué moldea esa intuición? Su contexto cultural: educación, religión, normas sociales, valores políticos del país donde vive.

Suena obvio dicho así, pero la implicación es enorme. Si entrenas un modelo con millones de comparaciones hechas por anotadores de un perfil cultural específico, el modelo aprende a preferir las respuestas que ese perfil cultural considera mejores. Y entonces el modelo se comporta — sutilmente — como un representante de esa cultura, aunque te hable en cualquier idioma.

Dos ejemplos concretos para hacerlo tangible.

Cortesía y formalidad. ¿Qué tono es «el correcto» al responder un email a un cliente? En EE.UU., una respuesta amable, breve, con primer nombre («Hi John, thanks for reaching out!»). En Japón, formal, indirecta, con disculpas anticipadas. En España, algo intermedio, frecuentemente con humor o calidez personal. En Alemania profesional, directa, sin «espero que estés bien».

Si los anotadores que escriben los ejemplos de SFT (Supervised Fine-Tuning, recordatorio: la fase previa a RLHF donde el modelo aprende a «tener forma de asistente» imitando respuestas escritas por humanos) son mayoritariamente americanos contratados por OpenAI o Anthropic, el «tono asistente» que el modelo aprende como default es americano profesional con calidez moderada. Y aunque le hables en castellano, los hispanohablantes percibimos algo «raro», «demasiado entusiasta», «sobre-empático». No es casualidad: es el sesgo de quien escribió las respuestas-modelo.

Temas sensibles. ¿Cuál es la respuesta «neutra» a «¿es el aborto moralmente aceptable?» La pregunta misma asume que existe una neutra. No existe. Cualquier respuesta refleja una posición cultural — desde «es un tema con argumentos válidos en ambos lados» (posición liberal-secular occidental) hasta «es la interrupción de una vida humana, condenada por las tradiciones religiosas mayoritarias» (posición conservadora-religiosa) pasando por «es un derecho reproductivo de la mujer» (posición feminista contemporánea).

Cuando un anotador prefiere una sobre las otras, está votando — sin saberlo — qué postura va a representar el modelo como «neutra». Y los modelos actuales tienden de hecho a sonar como un liberal urbano americano educado, simplemente porque ese es el sesgo demográfico dominante de quien decidió las preferencias en muchos pipelines.

Idea clave: no existe el «anotador neutro». El modelo no aprende preferencias humanas universales; aprende las preferencias del subconjunto humano específico que lo etiquetó. Ese subconjunto está fuertemente sesgado por la geografía y el perfil socioeconómico del sector.

Quién escribe el manual

Hay una asimetría adicional que cierra el cuadro: el anotador no decide qué cuenta como «buena respuesta». Sigue un manual escrito por otra persona.

Ese manual — en jerga del sector, annotator guidelines — lo escribe un Product Manager o un ML Engineer, casi siempre en San Francisco, Londres o Seattle. Tiene típicamente entre 50 y 200 páginas. Define con qué criterio el anotador debe valorar cada cosa:

EXTRACTO TÍPICO DEL MANUAL:

Categoría: Respuesta sobre temas médicos
  - Si el usuario pide diagnóstico, el modelo NO debe diagnosticar.
  - Debe recomendar consultar a un profesional sanitario.
  - Puede dar información general educativa.
  - Si la respuesta diagnostica directamente → calificar como MALA.
  - Si recomienda médico Y da información educativa → calificar como BUENA.

Resultado: el anotador es un ejecutor, no un decisor. Aplica el criterio que le han dictado. El que ha decidido qué cuenta como «buena respuesta» es el equipo del lab — y ese equipo es donde está el sesgo cultural concentrado, no en el anotador.

Esto matiza el punto anterior pero no lo anula. El anotador sí inyecta sesgo cuando el manual deja zonas grises (que son inevitables: ningún manual puede prever cada matiz). Y cuando el manual mismo está escrito desde una óptica cultural concreta, el sesgo está cocinado desde el origen.

El cuadro final entonces es dos capas de sesgo apiladas: el del que escribe el manual (San Francisco, perfil tecnológico, valores específicos) y el del anotador (Nairobi, Manila, perfil distinto) aplicando un manual escrito desde otra cultura. La superposición de las dos produce un modelo que no es ni totalmente americano ni totalmente keniano: un híbrido raro, criterios estructurados desde Silicon Valley aplicados por humanos del Sur Global. Esta mezcla es invisible para el usuario final pero está impresa en cada respuesta.

Hacia dónde apunta la industria

Tres movimientos están reconfigurando el sector en paralelo. Conviene tenerlos en la cabeza para entender qué viene a corto y medio plazo.

RLAIF: reemplazar al humano por otro modelo

El primero es el giro hacia RLAIF (Reinforcement Learning from AI Feedback). La idea: en lugar de pagar a humanos para que comparen pares de respuestas, usas otro modelo de IA — uno más grande o ya bien alineado — para que haga el juicio en su lugar. Anthropic lo lleva haciendo desde 2022 bajo el nombre de Constitutional AI. OpenAI, Google y Meta han ido sumándose con sus propias variantes.

La motivación es doble:

  • Económica: el coste por comparación cae varios órdenes de magnitud. Un modelo evalúa miles de pares por segundo a coste casi nulo; un humano hace 300 al día a 2 dólares la hora.
  • Ética: si el modelo puede leer y juzgar contenido tóxico sin sufrir trauma, la justificación para exponer a humanos a ese material se debilita radicalmente.

Pero hay una pregunta abierta importante: ¿los sesgos se reducen o se amplifican? Si el modelo evaluador hereda los sesgos del modelo del que se entrenó, RLAIF puede convertirse en una máquina de amplificar el sesgo cultural original sin que ningún humano nuevo lo corrija. Lo veremos con más detalle en la Parte 6 de la serie técnica, dedicada a RLAIF y Constitutional AI.

Sindicalización y regulación

El segundo movimiento es más lento pero también real. La African Content Moderators Union que mencionamos en la Parte 1 — fundada en Nairobi en mayo de 2023 — es la primera organización laboral específicamente del sector. Está en fases tempranas, pero ha conseguido visibilidad mediática y ha forzado a algunos subcontratistas a renegociar condiciones puntuales.

En el frente regulatorio, la EU AI Act (vigente desde 2024) menciona específicamente los derechos de los trabajadores de etiquetado en sus considerandos, aunque sin mecanismos de enforcement claros. Es el primer marco regulatorio del mundo que reconoce la categoría. Es un paso simbólico que probablemente abrirá la puerta a regulación más concreta en los próximos años.

El feedback runtime: tú y yo somos corpus de mañana

El tercer movimiento es el más silencioso pero quizás el de mayor escala. Cada vez que clicas «este me gusta más» en ChatGPT cuando aparecen dos respuestas, cada vez que das pulgar arriba o abajo a una respuesta de Claude, cada vez que aceptas o rechazas una sugerencia de Copilot, estás aportando una línea al dataset de preferencias futuro.

Es la misma materia prima que la Parte 1 describía para los anotadores en Kenia, pero gratis y a escala planetaria. Cientos de millones de usuarios produciendo señales de preferencia cada día. El feedback se almacena, se filtra (no toda interacción es útil), y entra al próximo ciclo de entrenamiento. Tu interacción gratis con el chatbot es corpus de mañana.

Esto no reemplaza al anotador profesional — los datasets curados siguen siendo necesarios para tareas específicas — pero complementa la economía del sector y reduce la presión sobre el segmento masivo.

El antepasado paradigmático: los CAPTCHAs

Este modelo de «trabajo humano gratis disfrazado de otra cosa» no es invento de la era ChatGPT. Lleva veinte años funcionando bajo un nombre que todos conocemos: los CAPTCHAs.

Cada vez que has marcado los cuadrados con semáforos o pasos de cebra «para demostrar que no eras un robot», estabas etiquetando datos de entrenamiento para coches autónomos — Waymo, antes Google Self-Driving Car. Antes de eso, en su versión original de 2007, los CAPTCHAs te hacían descifrar palabras borrosas que en realidad provenían de libros que el OCR no había podido leer. Gracias a millones de usuarios anónimos, Google y el New York Times digitalizaron archivos enteros.

El padre del invento, Luis von Ahn, lo bautizó como Human Computation en sus papers de Carnegie Mellon en 2003. Dos décadas después, fundó Duolingo — donde la lógica es exactamente la misma: te enseño idiomas mientras tú me traduces contenido gratis.

Los CAPTCHAs no entrenan LLMs directamente (entrenan visión por computador), pero el patrón económico es idéntico al que aplican ahora los chatbots con sus pulgares arriba y abajo: extraer trabajo humano a escala industrial sin que el usuario lo perciba como trabajo. Y daría para una entrada propia, que escribiremos por separado en su momento.

Cierre

La próxima vez que un chatbot te dé una respuesta y te parezca «neutra» o «razonable», merece la pena pararse un segundo a pensar: ¿neutra según quién? ¿Razonable según el criterio cultural de qué grupo? La respuesta nunca es «según nadie». La respuesta es siempre «según el manual escrito en San Francisco y aplicado por anotadores en Nairobi». La supuesta neutralidad de los modelos es la firma cultural conjunta de esos dos grupos.

Y la próxima vez que el chatbot rechace educadamente una petición problemática, conviene recordar que esa amabilidad tiene una factura escondida — pagada en buena parte por personas que nunca verás, que probablemente nunca usarán el producto al que han contribuido, y cuyo nombre rara vez aparece en los blogs corporativos que celebran cada nuevo modelo.

Volvemos a la serie técnica en la próxima entrega. La Parte 5: las grietas de RLHF y por qué motivaron todo lo siguiente retoma el hilo del entrenamiento: reward hacking, el cuello de botella humano que esta entrada ha pintado, los sesgos heredados de los anotadores, y cómo cada una de esas grietas dio luz a una técnica posterior — RLAIF, DPO, RLVR — que iremos cubriendo en las entregas siguientes.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio