¿Alguna vez te has preguntado qué tan inteligente es realmente una Inteligencia Artificial en comparación con un experto humano? A menudo escuchamos sobre exámenes de abogacía o medicina, pero hay una prueba que es el «jefe final» de los benchmarks de IA: el GPQA Diamond.
Hoy analizamos el gráfico de Epoch AI, una visualización fascinante que muestra la carrera desenfrenada de modelos como GPT-4, Claude y Gemini por alcanzar (y superar) el nivel de razonamiento de un doctorado en ciencias.
¿Qué es exactamente el GPQA Diamond?
Para entender el gráfico, primero debemos entender la prueba. GPQA significa Graduate-Level Google-Proof Q&A (Preguntas y Respuestas de Nivel Posgrado a prueba de Google).
No son preguntas de cultura general. Son problemas de biología, física y química diseñados por expertos con doctorados (PhD). Tienen dos características clave:
- A prueba de Google: No puedes encontrar la respuesta simplemente buscando en internet. Requieren un razonamiento profundo.
- Nivel Diamond: Es el subconjunto de preguntas de «alta calidad», donde los expertos humanos coinciden en la respuesta, pero los no expertos fallan estrepitosamente.
Desglosando el gráfico: ¿Qué significan los ejes?
Al observar la imagen, vemos una clara tendencia ascendente. Aquí te explico cómo leerlo:
1. El Eje Vertical (Puntuación)
Mide la precisión de las respuestas. Aquí hay dos líneas invisibles que debes conocer:
- 25% (Línea base): Dado que son preguntas de opción múltiple con 4 respuestas, un mono adivinando sacaría un 25%.
- ~70% (La meta humana): Los científicos con doctorado que realizan esta prueba obtienen, en promedio, un 69.7%. Este es el «Estándar de Oro» que la IA intenta alcanzar.
2. El Eje Horizontal (Tiempo)
Muestra la fecha de lanzamiento de los modelos. Lo que vemos es una curva de aceleración. Hace apenas unos años, los modelos apenas superaban el azar. Hoy, los modelos de frontera (los puntos más altos a la derecha) están escalando agresivamente hacia la marca del 70%.
¿Por qué importa esto para el futuro?
Este gráfico no es solo números; es la evidencia visual de que la capacidad de razonamiento científico de la IA está dejando de ser una herramienta básica para convertirse en un colaborador de nivel experto.
Cuando la línea de la IA cruce consistentemente el umbral de los expertos humanos en el GPQA Diamond, habremos entrado oficialmente en una nueva era de descubrimiento científico acelerado por inteligencia artificial.
