Por qué NVIDIA: el chip, el foso CUDA y la fiebre del compute

Por qué NVIDIA: el chip, el foso CUDA y la fiebre del compute

En junio de 2024, una empresa que la mayoría del público desconocía hace cinco años superó brevemente a Apple y Microsoft como la empresa más valiosa del mundo, alcanzando una valoración de 3,3 billones de dólares (con b de billón europeo, 3,3 × 10¹²). Esa empresa es NVIDIA, y se hizo rica vendiendo tarjetas gráficas a otras empresas que entrenan modelos de inteligencia artificial. La pregunta natural es: ¿por qué precisamente NVIDIA, y no Intel, AMD, Apple o un consorcio japonés? La respuesta tiene dos capas — una de silicio y una de software — y la segunda es la verdaderamente interesante.

Pero antes de entrar en eso, conviene poner orden en algo que el lector probablemente ya intuye. Si te dedicas a la tecnología de cerca o de lejos, en los últimos cinco años habrás vivido tres episodios de «escasez de chips» aparentemente inconexos. Vale la pena entender por qué están relacionados.

Tres episodios que parecían inconexos

Episodio 1 — La escasez de tarjetas gráficas (2020-2022)

Comprar una GPU (Graphics Processing Unit, unidad de procesamiento gráfico — el chip que hay dentro de las tarjetas gráficas para juegos) se volvió carísimo y casi imposible. Una NVIDIA RTX 3080 con precio oficial de 700 dólares se vendía en eBay a 1.500-2.000. Listas de espera de meses, sorteos en tiendas, reventa en masa.

La causa principal no eran los juegos. Era el minado de criptomonedas, específicamente Ethereum, que en aquel momento se «minaba» con GPUs de NVIDIA. Cada GPU instalada en una granja de minería generaba ingresos pasivos diariamente. Los mineros las compraban por miles; los gamers no podían competir. En septiembre de 2022, Ethereum hizo «The Merge» y dejó de usar GPUs para minar. De un día para otro, millones de GPUs usadas inundaron el mercado y los precios se desplomaron. La escasez se acabó casi instantáneamente.

Episodio 2 — La escasez de chips en automoción (2021-2022)

Toyota, Ford, Volkswagen y GM pararon líneas de producción enteras durante meses porque «no había chips». Plazos de entrega de coches nuevos pasaron de 2 a 12 meses. Causa completamente distinta a la anterior: durante los primeros meses de COVID, los fabricantes de coches anticiparon una caída de ventas y cancelaron sus pedidos a TSMC, Samsung y otros fabricantes asiáticos. Esos fabricantes recolocaron la capacidad liberada hacia electrónica de consumo — laptops, móviles, consolas — que sí explotó con el confinamiento. Cuando la demanda de coches se recuperó antes de lo previsto, no había forma de «encender la fábrica» rápidamente. Resultado: los coches modernos llevan entre 1.000 y 3.000 chips cada uno; faltar uno solo de ellos te impide cerrar el coche. Líneas paradas durante meses.

Esto era un problema de capacidad global de manufactura mezclado con una decisión torpe de pedidos. Era de chips «viejos» y baratos (28nm, 40nm), no de los chips top de NVIDIA.

Episodio 3 — La fiebre de GPUs para IA (2023 → presente)

Cada vez que oyes hablar de NVIDIA batiendo récords de ingresos trimestrales, o que su CEO Jensen Huang aparece con su eterno chaquetón de cuero, la causa es esta. OpenAI, Anthropic, Google, Meta, xAI: todos los grandes laboratorios de IA están comprando GPUs de NVIDIA por miles de millones de dólares cada uno. Microsoft compró unas 150.000 H100 en 2023. Meta anunció a inicios de 2024 que tendría 350.000 H100 para finales de año. xAI construyó en Memphis un cluster con 100.000 H100 en pocos meses. No son cifras periodísticas exageradas: son datos públicos de las propias empresas en sus presentaciones a inversores.

El hilo común

Los tres episodios son distintos en su causa inmediata, pero comparten un mismo paisaje estructural:

PROBLEMA ESTRUCTURAL COMÚN
─────────────────────────────────────────────
1. La fabricación de chips está ULTRA-CONCENTRADA.
   - Diseño: NVIDIA, AMD, Intel, Apple, Qualcomm (5 empresas, 4 países).
   - Fabricación: TSMC (Taiwán) y Samsung (Corea) producen el 80% del
     silicio avanzado del mundo.

2. La capacidad de fabricación TARDA AÑOS EN ESCALARSE.
   - Una fábrica de chips nueva tarda 2-5 años en construirse.
   - Una fábrica moderna cuesta entre 15.000 y 30.000 millones de dólares.

3. La demanda es EXTREMADAMENTE VOLÁTIL.
   - Cripto en 2021, automoción en 2022, IA en 2023+.
   - Cada vez que cambia el viento, una industria entera se queda sin chips
     porque otra se los está llevando.

Cuando esa infraestructura tiene un shock de demanda en algún sector, la consecuencia es escasez y precios disparados en algún punto de la cadena. Y eso, precisamente, es lo que hace que el control sobre los chips top sea hoy la palanca geopolítica más importante del mundo. Esta entrada se centra en por qué NVIDIA es la pieza dominante de ese tablero. La parte geopolítica del tablero — Taiwán, controles de exportación a China, DeepSeek — la dejamos para una entrada futura.

Qué vende NVIDIA exactamente

Empecemos por algo concreto: cuando hablamos de «chips de NVIDIA para IA», ¿de qué objeto físico estamos hablando?

Qué es una GPU, en términos de cocina

Tu ordenador tiene dos tipos de chips de cálculo:

  • Una CPU (Central Processing Unit, unidad central de procesamiento) — el «cerebro» general del ordenador. Lo que tiene Intel o AMD en su versión clásica. Está optimizada para hacer una cosa muy compleja a la vez, muy rápido. Si pudiera personificarse, sería un cocinero solista virtuoso: prepara platos elaboradísimos, paso a paso.
  • Una GPU — un chip especializado en hacer miles de cosas simples a la vez. Si la CPU es un cocinero solista, la GPU es una brigada de mil pinches picando cebolla todos a la vez. Cada pincho hace algo trivial; juntos producen una cantidad de trabajo brutal.

Una analogía musical complementaria: la CPU es un pianista solista tocando una sonata; la GPU es una orquesta de mil violinistas tocando todos al unísono una nota muy simple.

Por qué nació la GPU y por qué acabó entrenando IA por accidente

Las GPUs no se inventaron pensando en IA. Se inventaron en los años 90 para los videojuegos. Concretamente, para hacer miles de veces por segundo una operación matemática específica: multiplicar matrices. Cuando un juego renderiza un personaje en 3D, lo que está haciendo por debajo es transformar miles de pequeños triángulos (los «polígonos» del modelo) aplicándoles operaciones matriciales que los rotan, escalan y proyectan en pantalla. Sesenta veces por segundo, para que la imagen sea fluida. La GPU se diseñó para eso: paralelismo masivo de matemática simple.

Aquí viene la casualidad histórica más feliz de los últimos veinte años: una red neuronal, por dentro, también es básicamente multiplicaciones de matrices gigantes. Cada vez que un LLM (Large Language Model, modelo grande de lenguaje) genera la siguiente palabra, lo que está haciendo por debajo son cientos de multiplicaciones de matrices. Exactamente la operación para la que las GPUs estaban optimizadas desde los 90.

Cuando los investigadores de IA empezaron a entrenar redes neuronales en serio alrededor de 2012 (el momento histórico tiene nombre: AlexNet, el primer modelo de visión por computador que ganó por goleada el concurso ImageNet usando GPUs), descubrieron que el hardware barato para gamers era 10-50 veces más rápido para entrenar redes que las CPUs caras de servidor. Fue un accidente. Pero un accidente decisivo: a partir de 2012, toda la IA moderna se entrena con GPUs.

El catálogo actual

Saltando a hoy, lo que se vende para entrenar modelos grandes:

GeneraciónAñoMemoriaPrecio aprox.Uso
A100202040-80 GB10.000 $Generación anterior, todavía en uso
H100202280 GB25.000-40.000 $El estándar actual para entrenamiento serio
H2002024141 GB30.000-45.000 $H100 con más memoria
B100 / B2002024-2025192 GB40.000-50.000 $Generación Blackwell, lo más nuevo

El precio es por unidad. Una sola tarjeta. Un H100 cuesta como un coche familiar nuevo y pesa unos tres kilos.

Cuántas hacen falta para entrenar algo serio

Aquí se entiende el negocio. Un modelo grande no se entrena con una GPU. Se entrena con miles a la vez, todas trabajando coordinadas durante semanas o meses.

Para entrenar un modelo moderno:
─────────────────────────────────
Modelo pequeño (Llama-7B)        :     500-2.000 H100s    ×  semanas
Modelo mediano (GPT-3 clase)     :   5.000-10.000 H100s   ×  meses
Modelo grande (GPT-4 / Claude)   :  25.000-100.000 H100s  ×  meses
Estimación GPT-5 / Claude próx.  : 100.000-500.000 H100s  ×  meses

Cuentas básicas: 100.000 H100 a 30.000 $ cada uno = 3.000 millones de dólares solo en hardware. Sin contar electricidad (cada H100 consume unos 700 W; 100.000 unidades = 70 megavatios continuos, suficiente para una ciudad pequeña), refrigeración líquida industrial, edificio especializado, redes internas de fibra óptica de 400 Gbps, ni personal cualificado.

El gran cambio cultural del sector: hace cinco años, lo más caro de hacer una empresa de IA era contratar talento. Hoy lo más caro con diferencia es comprar GPUs. Compute (la jerga del sector para «horas de GPU disponibles») es el nuevo petróleo del campo. Quien tiene más compute, gana.

NVIDIA, vendedor de palas en la fiebre del oro

Hay una analogía que se ha vuelto famosa: durante la fiebre del oro de California en 1849, los que se hicieron ricos no fueron mayoritariamente los mineros, sino los que les vendían las palas, las picas y los pantalones. Levi Strauss fundó su empresa de vaqueros vendiendo pantalones a los mineros.

En la fiebre actual de la IA, NVIDIA es Levi Strauss. No entrenan modelos ellos mismos; venden las palas (las GPUs) a todos los demás. Y como las palas cuestan 30.000 dólares cada una y todos las quieren al mismo tiempo, NVIDIA es la empresa que más dinero está ganando del boom de la IA — mucho más que OpenAI, Anthropic, Google o Meta. En 2024 sus ingresos trimestrales crecieron un 250% interanual, varios trimestres seguidos. Por eso en junio de 2024 superó brevemente a Apple y Microsoft como la empresa más valiosa del mundo.

Hasta aquí, lo que NVIDIA es físicamente: el chip, qué hace, cuánto cuesta, quién lo compra. La pregunta que abre la siguiente sección es: ¿por qué NVIDIA y no otro? Porque AMD vende chips comparables en potencia bruta. Intel también lo intenta. Apple tiene chips potentísimos. La respuesta no está en el silicio.

El verdadero foso: CUDA

La apuesta visionaria de Jensen Huang en 2006

Pongámoslo en contexto. En el año 2006, las GPUs servían exclusivamente para jugar a videojuegos. Si querías hacer cálculo científico, simulación de moléculas, predicción meteorológica, lo que fuera, usabas CPUs en supercomputadores. Las GPUs eran herramientas de un solo propósito.

En ese momento, Jensen Huang (CEO de NVIDIA) toma una decisión que en 2006 parecía absurda: invertir cientos de millones de dólares en construir un ecosistema de software que permitiera programar las GPUs para hacer cualquier cosa, no solo gráficos. El proyecto se llamó CUDA (Compute Unified Device Architecture, arquitectura unificada de cómputo) y se lanzó en 2007.

¿Para qué? En 2006-2007, nadie lo sabía. La idea era abrir la puerta a usos científicos, simulación, finanzas cuantitativas. El mercado existente para eso era pequeño. La inversión inicial fue una apuesta a ciegas: estamos construyendo una infraestructura para un mercado que aún no existe.

Pasaron seis años antes de que la apuesta empezara a pagar. En 2012, los investigadores de Toronto que entrenaron AlexNet lo hicieron con CUDA sobre tarjetas NVIDIA, porque CUDA era el único entorno maduro que les permitía programar GPUs para algo distinto a juegos. A partir de ese momento, todo el campo de la IA empezó a entrenar con NVIDIA, no porque las tarjetas fueran intrínsecamente mejores, sino porque eran las únicas que tenían software decente para ese propósito.

Mirando hacia atrás, la decisión de Huang de invertir en CUDA en 2006 es probablemente la jugada empresarial mejor pagada de las últimas dos décadas. Sin CUDA, NVIDIA hoy sería un fabricante de tarjetas para gamers como tantos otros. Con CUDA, es la empresa más valiosa del mundo.

Qué es CUDA exactamente

CUDA no es un producto que compres. Es todo un ecosistema de software que NVIDIA ofrece gratis (o casi) y que incluye:

CUDA ecosystem (lo que un programador usa para hablarle a la GPU):
─────────────────────────────────────────────────────────────────
1. Un lenguaje de programación  (extensión de C/C++)
2. Drivers de bajo nivel        (NVIDIA driver, comunica con la GPU)
3. Librerías matemáticas        (cuBLAS, cuDNN, cuFFT, cuSPARSE...)
4. Compilador específico        (nvcc)
5. Herramientas de debugging    (Nsight, profilers...)
6. Documentación masiva         (miles de páginas, actualizada)
7. Ejemplos y tutoriales        (cientos, disponibles desde 2007)

Todo eso lleva 18 años acumulándose y mejorándose. Cada año NVIDIA invierte en mantenerlo, ampliarlo, optimizarlo. Y crucialmente: todo el ecosistema externo de la industria está construido encima:

  • PyTorch (el framework más usado para investigación en IA, mantenido por Meta) se desarrolla con CUDA como primer ciudadano. Las nuevas features salen primero en CUDA y meses después en otras plataformas, si llegan.
  • TensorFlow y JAX (de Google): igual.
  • Cada nuevo paper de investigación en IA llega con código en GitHub que asume CUDA. Si tienes NVIDIA, descargas, ejecutas, funciona. Si tienes AMD, tienes que portar manualmente, descubrir qué funciones no existen, parchear, debuggear. Días o semanas extra por cada paper.
  • Stack Overflow, foros, blogs, tutoriales: el 95% del contenido de ayuda online asume CUDA.

La analogía que cierra el cuadro

Imagina dos restaurantes que quieren competir. El restaurante NVIDIA lleva 18 años en el mismo local, con la misma cocina, las recetas perfeccionadas, los cocineros que llevan décadas trabajando juntos. El restaurante AMD acaba de abrir con un chef talentosísimo y una cocina más moderna.

El chef de AMD puede ser mejor. Las recetas pueden ser técnicamente superiores. Y aun así, la mayoría de la gente sigue yendo a NVIDIA porque ya saben qué pedir, conocen el menú, las comandas salen sin sobresaltos. Cambiar implica reaprender todo.

En jerga de negocio esto se llama lock-in (atrapamiento). Microsoft hizo exactamente lo mismo con Office: el formato .docx y .xlsx atrapa al usuario más que el producto. Aunque haya alternativas (LibreOffice, Google Docs), cambiar implica problemas de compatibilidad con todos los demás. NVIDIA hizo con CUDA lo mismo que Microsoft con Office, pero en hardware.

Las alternativas existen, pero están muy por detrás

Para ser justos, no es que AMD e Intel no lo intenten. Cada uno tiene su equivalente a CUDA:

EmpresaSu CUDA se llamaMadurezCobertura del ecosistema
NVIDIACUDA18 años100% del ecosistema de ML
AMDROCm~8 años40-60% (depende del caso)
InteloneAPI~5 años20-30%
AppleMetalMaduro pero orientado a sus chips, no a servidoresN/A para entrenamiento grande

ROCm de AMD es la alternativa más seria y ha mejorado bastante en 2023-2024. Pero la realidad operativa: si compras hardware AMD, una fracción significativa del código de ML que querías correr no funciona, funciona peor o requiere modificaciones. Para un laboratorio que necesita iterar rápido, eso es un coste prohibitivo.

Lo que están haciendo los grandes para no depender de NVIDIA

Las grandes tecnológicas saben que depender de NVIDIA al 100% es estratégicamente peligroso. Por eso casi todas están construyendo sus propios chips para uso interno:

  • Google lleva ventaja: tiene sus propios chips llamados TPU (Tensor Processing Unit, unidad de procesamiento tensorial) desde 2016. Los usa internamente para Gemini, Bard, Search. No los vende.
  • Amazon tiene Trainium (para entrenar) e Inferentia (para servir modelos). Los alquila vía AWS.
  • Meta desarrolló MTIA y los usa internamente.
  • Microsoft anunció en 2023 sus chips Maia.
  • OpenAI lleva rumores desde 2024 de estar desarrollando los suyos con Broadcom y TSMC.

Pero todos siguen comprando NVIDIA en paralelo, en cantidades enormes. Cambiar tu stack entero de CUDA a otra cosa tarda años, y mientras tanto tu competencia entrena con NVIDIA y te saca ventaja. La estrategia universal es mezclar las dos: comprar NVIDIA para lo crítico, construir alternativas propias en paralelo, y rezar para que en cinco o diez años se pueda migrar gradualmente.

¿Puedo programar contra mi GPU desde casa? Sí, totalmente — y aquí es donde se toca con la mano el foso. Si tienes una GeForce moderna, instalas los drivers de NVIDIA, el CUDA Toolkit y un framework como PyTorch (pip install torch), y en una tarde estás programando contra tu GPU. Mismo software exactamente, en lo conceptual, que el que usan OpenAI y Anthropic en sus clusters de 100.000 H100. Con 8 GB de VRAM (Video RAM, memoria propia de la tarjeta gráfica) ya puedes correr LLMs pequeños localmente con herramientas como Ollama o LM Studio, generar imágenes con Stable Diffusion, o hacer fine-tuning ligero con técnicas como LoRA. Con 24 GB (RTX 3090/4090) llegas al techo del hardware doméstico y casi cualquier cosa de consumo se puede experimentar. Esta facilidad de entrada — gratis, una tarde de setup, en cualquier PC — es exactamente la estrategia que construyó el monopolio. Cualquier estudiante aprende CUDA en su portátil; cuando ese estudiante se convierte en ingeniero, su instinto natural es seguir con CUDA; cuando su empresa crece, compra clusters NVIDIA de 100 millones de dólares. NVIDIA construyó la trampa desde el principio regalando la entrada.

Idea central para llevarse

El monopolio de NVIDIA no es de hardware. Es de software + tiempo invertido + inercia industrial.

El silicio es replicable. Los 18 años de ecosistema CUDA acumulando inversión, documentación, librerías, talento entrenado y código de terceros, no lo son a corto plazo. Esa ventaja es lo que hace que NVIDIA siga teniendo márgenes brutales (~75% de margen bruto en sus GPUs de datacenter, una barbaridad para hardware) incluso cuando el silicio de la competencia es comparable.

Es un foso de los que duran décadas. Y mientras dure, NVIDIA seguirá siendo la empresa que más dinero gana del boom de la IA — más que OpenAI, más que Anthropic, más que Google, más que Meta. Levi Strauss vendiendo vaqueros a los buscadores de oro.

Próxima entrega

Pero el silicio se fabrica en algún sitio físico. Y aquí está la paradoja geopolítica más sorprendente del momento: el corazón de la IA mundial depende de una empresa, en una isla, a 130 kilómetros de China. Esa empresa es TSMC (Taiwan Semiconductor Manufacturing Company), y es la única del mundo capaz de fabricar los chips más avanzados a los nodos que necesita la nueva generación de aceleradores. En la próxima entrega entramos en esa pieza: TSMC, los controles de exportación de Estados Unidos a China, las variantes «H800» rebajadas con las que NVIDIA esquiva las restricciones, y el momento DeepSeek de enero de 2025 — cuando el mercado se preguntó por primera vez en serio si toda esta carrera de hardware estaba sobredimensionada. Nos vemos.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio