Wavespeed: el supermercado de modelos generativos
Hoy en día, si alguien quiere montar un proyecto que combine generación de imagen, voz y vídeo con IA, se enfrenta a un problema que hace dos años no existía: hay demasiados modelos. Decenas de generadores de imagen (Flux, Nano Banana, Seedream, Imagen, Ideogram…), un puñado de motores de voz (ElevenLabs, PlayHT, Cartesia…) y media docena de generadores de vídeo (Veo, Kling, Wan, Sora…). Cada proveedor tiene su propia API, su propio sistema de facturación, su propio formato de respuesta y su propia documentación.
Wavespeed es uno de esos servicios que aparecen para resolver el caos: una sola API, un solo monedero, un solo SDK mental, y detrás un catálogo enorme de modelos generativos a los que se accede de manera uniforme. En aitanet lo usamos a diario para los voiceovers (con ElevenLabs v3) y las imágenes destacadas de los posts (con Nano Banana Pro), así que esta entrada es una reseña honesta desde la trinchera.
¿Qué es exactamente Wavespeed?
Wavespeed no entrena modelos propios. Es un agregador de inferencia (a veces llamado inference platform o model marketplace): un proxy que se sienta delante de cientos de modelos de IA generativa de terceros y los expone tras una API homogénea. Los modelos siguen siendo de sus dueños originales (Google, ByteDance, Alibaba, Black Forest Labs, ElevenLabs, etc.); Wavespeed solo redistribuye el acceso, normaliza el contrato y se encarga de la facturación.
El catálogo cubre prácticamente todo lo que hoy se considera «IA generativa multimedia»:
- Imagen: Flux (todas las variantes), Nano Banana / Nano Banana Pro, Seedream, Ideogram, Recraft, Qwen-Image…
- Vídeo: Veo (Google), Kling (Kuaishou), Wan (Alibaba), Seedance (ByteDance), Hunyuan…
- Voz: ElevenLabs (v2 y v3), Cartesia, MiniMax, Kokoro…
- Música y efectos: Suno, Stable Audio, ElevenLabs SFX…
- Modelos especializados: upscalers, eliminadores de fondo, lip-sync, face swap…
En el momento de escribir esto el catálogo ronda los 600-700 modelos, y crece cada semana porque añadir un modelo nuevo no requiere infraestructura propia: basta con que Wavespeed firme con el proveedor original o despliegue una versión open source.
Cómo funciona por dentro
El patrón de uso es siempre el mismo, independientemente del modelo. Esto es probablemente lo más valioso del servicio:
- POST al endpoint del modelo con un JSON que describe la tarea (
prompt,voice_id,aspect_ratio, etc.). Devuelve inmediatamente unrequest_id. - Polling del resultado en
GET /api/v3/predictions/<request_id>/resulthasta que el campostatuspase acompleted. - Descarga del archivo final desde la URL que viene en
outputs.
La autenticación es un único Authorization: Bearer <API_KEY>. La key se genera en el panel de Wavespeed, se mete en una variable de entorno, y vale para cualquier modelo. No hay que registrarse en cada proveedor por separado, ni cuadrar diez facturas distintas a final de mes, ni mantener diez SDKs en el package.json.
Para que se vea lo concreto, así de simple queda la llamada a Nano Banana Pro desde Node, idéntica en estructura a la que se haría a ElevenLabs o a Veo:
const res = await fetch(
"https://api.wavespeed.ai/api/v3/google/nano-banana-pro/text-to-image",
{
method: "POST",
headers: {
"Authorization": `Bearer ${process.env.WAVESPEED_API_KEY}`,
"Content-Type": "application/json",
},
body: JSON.stringify({
prompt: "Editorial still life, soft natural light, light wooden desk",
aspect_ratio: "16:9",
resolution: "2k",
}),
}
);
const { data } = await res.json();
const requestId = data.id;
// ...luego polling al /result hasta status === "completed"
Cambiar de modelo es cambiar la URL del endpoint y los parámetros del body. El resto del código se reutiliza.
Pros: por qué lo usamos
Una sola key, una sola factura, un solo SDK mental. Este es el argumento principal y el que justifica casi todo lo demás. Reduce drásticamente la fricción operativa de un proyecto multi-modelo. En aitanet, el script de publicación llama a Nano Banana Pro para generar la imagen destacada y, en otros proyectos, el mismo .env sirve para generar voiceovers con ElevenLabs. Es la misma key, la misma manera de pollear, el mismo patrón de error.
Catálogo amplio y actualizado rápido. Cuando sale un modelo nuevo relevante (Nano Banana Pro, Seedream 4, Wan 2.2…) suele aparecer en Wavespeed en cuestión de días. No hay que esperar a que su proveedor original tenga API pública estable.
Modelos exclusivos. Esto sorprende, pero Wavespeed tiene acuerdos con ByteDance (Seedream, Seedance, Kling) y Alibaba (Wan, Qwen) que en algunos casos lo convierten en la única vía API en occidente para acceder a esos modelos. Si alguien quiere probar Seedance sin abrir cuenta en un servicio chino, Wavespeed es la opción.
Pago por uso real, sin suscripción mínima. El modelo es pay-as-you-go puro: se cargan créditos en la cuenta y se van consumiendo. No hay cuota mensual, no hay mínimos, los créditos no caducan. Para prototipos y proyectos pequeños esto es ideal: un proyecto que duerme tres meses cuesta exactamente cero euros mientras duerme.
Latencia razonable. Es un proxy ligero, no una capa pesada que reescriba prompts ni añada lógica. La penalización por usar Wavespeed en lugar del proveedor original es pequeña (decenas de milisegundos en la mayoría de casos), perfectamente asumible para cualquier flujo asíncrono.
Contras: lo que no cuentan tan alto
Dependencia de un intermediario. Si Wavespeed cae, sube precios o cambia su política, te afecta a todos los modelos a la vez. Es el clásico riesgo del middleman: la conveniencia se paga con un punto único de fallo. Para producción crítica conviene tener un plan B (irse directo al proveedor original o cambiar a otro agregador).
Margen sobre el coste original. Wavespeed no es una ONG. Hay un sobreprecio respecto a contratar el modelo directamente con su proveedor. En la práctica suele ser razonable (entre un 10% y un 30% más caro, varía mucho por modelo), pero si el proyecto consume mucho de un solo modelo, en algún punto compensa irse directo a ese proveedor.
Documentación irregular. La documentación de Wavespeed es buena en general, pero los parámetros específicos de cada modelo a veces están peor documentados que en la web original del proveedor. Para descubrir todas las opciones de un modelo concreto, en ocasiones toca cruzar la doc de Wavespeed con la del proveedor original.
Sin features avanzadas que sí ofrecen los proveedores nativos. Si alguien quiere clonar voces persistentes en ElevenLabs, fine-tunear un Flux con Dreambooth, o usar las funciones de edición avanzada de Nano Banana Pro, el agregador no llega a todo. Wavespeed cubre el «caso común» de cada modelo, no el catálogo completo de funciones de cada proveedor.
Precios
El modelo es muy simple. Se topa-up la cuenta con créditos (en dólares) y cada generación descuenta créditos según el modelo, la resolución, la duración y la complejidad. Algunos órdenes de magnitud actuales para hacerse una idea:
- Imagen rápida (Flux Dev Ultra Fast y similares): desde $0.005 por imagen. Es decir, $1 da para unas 200 imágenes.
- Imagen premium (Nano Banana Pro, Seedream): orden de $0.03-0.10 por imagen según resolución.
- Vídeo rápido (Wan 2.2 Ultra Fast): desde $0.01 por segundo generado. Un clip de 10 segundos cuesta unos 10 céntimos.
- Vídeo premium (Veo, Kling): bastante más, en el rango de $0.30-0.80 por segundo.
- Voz con ElevenLabs v3: alrededor de $0.30 por cada 1.000 caracteres de texto sintetizado.
Cuentas nuevas reciben $1 de regalo sin tarjeta, suficiente para hacer pruebas reales antes de comprometer un céntimo. Hay sistema de tiers (Silver al acumular $100 de top-ups, etc.) que da pequeños descuentos. Estos precios cambian con frecuencia; conviene mirar wavespeed.ai/pricing antes de decidir nada serio.
Cuándo es útil Wavespeed (y cuándo no)
Tiene mucho sentido cuando:
- Estamos prototipando o explorando, y no sabemos aún qué modelo se va a quedar en producción.
- El proyecto combina varios tipos de modelos (texto + imagen + voz + vídeo). El ahorro operativo es enorme.
- Necesitamos un modelo concreto que solo está disponible aquí (Seedream, Seedance, Wan, Kling).
- El volumen es bajo o muy variable. La factura predecible cero cuando no se usa es difícil de batir.
- El equipo es pequeño y cada hora ahorrada en plumbing operativo cuenta.
No compensa tanto cuando:
- El proyecto está en producción a gran escala con un único modelo bien identificado. En ese caso, ir directo al proveedor original suele bajar la factura entre un 10% y un 30%.
- Necesitamos features avanzadas (fine-tuning, voice cloning persistente, ediciones complejas) que el agregador no expone.
- La latencia es absolutamente crítica (aplicaciones en tiempo real con usuarios humanos esperando).
- Tenemos requisitos estrictos de soberanía de datos o cumplimiento normativo (en cuyo caso quizá ni el proveedor original sirve, y toca self-hosting).
Alternativas a tener en el radar
Wavespeed no es el único en este nicho. Los más relevantes hoy son:
fal.ai — Probablemente el competidor más directo. Catálogo más pequeño (decenas de modelos en lugar de cientos), pero con foco obsesivo en la latencia: presume de ser la inferencia más rápida del mercado, y en muchos benchmarks lo es. Si nuestro caso de uso es una herramienta creativa en tiempo real (un editor de imagen interactivo, por ejemplo), fal.ai es la primera parada. Si lo que queremos es batch o pipelines asíncronos, la diferencia importa menos.
Replicate — El veterano del sector. Su gracia es el catálogo: más de 1.000 modelos, incluyendo muchísimos modelos open source de la comunidad, no solo los grandes nombres comerciales. Es el sitio ideal para experimentar y descubrir modelos raros, o para correr modelos académicos sin levantar GPU propia. Para producción consistente con modelos de primera línea, Wavespeed o fal suelen ser más limpios.
Runware — Especialista en volumen. Sus precios para imagen son agresivos hasta ridículos (del orden de $0.0006 por imagen en batch). Si el caso de uso es generar 100.000 imágenes de producto para un e-commerce, no hay color con nadie. Para un puñado de imágenes al día, la diferencia es irrelevante.
Together AI, Novita AI — Más enfocadas en LLMs y modelos open source servidos en GPU dedicada. Comparten la filosofía de «muchos modelos detrás de una API», pero su catálogo solapa menos con el de los anteriores. Útiles si necesitamos también inferencia de LLMs alojados.
OpenRouter — Caso aparte: agregador especializado en LLMs (Claude, GPT, Gemini, Llama, etc.), no en generación multimedia. Misma filosofía que Wavespeed pero en otro nicho. En aitanet también se usa de vez en cuando.
Recomendación práctica
Si alguien arranca un proyecto multi-modelo hoy, mi recomendación honesta es empezar por Wavespeed o fal.ai —Wavespeed si el catálogo importa más que la latencia absoluta, fal.ai si es al revés— y dejar Replicate como complemento para cuando aparezca un modelo raro de la comunidad que el principal no tiene.
Si en algún momento un modelo concreto se come el 80% de la factura y el proyecto va en serio, ese es el punto natural para plantearse migrar ese modelo concreto al proveedor original, y mantener el agregador para todo lo demás. Es una decisión que se toma con datos en la mano, no antes.
Para el caso particular de aitanet —blog técnico con generación esporádica de imágenes destacadas y voiceovers— Wavespeed encaja casi sin fricciones: la factura mensual no llega ni a un café, la operativa es trivial y el catálogo cubre todo lo que se nos ha ocurrido pedirle hasta ahora. Si un día crece a algo más serio, ya volveremos a evaluarlo.
¿Habéis usado alguno de estos servicios? ¿En qué casos os ha cuadrado y en cuáles no? Cualquier comentario, abajo.
