Curso sobre RAG: 2 – Arquitectura Mental de un sistema RAG

RAG - Retrieval Augmented Generation
Generación Aumentada por Recuperación

Antes de hablar de código, herramientas o proveedores, hay algo fundamental:

Debemos entender mentalmente cómo funciona un sistema RAG.

Si no tienes clara esta arquitectura, todo lo demás (embeddings, vectores, modelos, APIs)
se convierte en una caja negra difícil de mantener.

Vamos a simplificarlo al máximo.


El flujo básico de un sistema RAG

Un sistema RAG bien diseñado sigue siempre el mismo patrón lógico:

  1. El usuario hace una pregunta
  2. El sistema busca información relevante en tus datos
  3. Selecciona los fragmentos más adecuados
  4. La IA genera una respuesta basada solo en esos fragmentos

Representado de forma esquemática:

Usuario pregunta
      ↓
Búsqueda en tus documentos
      ↓
Selección de fragmentos relevantes
      ↓
Generación de la respuesta

Este orden es clave:
primero se busca, después se responde.

Error común:
Pedir al modelo que responda directamente sin haberle dado antes
información concreta y relevante.

Las 4 piezas fundamentales de un sistema RAG

Todo sistema RAG, independientemente de la tecnología usada, se compone de
cuatro bloques principales.

1. Fuentes de conocimiento

Son los datos reales que el asistente va a consultar.

  • Documentación técnica
  • Manuales de usuario
  • FAQs
  • Contenidos HTML o Markdown
  • Datos procedentes de bases de datos

Aquí es donde entra el trabajo previo de documentación:
si la fuente es mala, la respuesta será mala.

Un sistema RAG no corrige documentación deficiente, simplemente la reutiliza.


2. Fragmentación del contenido (chunking)

Los documentos no se usan completos.

Se dividen en fragmentos más pequeños y manejables.

Cada fragmento debería:

  • Tratar un solo concepto
  • Tener contexto suficiente para entenderse por sí mismo
  • No depender de otros fragmentos

El objetivo es que, cuando el sistema busque información,
encuentre justo el trozo que necesita, no un texto genérico.

Idea importante:
Un buen chunk responde bien a una pregunta concreta.

3. ¿Qué es el Chunking?

El chunking es el proceso de dividir una gran cantidad de información (un PDF de 100 páginas, un manual técnico, un contrato largo) en piezas pequeñas y manejables llamadas «chunks» (trozos).

¿Por qué es necesario?

Imagina que quieres que la IA te diga cuál es la cláusula de rescisión de un contrato de 50 páginas.

  • Sin chunking: Tendrías que darle a la IA las 50 páginas de golpe cada vez que le preguntes algo. Es ineficiente, lento y a veces la IA se «pierde» entre tanto texto.

  • Con chunking: El sistema busca y encuentra solo el «trozo» exacto donde se habla de la rescisión y se lo entrega a la IA para que lo procese.

Una analogía sencilla: El Sándwich

Si intentas comerte un sándwich club gigante de un solo bocado, te atragantarás. El chunking es el acto de cortarlo en trozos pequeños para que puedas hincarle el diente de forma cómoda y encontrar el ingrediente que buscas más fácilmente.


Las 3 reglas de oro del Chunking (explicadas fácil):
  1. Tamaño justo: Si el trozo es muy pequeño (una sola palabra), no tiene sentido. Si es muy grande, la IA se confunde.

  2. Contexto (Solapamiento): Normalmente, los trozos se cortan de forma que el final de uno se repita un poco al principio del siguiente. Esto es para que no se corte una frase importante por la mitad y se pierda el hilo.

  3. Orden: El sistema guarda estos trozos etiquetados para saber siempre a qué documento pertenecen.

4. Búsqueda semántica (embeddings + base vectorial)

Aquí ocurre la parte menos visible, pero más importante del sistema.

Cada fragmento de texto se transforma en una representación numérica
que captura su significado.
Estas representaciones se almacenan en una base de datos vectorial.

Cuando el usuario pregunta:

  • La pregunta también se convierte en un vector
  • El sistema busca los fragmentos “más parecidos” semánticamente
  • Se seleccionan los más relevantes

No se trata de buscar palabras exactas, sino significado.

Por eso un usuario puede preguntar algo que no coincide literalmente
con el texto, y aun así obtener la respuesta correcta.


5. Generación de la respuesta

Una vez seleccionados los fragmentos adecuados, estos se envían al modelo de IA
junto con la pregunta original.

El modelo no responde “de memoria”, sino que:

  • Lee la información proporcionada
  • La organiza
  • La redacta de forma comprensible

En un sistema RAG bien planteado, el modelo recibe una instrucción clara:

“Responde solo utilizando la información proporcionada.
Si no hay información suficiente, indícalo.”

Esto reduce drásticamente las respuestas inventadas
y aumenta la fiabilidad del asistente.


¿Por qué esta arquitectura es tan potente?

Separar conocimiento y razonamiento tiene muchas ventajas:

  • La documentación se puede actualizar sin tocar el modelo
  • El sistema escala mejor
  • Se puede controlar qué información se usa
  • Se puede auditar de dónde salen las respuestas

En entornos profesionales, esto no es un detalle técnico:
es una necesidad.

Recapitulación final:

  • RAG sigue siempre el orden: buscar → seleccionar → responder
  • La arquitectura es más importante que el modelo
  • Un buen RAG separa datos, búsqueda y generación
  • Entender esta estructura evita muchos errores posteriores

En la próxima entrada entraremos en uno de los puntos más críticos:
cómo fragmentar y preparar correctamente el contenido
para que todo este sistema funcione de verdad.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio