Curso sobre RAG: 4 – Preparación de fuentes para un sistema RAG

RAG - Retrieval Augmented Generation
Generación Aumentada por Recuperación

Preparación de fuentes para un sistema RAG

Una vez entendido qué es RAG y cómo funciona a nivel conceptual,
llegamos al punto más importante de todo el sistema:
la preparación de las fuentes de conocimiento.

Este paso suele subestimarse, pero en la práctica determina
si un asistente de IA será realmente útil o simplemente “curioso”.

Dicho sin rodeos:


Un sistema RAG es tan bueno como la documentación que consulta.


1. Cambiar el enfoque: no escribes solo para personas

Tradicionalmente, la documentación se escribe pensando únicamente en usuarios humanos.

Con RAG, esto cambia.

Ahora escribes para:

  • Personas
  • Y para una IA que no interpreta, compara textos por significado

Esto implica adoptar un estilo distinto:

  • Más claridad
  • Más estructura
  • Menos ambigüedad

No se trata de escribir peor para humanos,
sino de escribir mejor para ambos.

Idea clave:
¡Sorpresa!!! 
La IA no “deduce” lo que quieres decir, solo trabaja con lo que está escrito.

2. Regla fundamental: un concepto por bloque

Uno de los errores más comunes es mezclar demasiadas ideas en el mismo texto.

Para un sistema RAG, esto es especialmente problemático,
porque dificulta la recuperación de información relevante.

Veamos un ejemplo.

Ejemplo incorrecto:

“En el módulo de facturación puedes crear facturas, rectificativas,
presupuestos, gestionar clientes y aplicar impuestos.”

Este texto habla de demasiadas cosas a la vez.

Ejemplo correcto:

  • Cómo crear una factura de venta
  • Qué es una factura rectificativa
  • Cómo aplicar impuestos en una factura
  • Errores comunes en facturación

Cada punto debería convertirse en un bloque independiente.

Regla práctica:
Si un texto responde bien a más de una pregunta distinta,
probablemente debería dividirse.

3. Estructura ideal de un documento “RAG-friendly”

Aunque no existe una única forma correcta,
hay una estructura que funciona especialmente bien en sistemas RAG.

Título claro y concreto

Descripción breve (qué es / para qué sirve)

Pasos numerados (si aplica)

Casos especiales o excepciones

Errores frecuentes

Relación con otros conceptos

Esta estructura tiene varias ventajas:

  • Es fácil de fragmentar
  • Es fácil de mantener
  • Funciona bien tanto para humanos como para IA

Además, ayuda a anticipar las preguntas reales de los usuarios.


4. Escribir pensando en preguntas reales

Una buena práctica es redactar cada bloque pensando en
qué pregunta concreta podría hacer un usuario.

Por ejemplo:

  • “No puedo crear una factura”
  • “Por qué me da error el IVA”
  • “Puedo facturar sin cliente”

Si el texto contiene términos y expresiones similares a esas preguntas,
el sistema RAG funcionará mucho mejor.

No hace falta copiar literalmente la pregunta,
pero sí cubrir el mismo campo semántico.


5. Evitar referencias ambiguas

En documentación clásica es habitual encontrar expresiones como:

  • “Como se ha visto anteriormente”
  • “Esto depende del caso”
  • “En el apartado anterior”

Para un sistema RAG, este tipo de referencias son problemáticas.

Cada bloque debería:

  • Entenderse por sí mismo
  • No depender de otros textos
  • No usar pronombres sin contexto claro
Advertencia:
Si un fragmento necesita otro para entenderse,
el sistema RAG lo interpretará mal.

6. El valor de los metadatos

Además del contenido, cada fragmento puede enriquecerse con metadatos.

Por ejemplo:

Módulo: facturación
Tipo: manual
Nivel: usuario
Rol: administrativo

Estos metadatos permiten:

  • Filtrar información por rol
  • Limitar respuestas según permisos
  • Ofrecer respuestas más precisas

Este punto marca una gran diferencia entre un asistente genérico y uno realmente integrado en un software.


7. Formato de las fuentes: no todo vale igual

No todos los formatos funcionan igual de bien para RAG.

  • PDF: válido, pero difícil de mantener y fragmentar
  • Word: aceptable, pero poco estructurado
  • HTML / Markdown: ideal
  • Base de datos: excelente para contenido vivo

Siempre que sea posible, conviene priorizar formatos estructurados y versionables.


8. Checklist rápida antes de usar una fuente en RAG

  • ¿Habla de un solo tema?
  • ¿Tiene un título claro?
  • ¿Responde a una pregunta concreta?
  • ¿Se entiende sin otros textos?
  • ¿Está actualizada?

Si la respuesta es “no” en varios puntos,
conviene revisar el contenido antes de incorporarlo al sistema.

Recapitulación final:
  • RAG empieza en la documentación, no en la IA
  • Un concepto por bloque mejora la recuperación
  • La estructura y claridad son fundamentales
  • Los metadatos multiplican el valor del sistema

En la siguiente fase entraremos en la parte práctica:
cómo construir un primer RAG sencillo paso a paso.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Scroll al inicio