RAG - Retrieval Augmented Generation
Generación Aumentada por Recuperación
Preparación de fuentes para un sistema RAG
Una vez entendido qué es RAG y cómo funciona a nivel conceptual,
llegamos al punto más importante de todo el sistema:
la preparación de las fuentes de conocimiento.
Este paso suele subestimarse, pero en la práctica determina
si un asistente de IA será realmente útil o simplemente “curioso”.
Dicho sin rodeos:
Un sistema RAG es tan bueno como la documentación que consulta.
1. Cambiar el enfoque: no escribes solo para personas
Tradicionalmente, la documentación se escribe pensando únicamente en usuarios humanos.
Con RAG, esto cambia.
Ahora escribes para:
- Personas
- Y para una IA que no interpreta, compara textos por significado
Esto implica adoptar un estilo distinto:
- Más claridad
- Más estructura
- Menos ambigüedad
No se trata de escribir peor para humanos,
sino de escribir mejor para ambos.
¡Sorpresa!!!
2. Regla fundamental: un concepto por bloque
Uno de los errores más comunes es mezclar demasiadas ideas en el mismo texto.
Para un sistema RAG, esto es especialmente problemático,
porque dificulta la recuperación de información relevante.
Veamos un ejemplo.
Ejemplo incorrecto:
“En el módulo de facturación puedes crear facturas, rectificativas,
presupuestos, gestionar clientes y aplicar impuestos.”
Este texto habla de demasiadas cosas a la vez.
Ejemplo correcto:
- Cómo crear una factura de venta
- Qué es una factura rectificativa
- Cómo aplicar impuestos en una factura
- Errores comunes en facturación
Cada punto debería convertirse en un bloque independiente.
Si un texto responde bien a más de una pregunta distinta,
probablemente debería dividirse.
3. Estructura ideal de un documento “RAG-friendly”
Aunque no existe una única forma correcta,
hay una estructura que funciona especialmente bien en sistemas RAG.
Título claro y concreto Descripción breve (qué es / para qué sirve) Pasos numerados (si aplica) Casos especiales o excepciones Errores frecuentes Relación con otros conceptos
Esta estructura tiene varias ventajas:
- Es fácil de fragmentar
- Es fácil de mantener
- Funciona bien tanto para humanos como para IA
Además, ayuda a anticipar las preguntas reales de los usuarios.
4. Escribir pensando en preguntas reales
Una buena práctica es redactar cada bloque pensando en
qué pregunta concreta podría hacer un usuario.
Por ejemplo:
- “No puedo crear una factura”
- “Por qué me da error el IVA”
- “Puedo facturar sin cliente”
Si el texto contiene términos y expresiones similares a esas preguntas,
el sistema RAG funcionará mucho mejor.
No hace falta copiar literalmente la pregunta,
pero sí cubrir el mismo campo semántico.
5. Evitar referencias ambiguas
En documentación clásica es habitual encontrar expresiones como:
- “Como se ha visto anteriormente”
- “Esto depende del caso”
- “En el apartado anterior”
Para un sistema RAG, este tipo de referencias son problemáticas.
Cada bloque debería:
- Entenderse por sí mismo
- No depender de otros textos
- No usar pronombres sin contexto claro
Si un fragmento necesita otro para entenderse,
el sistema RAG lo interpretará mal.
6. El valor de los metadatos
Además del contenido, cada fragmento puede enriquecerse con metadatos.
Por ejemplo:
Módulo: facturación Tipo: manual Nivel: usuario Rol: administrativo
Estos metadatos permiten:
- Filtrar información por rol
- Limitar respuestas según permisos
- Ofrecer respuestas más precisas
Este punto marca una gran diferencia entre un asistente genérico y uno realmente integrado en un software.
7. Formato de las fuentes: no todo vale igual
No todos los formatos funcionan igual de bien para RAG.
- PDF: válido, pero difícil de mantener y fragmentar
- Word: aceptable, pero poco estructurado
- HTML / Markdown: ideal
- Base de datos: excelente para contenido vivo
Siempre que sea posible, conviene priorizar formatos estructurados y versionables.
8. Checklist rápida antes de usar una fuente en RAG
- ¿Habla de un solo tema?
- ¿Tiene un título claro?
- ¿Responde a una pregunta concreta?
- ¿Se entiende sin otros textos?
- ¿Está actualizada?
Si la respuesta es “no” en varios puntos,
conviene revisar el contenido antes de incorporarlo al sistema.
- RAG empieza en la documentación, no en la IA
- Un concepto por bloque mejora la recuperación
- La estructura y claridad son fundamentales
- Los metadatos multiplican el valor del sistema
En la siguiente fase entraremos en la parte práctica:
cómo construir un primer RAG sencillo paso a paso.
