¿Cómo funciona técnicamente un sistema RAG paso a paso?
Un sistema RAG opera en cuatro etapas secuenciales que transforman la consulta del usuario en una respuesta sintetizada y citada.
Etapa 1 — Interpretación de la consulta:
El sistema analiza la pregunta del usuario para determinar su intención, identificar los conceptos clave y decidir qué tipo de información es necesario recuperar. En los sistemas más sofisticados, esta etapa incluye un proceso de query fan-out: la descomposición de la consulta original en múltiples subconsultas que cubren los diferentes ángulos semánticos de la pregunta. Una consulta como "mejores prácticas de content marketing para SaaS B2B en 2025" se descompone en subconsultas sobre definición de content marketing B2B, tendencias del sector SaaS, estrategias de distribución y métricas de rendimiento, cada una procesada de forma independiente.
Etapa 2 — Recuperación de información:
El sistema ejecuta las consultas contra uno o varios índices de información y recupera los fragmentos más relevantes. La relevancia se evalúa mediante técnicas de búsqueda semántica — que comparan el significado del fragmento con el de la consulta, no solo la coincidencia de palabras clave — lo que permite recuperar información conceptualmente relevante aunque no use exactamente las mismas palabras que la consulta.
Etapa 3 — Evaluación y selección de fragmentos:
De todos los fragmentos recuperados, el sistema selecciona los más adecuados para construir la respuesta aplicando criterios de relevancia semántica, coherencia informacional entre fuentes, autoridad del dominio de origen y adecuación estructural del fragmento. Los fragmentos seleccionados se organizan en el contexto de entrada que se pasa al LLM.
Etapa 4 — Generación de la respuesta:
El LLM recibe la consulta del usuario, los fragmentos seleccionados y las instrucciones del sistema, y genera una respuesta que integra la información de los fragmentos con su propio conocimiento de entrenamiento, produciendo texto fluido con referencias explícitas a las fuentes utilizadas. El LLM no reproduce los fragmentos literalmente — los reformula, los integra con información de otras fuentes y los presenta en el formato más adecuado. Para los publishers, esto significa que incluso cuando su contenido es seleccionado como fuente, el texto que el usuario ve en la respuesta no es el texto original del artículo sino una síntesis elaborada por el LLM, aunque la citación sigue siendo visible y clicable.