Qué se implementó
El sistema evaluado no utilizó únicamente la recuperación plana de fragmentos. Se implementó GraphRAG con estas etapas:- Dividir los documentos fuente en fragmentos.
- Extraer entidades y relaciones de esos fragmentos.
- Construir un grafo de conocimiento a partir de las entidades y relaciones extraídas.
- Ejecutar una recuperación estándar para obtener evidencia inicial para una pregunta del usuario.
- Expandir a través de enlaces del grafo para recolectar evidencia conectada.
- Reordenar el conjunto final de evidencias antes de la generación de la respuesta.
Contra qué se comparó
La comparación utilizó una línea base de RAG tradicional con el mismo corpus y el mismo modelo de respuesta. La única diferencia entre las dos ejecuciones fue el modo de recuperación:- RAG Base: solo recuperación plana de fragmentos
- GraphRAG: expansión iniciada por grafo más reordenamiento consciente del grafo
Diseño del benchmark
El benchmark fue diseñado para probar la recuperación multi-hop en lugar de una simple búsqueda en un solo fragmento. Se utilizó:- tres grafos de conocimiento objetivo
- nueve grafos distractores semánticamente similares
- 108 documentos cortos y factuales
- 24 preguntas que requerían enlazar hechos a través de múltiples fragmentos
Método de evaluación
Ambos modos de recuperación se ejecutaron sobre el mismo corpus de referencia y el mismo conjunto de preguntas. Ambos luego usaron el mismo modelo de generación de respuestas y el mismo prompt de respuesta. La evaluación registró tres métricas:- Coincidencia exacta: si la respuesta final coincidía exactamente con la respuesta de referencia
- Token F1: solapamiento de tokens entre la respuesta final y la respuesta de referencia
- Recall de evidencia@5: cuánta de la evidencia de soporte requerida apareció en los 5 fragmentos recuperados principales
Cómo se usó la API
El flujo de la API evaluada fue simple. Se usó el mismo store y los mismos documentos tanto para la ejecución base como para la de GraphRAG. Solo cambió el modo de consulta.1. Crear un store de GraphRAG
2. Ingestar documentos
3. Ejecutar la consulta RAG base
4. Ejecutar la consulta GraphRAG
mode:
baseline= recuperación plana tradicionalgraph= recuperación y reordenamiento iniciados por grafo
Resultados medidos
La ejecución en vivo del benchmark produjo los siguientes resultados:| Método | Coincidencia Exacta | Token F1 | Recall de Evidencia@5 |
|---|---|---|---|
| RAG Base | 25.0% | 27.1% | 55.9% |
| GraphRAG | 62.5% | 62.5% | 71.9% |
- Coincidencia Exacta:
+37.5puntos - Token F1:
+35.4puntos - Recall de Evidencia@5:
+16.0puntos
Umbral de aceptación
El benchmark utilizó los siguientes criterios de aprobación:- mejora de coincidencia exacta de al menos
+5.0puntos - mejora de recall de evidencia@5 de al menos
+10.0puntos
Resultados representativos a nivel de pregunta
Ejemplos donde GraphRAG tuvo éxito y RAG base no:- “Who is the chief financial officer of the company that owns the Northern Bridge Sensors contract winner?”
- RAG Base:
unknown - GraphRAG:
Javier Nanda
- RAG Base:
- “Which company acquired the firm that prepared a risk report for Meridian Ports Authority?”
- RAG Base:
unknown - GraphRAG:
Atlas Infrastructure Group
- RAG Base:
- “Which company owns the company that won the Delta Reach Sensors contract?”
- RAG Base:
unknown - GraphRAG:
Bluepeak Transit Group
- RAG Base:
Por qué GraphRAG tuvo mejor desempeño
RAG base recuperó fragmentos semánticamente similares, pero a veces no logró recuperar la evidencia conectada necesaria para completar la cadena de razonamiento. GraphRAG mejoró el desempeño al:- identificar las entidades semilla relevantes a partir de la pregunta
- recorrer relaciones del grafo para encontrar evidencia enlazada
- reordenar el conjunto final de evidencias usando señales del grafo además de la similitud semántica