Evaluación de GraphRAG

Esta evaluación compara GraphRAG con RAG tradicional usando el mismo corpus de referencia y el mismo conjunto de preguntas. El objetivo fue medir si la recuperación consciente de grafos mejora la respuesta a preguntas multi-hop.

Qué se implementó

El sistema evaluado no utilizó únicamente la recuperación plana de fragmentos. Se implementó GraphRAG con estas etapas:

Dividir los documentos fuente en fragmentos.
Extraer entidades y relaciones de esos fragmentos.
Construir un grafo de conocimiento a partir de las entidades y relaciones extraídas.
Ejecutar una recuperación estándar para obtener evidencia inicial para una pregunta del usuario.
Expandir a través de los enlaces del grafo para recopilar evidencia conectada.
Reordenar el conjunto final de evidencias antes de la generación de la respuesta.

Ese es el comportamiento de GraphRAG que fue evaluado.

Contra qué se comparó

La comparación utilizó una línea base de RAG tradicional con el mismo corpus y el mismo modelo de respuesta. La única diferencia entre las dos ejecuciones fue el modo de recuperación:

RAG base: solo recuperación plana de fragmentos
GraphRAG: expansión iniciada por grafo más reordenamiento consciente de grafo

Esto es importante porque aísla el efecto de GraphRAG en sí mismo.

Diseño del benchmark

El benchmark fue diseñado para probar la recuperación multi-hop en lugar de una simple búsqueda de un solo fragmento. Se utilizó:

tres grafos de conocimiento objetivo
nueve grafos distractores semánticamente similares
108 documentos cortos de hechos
24 preguntas que requerían enlazar hechos a través de múltiples fragmentos

Este diseño es importante. Si cada respuesta ya aparece en un fragmento obvio, GraphRAG no mostrará mucho beneficio sobre el RAG estándar.

Método de evaluación

Ambos modos de recuperación se ejecutaron sobre el mismo corpus de referencia y el mismo conjunto de preguntas. Ambos luego usaron el mismo modelo de generación de respuestas y el mismo prompt de respuesta. La evaluación registró tres métricas:

Coincidencia exacta: si la respuesta final coincidía exactamente con la respuesta de referencia
Token F1: superposición de tokens entre la respuesta final y la respuesta de referencia
Recall de evidencia@5: cuánta de la evidencia de soporte requerida apareció en los 5 fragmentos recuperados principales

Cómo se usó la API

El flujo de la API evaluada fue simple. Se usó el mismo almacén y los mismos documentos tanto para la ejecución base como para la de GraphRAG. Solo cambió el modo de consulta.

1. Crear un almacén GraphRAG

mka1 search graphrag create-graph-RAG-store \
  --body '{
    "store_name": "benchmark_graphrag",
    "embedding_model": "meetkai:functionary-es-mini",
    "extraction_model": "meetkai:functionary-es-mini",
    "chunk_size": 800,
    "chunk_overlap": 120,
    "max_hops": 2
  }' \
  -H 'X-On-Behalf-Of: <end-user-id>'

2. Ingestar documentos

mka1 search graphrag ingest-graph-RAG-documents \
  --store-name benchmark_graphrag \
  --body '{
    "documents": [
      {
        "document_id": "doc_contract_award",
        "text": "Rivera Logistics won the Northern Bridge Sensors contract.",
        "metadata": { "source": "benchmark" }
      },
      {
        "document_id": "doc_parent_company",
        "text": "Atlas Infrastructure Group owns Rivera Logistics.",
        "metadata": { "source": "benchmark" }
      }
    ]
  }'

3. Ejecutar la consulta RAG base

mka1 search graphrag query-graph-RAG-store \
  --store-name benchmark_graphrag \
  --body '{
    "query": "Who is the chief financial officer of the company that owns the Northern Bridge Sensors contract winner?",
    "mode": "baseline",
    "limit": 5,
    "seed_k": 8
  }'

4. Ejecutar la consulta GraphRAG

mka1 search graphrag query-graph-RAG-store \
  --store-name benchmark_graphrag \
  --body '{
    "query": "Who is the chief financial officer of the company that owns the Northern Bridge Sensors contract winner?",
    "mode": "graph",
    "limit": 5,
    "seed_k": 8
  }'

Ese último paso es la comparación clave. La consulta, el corpus y el modelo de respuesta se mantuvieron iguales. Solo cambió mode:

baseline = recuperación plana tradicional
graph = recuperación y reordenamiento iniciados por grafo

Resultados medidos

La ejecución en vivo del benchmark produjo los siguientes resultados:

Método	Coincidencia Exacta	Token F1	Recall de Evidencia@5
RAG base	25.0%	27.1%	55.9%
GraphRAG	62.5%	62.5%	71.9%

Mejora:

Coincidencia Exacta: +37.5 puntos
Token F1: +35.4 puntos
Recall de Evidencia@5: +16.0 puntos

Umbral de aceptación

El benchmark utilizó los siguientes criterios de aprobación:

mejora de coincidencia exacta de al menos +5.0 puntos
mejora de recall de evidencia@5 de al menos +10.0 puntos

La implementación evaluada de GraphRAG superó ambos umbrales.

Resultados representativos a nivel de pregunta

Ejemplos donde GraphRAG tuvo éxito y RAG base no:

“Who is the chief financial officer of the company that owns the Northern Bridge Sensors contract winner?”
- RAG base: unknown
- GraphRAG: Javier Nanda
“Which company acquired the firm that prepared a risk report for Meridian Ports Authority?”
- RAG base: unknown
- GraphRAG: Atlas Infrastructure Group
“Which company owns the company that won the Delta Reach Sensors contract?”
- RAG base: unknown
- GraphRAG: Bluepeak Transit Group

Estas son preguntas multi-hop. Requieren enlazar hechos a través de entidades conectadas en lugar de recuperar un solo fragmento que coincida directamente.

Por qué GraphRAG tuvo mejor desempeño

RAG base recuperó fragmentos semánticamente similares, pero a veces no logró recuperar la evidencia conectada necesaria para completar la cadena de razonamiento. GraphRAG mejoró el desempeño al:

identificar las entidades semilla relevantes de la pregunta
recorrer las relaciones del grafo para encontrar evidencia enlazada
reordenar el conjunto final de evidencias usando señales del grafo además de la similitud semántica

Por eso la mejora es más evidente en preguntas multi-hop.

Resumen

En este benchmark, GraphRAG superó a RAG tradicional tanto en precisión de la respuesta final como en recuperación de evidencia de soporte. Las mayores mejoras se observaron en preguntas que requerían enlazar hechos a través de múltiples entidades conectadas.

Documentation Index

​Qué se implementó

​Contra qué se comparó

​Diseño del benchmark

​Método de evaluación

​Cómo se usó la API

​1. Crear un almacén GraphRAG

​2. Ingestar documentos

​3. Ejecutar la consulta RAG base

​4. Ejecutar la consulta GraphRAG

​Resultados medidos

​Umbral de aceptación

​Resultados representativos a nivel de pregunta

​Por qué GraphRAG tuvo mejor desempeño

​Resumen