Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.mka1.com/llms.txt

Use this file to discover all available pages before exploring further.

Esta evaluación compara GraphRAG con RAG tradicional usando el mismo corpus de referencia y el mismo conjunto de preguntas. El objetivo fue medir si la recuperación consciente de grafos mejora la respuesta a preguntas multi-hop.

Qué se implementó

El sistema evaluado no utilizó únicamente la recuperación plana de fragmentos. Se implementó GraphRAG con estas etapas:
  1. Dividir los documentos fuente en fragmentos.
  2. Extraer entidades y relaciones de esos fragmentos.
  3. Construir un grafo de conocimiento a partir de las entidades y relaciones extraídas.
  4. Ejecutar una recuperación estándar para obtener evidencia inicial para una pregunta del usuario.
  5. Expandir a través de los enlaces del grafo para recopilar evidencia conectada.
  6. Reordenar el conjunto final de evidencias antes de la generación de la respuesta.
Ese es el comportamiento de GraphRAG que fue evaluado.

Contra qué se comparó

La comparación utilizó una línea base de RAG tradicional con el mismo corpus y el mismo modelo de respuesta. La única diferencia entre las dos ejecuciones fue el modo de recuperación:
  • RAG base: solo recuperación plana de fragmentos
  • GraphRAG: expansión iniciada por grafo más reordenamiento consciente de grafo
Esto es importante porque aísla el efecto de GraphRAG en sí mismo.

Diseño del benchmark

El benchmark fue diseñado para probar la recuperación multi-hop en lugar de una simple búsqueda de un solo fragmento. Se utilizó:
  • tres grafos de conocimiento objetivo
  • nueve grafos distractores semánticamente similares
  • 108 documentos cortos de hechos
  • 24 preguntas que requerían enlazar hechos a través de múltiples fragmentos
Este diseño es importante. Si cada respuesta ya aparece en un fragmento obvio, GraphRAG no mostrará mucho beneficio sobre el RAG estándar.

Método de evaluación

Ambos modos de recuperación se ejecutaron sobre el mismo corpus de referencia y el mismo conjunto de preguntas. Ambos luego usaron el mismo modelo de generación de respuestas y el mismo prompt de respuesta. La evaluación registró tres métricas:
  • Coincidencia exacta: si la respuesta final coincidía exactamente con la respuesta de referencia
  • Token F1: superposición de tokens entre la respuesta final y la respuesta de referencia
  • Recall de evidencia@5: cuánta de la evidencia de soporte requerida apareció en los 5 fragmentos recuperados principales

Cómo se usó la API

El flujo de la API evaluada fue simple. Se usó el mismo almacén y los mismos documentos tanto para la ejecución base como para la de GraphRAG. Solo cambió el modo de consulta.

1. Crear un almacén GraphRAG

mka1 search graphrag create-graph-RAG-store \
  --body '{
    "store_name": "benchmark_graphrag",
    "embedding_model": "meetkai:functionary-es-mini",
    "extraction_model": "meetkai:functionary-es-mini",
    "chunk_size": 800,
    "chunk_overlap": 120,
    "max_hops": 2
  }' \
  -H 'X-On-Behalf-Of: <end-user-id>'

2. Ingestar documentos

mka1 search graphrag ingest-graph-RAG-documents \
  --store-name benchmark_graphrag \
  --body '{
    "documents": [
      {
        "document_id": "doc_contract_award",
        "text": "Rivera Logistics won the Northern Bridge Sensors contract.",
        "metadata": { "source": "benchmark" }
      },
      {
        "document_id": "doc_parent_company",
        "text": "Atlas Infrastructure Group owns Rivera Logistics.",
        "metadata": { "source": "benchmark" }
      }
    ]
  }'

3. Ejecutar la consulta RAG base

mka1 search graphrag query-graph-RAG-store \
  --store-name benchmark_graphrag \
  --body '{
    "query": "Who is the chief financial officer of the company that owns the Northern Bridge Sensors contract winner?",
    "mode": "baseline",
    "limit": 5,
    "seed_k": 8
  }'

4. Ejecutar la consulta GraphRAG

mka1 search graphrag query-graph-RAG-store \
  --store-name benchmark_graphrag \
  --body '{
    "query": "Who is the chief financial officer of the company that owns the Northern Bridge Sensors contract winner?",
    "mode": "graph",
    "limit": 5,
    "seed_k": 8
  }'
Ese último paso es la comparación clave. La consulta, el corpus y el modelo de respuesta se mantuvieron iguales. Solo cambió mode:
  • baseline = recuperación plana tradicional
  • graph = recuperación y reordenamiento iniciados por grafo

Resultados medidos

La ejecución en vivo del benchmark produjo los siguientes resultados:
MétodoCoincidencia ExactaToken F1Recall de Evidencia@5
RAG base25.0%27.1%55.9%
GraphRAG62.5%62.5%71.9%
Mejora:
  • Coincidencia Exacta: +37.5 puntos
  • Token F1: +35.4 puntos
  • Recall de Evidencia@5: +16.0 puntos

Umbral de aceptación

El benchmark utilizó los siguientes criterios de aprobación:
  • mejora de coincidencia exacta de al menos +5.0 puntos
  • mejora de recall de evidencia@5 de al menos +10.0 puntos
La implementación evaluada de GraphRAG superó ambos umbrales.

Resultados representativos a nivel de pregunta

Ejemplos donde GraphRAG tuvo éxito y RAG base no:
  • “Who is the chief financial officer of the company that owns the Northern Bridge Sensors contract winner?”
    • RAG base: unknown
    • GraphRAG: Javier Nanda
  • “Which company acquired the firm that prepared a risk report for Meridian Ports Authority?”
    • RAG base: unknown
    • GraphRAG: Atlas Infrastructure Group
  • “Which company owns the company that won the Delta Reach Sensors contract?”
    • RAG base: unknown
    • GraphRAG: Bluepeak Transit Group
Estas son preguntas multi-hop. Requieren enlazar hechos a través de entidades conectadas en lugar de recuperar un solo fragmento que coincida directamente.

Por qué GraphRAG tuvo mejor desempeño

RAG base recuperó fragmentos semánticamente similares, pero a veces no logró recuperar la evidencia conectada necesaria para completar la cadena de razonamiento. GraphRAG mejoró el desempeño al:
  • identificar las entidades semilla relevantes de la pregunta
  • recorrer las relaciones del grafo para encontrar evidencia enlazada
  • reordenar el conjunto final de evidencias usando señales del grafo además de la similitud semántica
Por eso la mejora es más evidente en preguntas multi-hop.

Resumen

En este benchmark, GraphRAG superó a RAG tradicional tanto en precisión de la respuesta final como en recuperación de evidencia de soporte. Las mayores mejoras se observaron en preguntas que requerían enlazar hechos a través de múltiples entidades conectadas.