Esta avaliação compara o GraphRAG com o RAG tradicional no mesmo corpus de benchmark e no mesmo conjunto de perguntas. O objetivo foi medir se a recuperação sensível a grafos melhora a resposta a perguntas multi-hop.Documentation Index
Fetch the complete documentation index at: https://docs.mka1.com/llms.txt
Use this file to discover all available pages before exploring further.
O que foi implementado
O sistema avaliado não utilizou apenas a recuperação de chunks plana. Ele implementou o GraphRAG com as seguintes etapas:- Dividir os documentos fonte em chunks.
- Extrair entidades e relacionamentos desses chunks.
- Construir um grafo de conhecimento a partir das entidades e relacionamentos extraídos.
- Executar a recuperação padrão para obter evidências iniciais para uma pergunta do usuário.
- Expandir através dos links do grafo para coletar evidências conectadas.
- Reordenar o conjunto final de evidências antes da geração da resposta.
Contra o que foi comparado
A comparação utilizou uma linha de base RAG tradicional com o mesmo corpus e o mesmo modelo de resposta. A única diferença entre as duas execuções foi o modo de recuperação:- RAG Baseline: apenas recuperação plana de chunks
- GraphRAG: expansão guiada por grafo mais reranqueamento sensível ao grafo
Design do benchmark
O benchmark foi projetado para testar a recuperação multi-hop, e não apenas buscas simples em um único chunk. Ele utilizou:- três grafos de conhecimento alvo
- nove grafos distratores semanticamente similares
- 108 documentos factuais curtos
- 24 perguntas que exigiam a ligação de fatos entre múltiplos chunks
Método de avaliação
Ambos os modos de recuperação foram executados sobre o mesmo corpus de benchmark e o mesmo conjunto de perguntas. Ambos então utilizaram o mesmo modelo de geração de resposta e o mesmo prompt de resposta. A avaliação registrou três métricas:- Correspondência exata: se a resposta final correspondeu exatamente à resposta ouro
- Token F1: sobreposição de tokens entre a resposta final e a resposta ouro
- Recall de evidência@5: quanto da evidência de suporte necessária apareceu nos 5 principais chunks recuperados
Como a API foi utilizada
O fluxo da API avaliado foi simples. A mesma store e os mesmos documentos foram usados tanto para a baseline quanto para o GraphRAG. Apenas o modo de consulta foi alterado.1. Criar uma store GraphRAG
2. Ingerir documentos
3. Executar a consulta baseline RAG
4. Executar a consulta GraphRAG
mode foi alterado:
baseline= recuperação plana tradicionalgraph= recuperação guiada por grafo e reranqueamento
Resultados medidos
A execução ao vivo do benchmark produziu os seguintes resultados:| Método | Correspondência Exata | Token F1 | Recall de Evidência@5 |
|---|---|---|---|
| RAG Baseline | 25,0% | 27,1% | 55,9% |
| GraphRAG | 62,5% | 62,5% | 71,9% |
- Correspondência Exata:
+37,5pontos - Token F1:
+35,4pontos - Recall de Evidência@5:
+16,0pontos
Limite de aceitação
O benchmark utilizou os seguintes critérios de aprovação:- melhoria de correspondência exata de pelo menos
+5,0pontos - melhoria de recall de evidência@5 de pelo menos
+10,0pontos
Exemplos representativos de resultados por pergunta
Exemplos onde o GraphRAG teve sucesso e o RAG baseline não:- “Who is the chief financial officer of the company that owns the Northern Bridge Sensors contract winner?”
- RAG Baseline:
unknown - GraphRAG:
Javier Nanda
- RAG Baseline:
- “Which company acquired the firm that prepared a risk report for Meridian Ports Authority?”
- RAG Baseline:
unknown - GraphRAG:
Atlas Infrastructure Group
- RAG Baseline:
- “Which company owns the company that won the Delta Reach Sensors contract?”
- RAG Baseline:
unknown - GraphRAG:
Bluepeak Transit Group
- RAG Baseline:
Por que o GraphRAG teve melhor desempenho
O RAG baseline recuperou chunks semanticamente similares, mas às vezes não conseguiu recuperar as evidências conectadas necessárias para completar a cadeia de raciocínio. O GraphRAG melhorou o desempenho ao:- identificar as entidades iniciais relevantes a partir da pergunta
- atravessar os relacionamentos do grafo para encontrar evidências ligadas
- reranquear o conjunto final de evidências com sinais do grafo além da similaridade semântica