O que foi implementado
O sistema avaliado não usou apenas recuperação plana de chunks. Ele implementou GraphRAG com as seguintes etapas:- Dividir os documentos de origem em chunks.
- Extrair entidades e relações desses chunks.
- Construir um grafo de conhecimento a partir das entidades e relações extraídas.
- Executar a recuperação padrão para obter evidências iniciais para uma pergunta do usuário.
- Expandir pelos links do grafo para coletar evidências conectadas.
- Reordenar o conjunto final de evidências antes da geração da resposta.
Com o que ele foi comparado
A comparação usou uma linha de base de RAG tradicional com o mesmo corpus e o mesmo modelo de resposta. A única diferença entre as duas execuções foi o modo de recuperação:- Baseline RAG: apenas recuperação plana de chunks
- GraphRAG: expansão a partir do grafo com reranking orientado pelo grafo
Desenho do benchmark
O benchmark foi desenhado para testar recuperação multi-hop, não apenas consulta simples em um único chunk. Ele usou:- um grafo de conhecimento alvo
- vários grafos distratores semanticamente parecidos
- perguntas que exigiam ligar fatos espalhados por múltiplos chunks
Método de avaliação
Os dois modos de recuperação foram executados sobre o mesmo corpus de benchmark e o mesmo conjunto de perguntas. Ambos usaram depois o mesmo modelo de geração de respostas e o mesmo prompt de resposta. A avaliação registrou três métricas:- Exact match: se a resposta final correspondia exatamente à resposta ouro
- Token F1: sobreposição de tokens entre a resposta final e a resposta ouro
- Evidence recall@5: quanto da evidência de suporte necessária aparecia nos 5 chunks recuperados no topo
Como a API foi usada
O fluxo de API avaliado foi simples. A mesma store e os mesmos documentos foram usados tanto na linha de base quanto na execução com GraphRAG. Apenas o modo de consulta mudou.1. Criar uma store de GraphRAG
2. Ingerir documentos
3. Executar a consulta de baseline RAG
4. Executar a consulta com GraphRAG
mode mudou:
baseline= recuperação plana tradicionalgraph= recuperação inicial orientada por grafo com reranking
Resultados medidos
A execução ao vivo do benchmark produziu os seguintes resultados:| Método | Exact Match | Token F1 | Evidence Recall@5 |
|---|---|---|---|
| Baseline RAG | 50.0% | 50.0% | 78.1% |
| GraphRAG | 87.5% | 87.5% | 90.6% |
- Exact Match:
+37.5pontos - Token F1:
+37.5pontos - Evidence Recall@5:
+12.5pontos
Limiar de aceitação
O benchmark usou os seguintes critérios de aprovação:- melhoria em exact match de pelo menos
+5.0pontos - melhoria em evidence recall@5 de pelo menos
+10.0pontos
Resultados representativos por pergunta
Exemplos em que GraphRAG acertou e a baseline RAG não:- “Who is the chief financial officer of the company that owns the Northern Bridge Sensors contract winner?”
- Baseline RAG:
unknown - GraphRAG:
Javier Solis
- Baseline RAG:
- “Which company acquired the firm that prepared a risk report for Meridian Ports Authority?”
- Baseline RAG:
unknown - GraphRAG:
Atlas Infrastructure Group
- Baseline RAG:
- “Who is the chief financial officer of the company that acquired the firm that prepared a risk report for Meridian Ports Authority?”
- Baseline RAG:
unknown - GraphRAG:
Javier Solis
- Baseline RAG:
Por que o GraphRAG teve desempenho melhor
A baseline RAG recuperou chunks semanticamente parecidos, mas às vezes não recuperou a evidência conectada necessária para completar a cadeia de raciocínio. O GraphRAG melhorou o desempenho ao:- identificar as entidades iniciais relevantes a partir da pergunta
- percorrer relações do grafo para encontrar evidências ligadas
- reordenar o conjunto final de evidências usando sinais do grafo além da similaridade semântica