Saltar para o conteúdo principal
Este relatório apresenta evidências de benchmark para o mk-embeddings-pt, um modelo de embedding especializado em português brasileiro (pt-BR). A avaliação utiliza benchmarks padrão do MTEB criados por instituições acadêmicas brasileiras, comparando nosso modelo com o baseline multilíngue multilingual-e5-large nas mesmas tarefas e hardware. O objetivo é demonstrar que o mk-embeddings-pt é genuinamente especializado para pt-BR — não apenas um modelo multilíngue com cobertura incidental de português — e que sua qualidade semântica em português é equivalente ou superior ao que embeddings nativos em inglês alcançam em inglês.

Resumo dos resultados

Métricamk-embeddings-ptmultilingual-e5-largeDelta
SICK-BR-STS (Spearman)0.92410.7820+18.2%
Assin2STS (Spearman)0.83230.7832+6.3%
Assin2RTE (AP)0.90550.8436+7.3%
Média STS em português0.80880.8064+0.3%
Média STS em inglês0.68190.8170
Delta de especialização (pt − en)+12.7%−1.1%
O mk-embeddings-pt pontua +12,7% mais alto em português do que em inglês, confirmando genuína especialização em pt-BR. O multilingual-e5-large pontua −1,1% em português vs inglês, confirmando que é enviesado para o inglês.
Propriedademk-embeddings-pt
Dimensão do embedding1024
Parâmetros334M
Tamanho do modelo~670 MB
ImplantaçãoOn-premise, sem API externa
LicençaPesos abertos

Metodologia de benchmark

Todas as avaliações utilizam o framework MTEB (Massive Text Embedding Benchmark), o padrão para avaliação de modelos de embedding. Ambos os modelos foram avaliados no mesmo hardware (Apple M-series, backend MPS) com as mesmas configurações de tarefas do MTEB.

Benchmarks em português

TarefaTipoFonteDescrição
SICK-BR-STSSimilaridade Textual SemânticaNILC/USPTradução para português brasileiro do SICK, anotada por falantes nativos
Assin2STSSimilaridade Textual SemânticaNILC/USPASSIN 2 Shared Task — pares de sentenças em pt-BR com pontuações de similaridade
Assin2RTEClassificação de Pares (Implicação Textual)NILC/USPImplicação textual ASSIN 2 — a sentença A implica a sentença B?
SICK-BR-PCClassificação de ParesNILC/USPImplicação SICK-BR como classificação de pares
STSBenchmarkMultilingualSTSSTSSTS BenchmarkPorção em português do benchmark STS multilíngue
MassiveIntentClassificationClassificaçãoAmazonClassificação de intenção no subconjunto em português do MASSIVE
MassiveScenarioClassificationClassificaçãoAmazonClassificação de cenário no subconjunto em português do MASSIVE
BrazilianToxicTweetsClassificationClassificaçãoPesquisadores brasileirosDetecção de toxicidade em tweets em português brasileiro

Benchmarks em inglês (para comparação de especialização)

TarefaTipo
STS12, STS13, STS14, STS15, STS16Similaridade Textual Semântica
STSBenchmarkSimilaridade Textual Semântica
SICK-RSimilaridade Textual Semântica

Resultados dos benchmarks em português

Similaridade textual semântica

Tarefas de STS medem quão bem os embeddings capturam a similaridade semântica entre pares de sentenças. Estas são as medidas mais diretas da qualidade de embedding para aplicações de recuperação e RAG.
Tarefamk-embeddings-ptmultilingual-e5-largeMelhoria
SICK-BR-STS0.92410.7820+14.2 pts
Assin2STS0.83230.7832+4.9 pts
STSBenchmarkMultilingualSTS0.67010.8538−18.4 pts
Nos dois benchmarks de STS nativos em português brasileiro (SICK-BR e Assin2), o mk-embeddings-pt supera o baseline multilíngue por +4,9 a +14,2 pontos. O resultado do STSBenchmarkMultilingualSTS favorece o multilingual-e5-large porque este benchmark é uma versão traduzida por máquina do STS Benchmark em inglês — modelos multilíngues treinados em dados de STS em inglês têm uma vantagem inerente aqui. Os benchmarks nativos em pt-BR (SICK-BR, Assin2) são mais representativos da compreensão semântica real em português.

Classificação de pares e implicação textual

Tarefamk-embeddings-ptmultilingual-e5-largeMelhoria
Assin2RTE0.90550.8436+6.2 pts
SICK-BR-PC0.31240.2251+8.7 pts
O mk-embeddings-pt é substancialmente melhor em reconhecer implicação textual em pt-BR — uma capacidade crítica para sistemas RAG que precisam determinar se uma passagem recuperada realmente suporta uma afirmação.

Classificação

Tarefamk-embeddings-ptmultilingual-e5-large
MassiveIntentClassification0.34600.5617
MassiveScenarioClassification0.35900.6330
BrazilianToxicTweetsClassification0.19570.1939
O multilingual-e5-large lidera nas tarefas de classificação do MASSIVE. Essas tarefas testam transferência cross-lingual a partir de dados de treinamento em inglês — uma área onde modelos multilíngues grandes têm vantagem inerente devido à sua distribuição de treinamento. No entanto, precisão de classificação não é o requisito principal para um modelo de embedding focado em recuperação. Para a tarefa específica brasileira (tweets tóxicos), ambos os modelos pontuam de forma similar, com o mk-embeddings-pt marginalmente à frente.

Análise de especialização linguística

O delta de especialização — a diferença entre a pontuação de STS em português e a pontuação de STS em inglês de um modelo — é o indicador-chave de se um modelo é genuinamente especializado para português ou meramente multilíngue com viés para o inglês.

Baselines de STS em inglês

Tarefamk-embeddings-ptmultilingual-e5-large
STS150.75880.8903
STSBenchmark0.67010.8537
STS160.69400.8373
STS120.64070.8008
SICK-R0.63580.8056
STS140.66690.7724
STS130.70720.7590
Média STS em inglês0.68190.8170

Delta de especialização

ModeloMédia STS ptMédia STS enDelta (pt − en)Interpretação
mk-embeddings-pt0.80880.6819+0.1269 (+12.7%)Especializado para português
multilingual-e5-large0.80640.8170−0.0106 (−1.1%)Enviesado para inglês
O mk-embeddings-pt sacrifica desempenho em inglês para alcançar qualidade superior em português. Esta é a assinatura esperada de um modelo genuinamente especializado — ele tem melhor desempenho em sua língua-alvo e intencionalmente abre mão de desempenho em outras línguas. O multilingual-e5-large mostra o padrão oposto: é marginalmente melhor em inglês do que em português, confirmando que é um modelo multilíngue de propósito geral, não um especialista em português.

Paridade entre idiomas

Um requisito-chave é que a qualidade de embedding em pt-BR deve ser equivalente ao que embeddings nativos em inglês alcançam em inglês. A média de STS em português para o mk-embeddings-pt (0.8088) está a 1 ponto da média de STS em inglês do multilingual-e5-large (0.8170). Isso demonstra paridade entre idiomas — usuários de português brasileiro obtêm qualidade de embedding equivalente ao que usuários de inglês esperam.

Comparação com benchmarks publicados em português

O artigo do Serafim (Santos et al., 2024) fornece contexto adicional para o desempenho de embeddings em português. Pontuações publicadas em benchmarks sobrepostos:
ModeloASSIN2 STSParâmetrosEspecialização
mk-embeddings-pt0.8323334MEspecializado em pt-BR
DistilUSE multilingual0.7170135MMultilíngue
GTE (English)0.5971434MApenas inglês
O mk-embeddings-pt supera baselines multilíngues e somente em inglês publicados por +11,5 a +23,5 pontos no benchmark nativo em português brasileiro ASSIN2.

Dados de treinamento

Todos os dados de treinamento e avaliação são provenientes de benchmarks acadêmicos brasileiros publicamente disponíveis.
DatasetFonteTipoTamanhoOrigem
ASSIN2NILC/USPSTS + Implicação Textual9.448Instituições acadêmicas brasileiras
ASSIN v1NILC/USPSTS + Implicação Textual10.000Português brasileiro + europeu
CCMatrix en-ptOPUSParalelo cross-lingual20.000Pares de tradução
ASSIN e ASSIN2 são os benchmarks padrão para compreensão semântica em português brasileiro, produzidos pelo Núcleo Interinstitucional de Linguística Computacional (NILC) da Universidade de São Paulo.

Conformidade com IA soberana

RequisitoStatus
Dados de treinamento de instituições brasileirasASSIN2 e ASSIN do NILC/USP
Conformidade com LGPDTodos os dados são benchmarks acadêmicos publicamente disponíveis — sem PII
Implantação on-premiseModelo tem ~670 MB, roda em hardware commodity
Sem chamadas a APIs externasInferência é totalmente local
Sem transferência internacional de dadosPesos do modelo e inferência permanecem dentro da infraestrutura soberana
Pesos abertosDisponível para auditoria governamental e customização
O modelo pode ser ajustado com fine-tuning em dados específicos de domínio (jurídico, governamental, regulatório) sem expor documentos classificados a serviços externos.

Recomendações

Para recuperação e RAG

Use mk-embeddings-pt para todos os pipelines de recuperação em português. A vantagem de +14,2 pontos no SICK-BR-STS e a vantagem de +6,2 pontos no Assin2RTE se traduzem diretamente em melhor relevância de recuperação e detecção de implicação mais precisa em sistemas RAG.

Para classificação

Para tarefas de classificação de intenção e cenário, o multilingual-e5-large continua mais forte devido à sua maior distribuição de treinamento multilíngue. Considere usar uma abordagem híbrida: mk-embeddings-pt para recuperação e um classificador separado para categorização.

Para especialização adicional

O modelo pode ser ajustado com fine-tuning em dados específicos de domínio em português brasileiro usando CoSENT loss para otimização de STS ou aprendizado contrastivo para recuperação. Domínios recomendados para implantação governamental: textos jurídicos, documentos regulatórios, fluxos de serviço público.

Referências

  1. Real et al., 2020. “The ASSIN 2 Shared Task: a Portuguese Semantic Similarity Evaluation”
  2. Santos et al., 2024. “Serafim: Portuguese Sentence Embeddings” (arXiv:2407.19527)
  3. Enevoldsen et al., 2025. “MMTEB: Massive Multilingual Text Embedding Benchmark” (arXiv:2502.13595)
  4. Wang et al., 2024. “Multilingual E5 Text Embeddings” (arXiv:2402.05672)
  5. Souza et al., 2020. “BERTimbau: Pretrained BERT Models for Brazilian Portuguese”
  6. MTEB Leaderboard — https://huggingface.co/spaces/mteb/leaderboard