Pular para o conteúdo principal

Documentation Index

Fetch the complete documentation index at: https://docs.mka1.com/llms.txt

Use this file to discover all available pages before exploring further.

Este relatório apresenta evidências de benchmark para o mk-embeddings-pt, um modelo de embeddings especializado para português brasileiro (pt-BR). A avaliação utiliza benchmarks MTEB padrão, desenvolvidos por instituições acadêmicas brasileiras, comparando nosso modelo com o baseline multilíngue multilingual-e5-large nas mesmas tarefas e hardware. O objetivo é demonstrar que o mk-embeddings-pt é genuinamente especializado para pt-BR — não apenas um modelo multilíngue com cobertura incidental de português — e que sua qualidade semântica em português é equivalente ou superior à que embeddings nativos de inglês atingem em inglês.

Resumo dos resultados

Métricamk-embeddings-ptmultilingual-e5-largeDelta
SICK-BR-STS (Spearman)0.92410.7820+18,2%
Assin2STS (Spearman)0.83230.7832+6,3%
Assin2RTE (AP)0.90550.8436+7,3%
Média STS em português0.80880.8064+0,3%
Média STS em inglês0.68190.8170
Delta de especialização (pt − en)+12,7%−1,1%
O mk-embeddings-pt pontua +12,7% mais alto em português do que em inglês, confirmando especialização genuína em pt-BR. O multilingual-e5-large pontua −1,1% em português vs inglês, confirmando viés para o inglês.
Propriedademk-embeddings-pt
Dimensão do embedding1024
Parâmetros334M
Tamanho do modelo~670 MB
ImplantaçãoOn-premise, sem API externa
LicençaPesos abertos

Metodologia de benchmark

Todas as avaliações utilizam o MTEB (Massive Text Embedding Benchmark), o padrão para avaliação de modelos de embeddings. Ambos os modelos foram avaliados no mesmo hardware (Apple M-series, backend MPS) com as mesmas configurações de tarefas do MTEB.

Benchmarks em português

TarefaTipoFonteDescrição
SICK-BR-STSSimilaridade Textual SemânticaNILC/USPTradução para o português brasileiro do SICK, anotada por falantes nativos
Assin2STSSimilaridade Textual SemânticaNILC/USPASSIN 2 Shared Task — pares de sentenças pt-BR com escores de similaridade
Assin2RTEClassificação de Pares (Entailment)NILC/USPEntailment textual do ASSIN 2 — a sentença A implica a sentença B?
SICK-BR-PCClassificação de ParesNILC/USPEntailment do SICK-BR como classificação de pares
STSBenchmarkMultilingualSTSSTSSTS BenchmarkParte em português do benchmark multilíngue de STS
MassiveIntentClassificationClassificaçãoAmazonClassificação de intenção no subconjunto em português do MASSIVE
MassiveScenarioClassificationClassificaçãoAmazonClassificação de cenário no subconjunto em português do MASSIVE
BrazilianToxicTweetsClassificationClassificaçãoPesquisadores brasileirosDetecção de toxicidade em tweets em português brasileiro

Benchmarks em inglês (para comparação de especialização)

TarefaTipo
STS12, STS13, STS14, STS15, STS16Similaridade Textual Semântica
STSBenchmarkSimilaridade Textual Semântica
SICK-RSimilaridade Textual Semântica

Resultados dos benchmarks em português

Similaridade textual semântica

Tarefas de STS medem o quão bem os embeddings capturam similaridade semântica entre pares de sentenças. São a medida mais direta de qualidade de embedding para aplicações de busca e RAG.
Tarefamk-embeddings-ptmultilingual-e5-largeMelhoria
SICK-BR-STS0.92410.7820+14,2 pts
Assin2STS0.83230.7832+4,9 pts
STSBenchmarkMultilingualSTS0.67010.8538−18,4 pts
Nos dois benchmarks nativos de STS em português brasileiro (SICK-BR e Assin2), o mk-embeddings-pt supera o baseline multilíngue por +4,9 a +14,2 pontos. O resultado no STSBenchmarkMultilingualSTS favorece o multilingual-e5-large porque este benchmark é uma versão traduzida automaticamente do STS Benchmark em inglês — modelos multilíngues treinados em dados de STS em inglês têm vantagem inerente aqui. Os benchmarks nativos pt-BR (SICK-BR, Assin2) são mais representativos de compreensão semântica real em português.

Classificação de pares e entailment

Tarefamk-embeddings-ptmultilingual-e5-largeMelhoria
Assin2RTE0.90550.8436+6,2 pts
SICK-BR-PC0.31240.2251+8,7 pts
O mk-embeddings-pt é substancialmente melhor em reconhecer entailment textual em pt-BR — uma capacidade crítica para sistemas RAG que precisam determinar se um trecho recuperado realmente suporta uma afirmação.

Classificação

Tarefamk-embeddings-ptmultilingual-e5-large
MassiveIntentClassification0.34600.5617
MassiveScenarioClassification0.35900.6330
BrazilianToxicTweetsClassification0.19570.1939
O multilingual-e5-large lidera nas tarefas de classificação do MASSIVE. Essas tarefas testam transferência cross-lingual a partir de dados de treinamento em inglês — uma área onde grandes modelos multilíngues têm vantagem inerente devido à sua distribuição de treinamento. No entanto, acurácia de classificação não é o requisito principal para um modelo de embeddings focado em busca. Na tarefa específica brasileira (tweets tóxicos), ambos os modelos pontuam de forma semelhante, com leve vantagem para o mk-embeddings-pt.

Análise de especialização linguística

O delta de especialização — a diferença entre o score de STS em português e em inglês de um modelo — é o principal indicador de se um modelo é genuinamente especializado em português ou apenas multilíngue com viés para o inglês.

Baselines de STS em inglês

Tarefamk-embeddings-ptmultilingual-e5-large
STS150.75880.8903
STSBenchmark0.67010.8537
STS160.69400.8373
STS120.64070.8008
SICK-R0.63580.8056
STS140.66690.7724
STS130.70720.7590
Média STS em inglês0.68190.8170

Delta de especialização

ModeloMédia STS ptMédia STS enDelta (pt − en)Interpretação
mk-embeddings-pt0.80880.6819+0.1269 (+12,7%)Especializado em português
multilingual-e5-large0.80640.8170−0.0106 (−1,1%)Viés para inglês
O mk-embeddings-pt sacrifica desempenho em inglês para atingir qualidade superior em português. Esse é o padrão esperado de um modelo genuinamente especializado — ele performa melhor em seu idioma-alvo e intencionalmente troca desempenho em outros idiomas. O multilingual-e5-large mostra o padrão oposto: é marginalmente melhor em inglês do que em português, confirmando que é um modelo multilíngue generalista, não um especialista em português.

Paridade entre idiomas

Um requisito fundamental é que a qualidade dos embeddings em pt-BR seja equivalente à que embeddings nativos de inglês atingem em inglês. A média de STS em português para o mk-embeddings-pt (0.8088) está a 1 ponto da média de STS em inglês para o multilingual-e5-large (0.8170). Isso demonstra paridade entre idiomas — usuários brasileiros têm qualidade de embedding equivalente à esperada por usuários de inglês.

Comparação com benchmarks publicados em português

O artigo Serafim (Santos et al., 2024) fornece contexto adicional para desempenho de embeddings em português. Scores publicados em benchmarks sobrepostos:
ModeloASSIN2 STSParâmetrosEspecialização
mk-embeddings-pt0.8323334MEspecializado pt-BR
DistilUSE multilíngue0.7170135MMultilíngue
GTE (inglês)0.5971434MApenas inglês
O mk-embeddings-pt supera baselines multilíngues e apenas inglês publicados por +11,5 a +23,5 pontos no benchmark nativo brasileiro ASSIN2.

Dados de treinamento

Todos os dados de treinamento e avaliação vêm de benchmarks acadêmicos brasileiros de acesso público.
DatasetFonteTipoTamanhoOrigem
ASSIN2NILC/USPSTS + Entailment9.448Instituições acadêmicas brasileiras
ASSIN v1NILC/USPSTS + Entailment10.000Português brasileiro + europeu
CCMatrix en-ptOPUSParalelo cross-lingual20.000Pares de tradução
ASSIN e ASSIN2 são os benchmarks padrão para compreensão semântica em português brasileiro, produzidos pelo Núcleo Interinstitucional de Linguística Computacional (NILC) da Universidade de São Paulo.

Conformidade com IA soberana

RequisitoStatus
Dados de treinamento de instituições brasileirasASSIN2 e ASSIN do NILC/USP
Conformidade LGPDTodos os dados são benchmarks acadêmicos públicos — sem PII
Implantação on-premiseModelo tem ~670 MB, roda em hardware comum
Sem chamadas de API externasInferência é totalmente local
Sem transferência internacional de dadosPesos do modelo e inferência permanecem em infraestrutura soberana
Pesos abertosDisponível para auditoria e customização governamental
O modelo pode ser ainda mais ajustado com dados específicos de domínio (jurídico, governamental, regulatório) sem expor documentos sigilosos a serviços externos.

Recomendações

Para busca e RAG

Use o mk-embeddings-pt em todos os pipelines de busca em português. A vantagem de +14,2 pontos no SICK-BR-STS e +6,2 pontos no Assin2RTE se traduzem diretamente em maior relevância de busca e detecção de entailment mais precisa em sistemas RAG.

Para classificação

Para tarefas de classificação de intenção e de cenário, o multilingual-e5-large permanece mais forte devido à sua distribuição de treinamento multilíngue mais ampla. Considere uma abordagem híbrida: mk-embeddings-pt para busca e um classificador separado para categorização.

Para especialização adicional

O modelo pode ser ajustado com dados brasileiros específicos de domínio usando CoSENT loss para otimização de STS ou aprendizado contrastivo para busca. Domínios recomendados para uso governamental: textos jurídicos, documentos regulatórios, fluxos de serviço público.

Referências

  1. Real et al., 2020. “The ASSIN 2 Shared Task: a Portuguese Semantic Similarity Evaluation”
  2. Santos et al., 2024. “Serafim: Portuguese Sentence Embeddings” (arXiv:2407.19527)
  3. Enevoldsen et al., 2025. “MMTEB: Massive Multilingual Text Embedding Benchmark” (arXiv:2502.13595)
  4. Wang et al., 2024. “Multilingual E5 Text Embeddings” (arXiv:2402.05672)
  5. Souza et al., 2020. “BERTimbau: Pretrained BERT Models for Brazilian Portuguese”
  6. MTEB Leaderboard — https://huggingface.co/spaces/mteb/leaderboard