Embeddings especializados pt-BR

Este relatório apresenta evidências de benchmark para o mk-embeddings-pt, um modelo de embeddings especializado para português brasileiro (pt-BR). A avaliação utiliza benchmarks MTEB padrão, desenvolvidos por instituições acadêmicas brasileiras, comparando nosso modelo com o baseline multilíngue multilingual-e5-large nas mesmas tarefas e hardware. O objetivo é demonstrar que o mk-embeddings-pt é genuinamente especializado para pt-BR — não apenas um modelo multilíngue com cobertura incidental de português — e que sua qualidade semântica em português é equivalente ou superior à que embeddings nativos de inglês atingem em inglês.

Resumo dos resultados

Métrica	mk-embeddings-pt	multilingual-e5-large	Delta
SICK-BR-STS (Spearman)	0.9241	0.7820	+18,2%
Assin2STS (Spearman)	0.8323	0.7832	+6,3%
Assin2RTE (AP)	0.9055	0.8436	+7,3%
Média STS em português	0.8088	0.8064	+0,3%
Média STS em inglês	0.6819	0.8170	—
Delta de especialização (pt − en)	+12,7%	−1,1%	—

O mk-embeddings-pt pontua +12,7% mais alto em português do que em inglês, confirmando especialização genuína em pt-BR. O multilingual-e5-large pontua −1,1% em português vs inglês, confirmando viés para o inglês.

Propriedade	mk-embeddings-pt
Dimensão do embedding	1024
Parâmetros	334M
Tamanho do modelo	~670 MB
Implantação	On-premise, sem API externa
Licença	Pesos abertos

Metodologia de benchmark

Todas as avaliações utilizam o MTEB (Massive Text Embedding Benchmark), o padrão para avaliação de modelos de embeddings. Ambos os modelos foram avaliados no mesmo hardware (Apple M-series, backend MPS) com as mesmas configurações de tarefas do MTEB.

Benchmarks em português

Tarefa	Tipo	Fonte	Descrição
SICK-BR-STS	Similaridade Textual Semântica	NILC/USP	Tradução para o português brasileiro do SICK, anotada por falantes nativos
Assin2STS	Similaridade Textual Semântica	NILC/USP	ASSIN 2 Shared Task — pares de sentenças pt-BR com escores de similaridade
Assin2RTE	Classificação de Pares (Entailment)	NILC/USP	Entailment textual do ASSIN 2 — a sentença A implica a sentença B?
SICK-BR-PC	Classificação de Pares	NILC/USP	Entailment do SICK-BR como classificação de pares
STSBenchmarkMultilingualSTS	STS	STS Benchmark	Parte em português do benchmark multilíngue de STS
MassiveIntentClassification	Classificação	Amazon	Classificação de intenção no subconjunto em português do MASSIVE
MassiveScenarioClassification	Classificação	Amazon	Classificação de cenário no subconjunto em português do MASSIVE
BrazilianToxicTweetsClassification	Classificação	Pesquisadores brasileiros	Detecção de toxicidade em tweets em português brasileiro

Benchmarks em inglês (para comparação de especialização)

Tarefa	Tipo
STS12, STS13, STS14, STS15, STS16	Similaridade Textual Semântica
STSBenchmark	Similaridade Textual Semântica
SICK-R	Similaridade Textual Semântica

Resultados dos benchmarks em português

Similaridade textual semântica

Tarefas de STS medem o quão bem os embeddings capturam similaridade semântica entre pares de sentenças. São a medida mais direta de qualidade de embedding para aplicações de busca e RAG.

Tarefa	mk-embeddings-pt	multilingual-e5-large	Melhoria
SICK-BR-STS	0.9241	0.7820	+14,2 pts
Assin2STS	0.8323	0.7832	+4,9 pts
STSBenchmarkMultilingualSTS	0.6701	0.8538	−18,4 pts

Nos dois benchmarks nativos de STS em português brasileiro (SICK-BR e Assin2), o mk-embeddings-pt supera o baseline multilíngue por +4,9 a +14,2 pontos. O resultado no STSBenchmarkMultilingualSTS favorece o multilingual-e5-large porque este benchmark é uma versão traduzida automaticamente do STS Benchmark em inglês — modelos multilíngues treinados em dados de STS em inglês têm vantagem inerente aqui. Os benchmarks nativos pt-BR (SICK-BR, Assin2) são mais representativos de compreensão semântica real em português.

Classificação de pares e entailment

Tarefa	mk-embeddings-pt	multilingual-e5-large	Melhoria
Assin2RTE	0.9055	0.8436	+6,2 pts
SICK-BR-PC	0.3124	0.2251	+8,7 pts

O mk-embeddings-pt é substancialmente melhor em reconhecer entailment textual em pt-BR — uma capacidade crítica para sistemas RAG que precisam determinar se um trecho recuperado realmente suporta uma afirmação.

Classificação

Tarefa	mk-embeddings-pt	multilingual-e5-large
MassiveIntentClassification	0.3460	0.5617
MassiveScenarioClassification	0.3590	0.6330
BrazilianToxicTweetsClassification	0.1957	0.1939

O multilingual-e5-large lidera nas tarefas de classificação do MASSIVE. Essas tarefas testam transferência cross-lingual a partir de dados de treinamento em inglês — uma área onde grandes modelos multilíngues têm vantagem inerente devido à sua distribuição de treinamento. No entanto, acurácia de classificação não é o requisito principal para um modelo de embeddings focado em busca. Na tarefa específica brasileira (tweets tóxicos), ambos os modelos pontuam de forma semelhante, com leve vantagem para o mk-embeddings-pt.

Análise de especialização linguística

O delta de especialização — a diferença entre o score de STS em português e em inglês de um modelo — é o principal indicador de se um modelo é genuinamente especializado em português ou apenas multilíngue com viés para o inglês.

Baselines de STS em inglês

Tarefa	mk-embeddings-pt	multilingual-e5-large
STS15	0.7588	0.8903
STSBenchmark	0.6701	0.8537
STS16	0.6940	0.8373
STS12	0.6407	0.8008
SICK-R	0.6358	0.8056
STS14	0.6669	0.7724
STS13	0.7072	0.7590
Média STS em inglês	0.6819	0.8170

Delta de especialização

Modelo	Média STS pt	Média STS en	Delta (pt − en)	Interpretação
mk-embeddings-pt	0.8088	0.6819	+0.1269 (+12,7%)	Especializado em português
multilingual-e5-large	0.8064	0.8170	−0.0106 (−1,1%)	Viés para inglês

O mk-embeddings-pt sacrifica desempenho em inglês para atingir qualidade superior em português. Esse é o padrão esperado de um modelo genuinamente especializado — ele performa melhor em seu idioma-alvo e intencionalmente troca desempenho em outros idiomas. O multilingual-e5-large mostra o padrão oposto: é marginalmente melhor em inglês do que em português, confirmando que é um modelo multilíngue generalista, não um especialista em português.

Paridade entre idiomas

Um requisito fundamental é que a qualidade dos embeddings em pt-BR seja equivalente à que embeddings nativos de inglês atingem em inglês. A média de STS em português para o mk-embeddings-pt (0.8088) está a 1 ponto da média de STS em inglês para o multilingual-e5-large (0.8170). Isso demonstra paridade entre idiomas — usuários brasileiros têm qualidade de embedding equivalente à esperada por usuários de inglês.

Comparação com benchmarks publicados em português

O artigo Serafim (Santos et al., 2024) fornece contexto adicional para desempenho de embeddings em português. Scores publicados em benchmarks sobrepostos:

Modelo	ASSIN2 STS	Parâmetros	Especialização
mk-embeddings-pt	0.8323	334M	Especializado pt-BR
DistilUSE multilíngue	0.7170	135M	Multilíngue
GTE (inglês)	0.5971	434M	Apenas inglês

O mk-embeddings-pt supera baselines multilíngues e apenas inglês publicados por +11,5 a +23,5 pontos no benchmark nativo brasileiro ASSIN2.

Dados de treinamento

Todos os dados de treinamento e avaliação vêm de benchmarks acadêmicos brasileiros de acesso público.

Dataset	Fonte	Tipo	Tamanho	Origem
ASSIN2	NILC/USP	STS + Entailment	9.448	Instituições acadêmicas brasileiras
ASSIN v1	NILC/USP	STS + Entailment	10.000	Português brasileiro + europeu
CCMatrix en-pt	OPUS	Paralelo cross-lingual	20.000	Pares de tradução

ASSIN e ASSIN2 são os benchmarks padrão para compreensão semântica em português brasileiro, produzidos pelo Núcleo Interinstitucional de Linguística Computacional (NILC) da Universidade de São Paulo.

Conformidade com IA soberana

Requisito	Status
Dados de treinamento de instituições brasileiras	ASSIN2 e ASSIN do NILC/USP
Conformidade LGPD	Todos os dados são benchmarks acadêmicos públicos — sem PII
Implantação on-premise	Modelo tem ~670 MB, roda em hardware comum
Sem chamadas de API externas	Inferência é totalmente local
Sem transferência internacional de dados	Pesos do modelo e inferência permanecem em infraestrutura soberana
Pesos abertos	Disponível para auditoria e customização governamental

O modelo pode ser ainda mais ajustado com dados específicos de domínio (jurídico, governamental, regulatório) sem expor documentos sigilosos a serviços externos.

Recomendações

Para busca e RAG

Use o mk-embeddings-pt em todos os pipelines de busca em português. A vantagem de +14,2 pontos no SICK-BR-STS e +6,2 pontos no Assin2RTE se traduzem diretamente em maior relevância de busca e detecção de entailment mais precisa em sistemas RAG.

Para classificação

Para tarefas de classificação de intenção e de cenário, o multilingual-e5-large permanece mais forte devido à sua distribuição de treinamento multilíngue mais ampla. Considere uma abordagem híbrida: mk-embeddings-pt para busca e um classificador separado para categorização.

Para especialização adicional

O modelo pode ser ajustado com dados brasileiros específicos de domínio usando CoSENT loss para otimização de STS ou aprendizado contrastivo para busca. Domínios recomendados para uso governamental: textos jurídicos, documentos regulatórios, fluxos de serviço público.

Referências

Real et al., 2020. “The ASSIN 2 Shared Task: a Portuguese Semantic Similarity Evaluation”
Santos et al., 2024. “Serafim: Portuguese Sentence Embeddings” (arXiv:2407.19527)
Enevoldsen et al., 2025. “MMTEB: Massive Multilingual Text Embedding Benchmark” (arXiv:2502.13595)
Wang et al., 2024. “Multilingual E5 Text Embeddings” (arXiv:2402.05672)
Souza et al., 2020. “BERTimbau: Pretrained BERT Models for Brazilian Portuguese”
MTEB Leaderboard — https://huggingface.co/spaces/mteb/leaderboard

Primeiros passos

Respostas

Recursos

CLI

Receitas

Benchmarks

Infraestrutura

Embeddings especializados pt-BR

Resumo dos resultados

Metodologia de benchmark

Benchmarks em português

Benchmarks em inglês (para comparação de especialização)

Resultados dos benchmarks em português

Similaridade textual semântica

Classificação de pares e entailment

Classificação

Análise de especialização linguística

Baselines de STS em inglês

Delta de especialização

Paridade entre idiomas

Comparação com benchmarks publicados em português

Dados de treinamento

Conformidade com IA soberana

Recomendações

Para busca e RAG

Para classificação

Para especialização adicional

Referências

Primeiros passos

Respostas

Recursos

CLI

Receitas

Benchmarks

Infraestrutura

Documentation Index

​Resumo dos resultados

​Metodologia de benchmark

​Benchmarks em português

​Benchmarks em inglês (para comparação de especialização)

​Resultados dos benchmarks em português

​Similaridade textual semântica

​Classificação de pares e entailment

​Classificação

​Análise de especialização linguística

​Baselines de STS em inglês

​Delta de especialização

​Paridade entre idiomas

​Comparação com benchmarks publicados em português

​Dados de treinamento

​Conformidade com IA soberana

​Recomendações

​Para busca e RAG

​Para classificação

​Para especialização adicional

​Referências

Resumo dos resultados

Metodologia de benchmark

Benchmarks em português

Benchmarks em inglês (para comparação de especialização)

Resultados dos benchmarks em português

Similaridade textual semântica

Classificação de pares e entailment

Classificação

Análise de especialização linguística

Baselines de STS em inglês

Delta de especialização

Paridade entre idiomas

Comparação com benchmarks publicados em português

Dados de treinamento

Conformidade com IA soberana

Recomendações

Para busca e RAG

Para classificação

Para especialização adicional

Referências