mk-embeddings-pt, um modelo de embedding especializado em português brasileiro (pt-BR).
A avaliação utiliza benchmarks padrão do MTEB criados por instituições acadêmicas brasileiras, comparando nosso modelo com o baseline multilíngue multilingual-e5-large nas mesmas tarefas e hardware.
O objetivo é demonstrar que o mk-embeddings-pt é genuinamente especializado para pt-BR — não apenas um modelo multilíngue com cobertura incidental de português — e que sua qualidade semântica em português é equivalente ou superior ao que embeddings nativos em inglês alcançam em inglês.
Resumo dos resultados
| Métrica | mk-embeddings-pt | multilingual-e5-large | Delta |
|---|---|---|---|
| SICK-BR-STS (Spearman) | 0.9241 | 0.7820 | +18.2% |
| Assin2STS (Spearman) | 0.8323 | 0.7832 | +6.3% |
| Assin2RTE (AP) | 0.9055 | 0.8436 | +7.3% |
| Média STS em português | 0.8088 | 0.8064 | +0.3% |
| Média STS em inglês | 0.6819 | 0.8170 | — |
| Delta de especialização (pt − en) | +12.7% | −1.1% | — |
mk-embeddings-pt pontua +12,7% mais alto em português do que em inglês, confirmando genuína especialização em pt-BR.
O multilingual-e5-large pontua −1,1% em português vs inglês, confirmando que é enviesado para o inglês.
| Propriedade | mk-embeddings-pt |
|---|---|
| Dimensão do embedding | 1024 |
| Parâmetros | 334M |
| Tamanho do modelo | ~670 MB |
| Implantação | On-premise, sem API externa |
| Licença | Pesos abertos |
Metodologia de benchmark
Todas as avaliações utilizam o framework MTEB (Massive Text Embedding Benchmark), o padrão para avaliação de modelos de embedding. Ambos os modelos foram avaliados no mesmo hardware (Apple M-series, backend MPS) com as mesmas configurações de tarefas do MTEB.Benchmarks em português
| Tarefa | Tipo | Fonte | Descrição |
|---|---|---|---|
| SICK-BR-STS | Similaridade Textual Semântica | NILC/USP | Tradução para português brasileiro do SICK, anotada por falantes nativos |
| Assin2STS | Similaridade Textual Semântica | NILC/USP | ASSIN 2 Shared Task — pares de sentenças em pt-BR com pontuações de similaridade |
| Assin2RTE | Classificação de Pares (Implicação Textual) | NILC/USP | Implicação textual ASSIN 2 — a sentença A implica a sentença B? |
| SICK-BR-PC | Classificação de Pares | NILC/USP | Implicação SICK-BR como classificação de pares |
| STSBenchmarkMultilingualSTS | STS | STS Benchmark | Porção em português do benchmark STS multilíngue |
| MassiveIntentClassification | Classificação | Amazon | Classificação de intenção no subconjunto em português do MASSIVE |
| MassiveScenarioClassification | Classificação | Amazon | Classificação de cenário no subconjunto em português do MASSIVE |
| BrazilianToxicTweetsClassification | Classificação | Pesquisadores brasileiros | Detecção de toxicidade em tweets em português brasileiro |
Benchmarks em inglês (para comparação de especialização)
| Tarefa | Tipo |
|---|---|
| STS12, STS13, STS14, STS15, STS16 | Similaridade Textual Semântica |
| STSBenchmark | Similaridade Textual Semântica |
| SICK-R | Similaridade Textual Semântica |
Resultados dos benchmarks em português
Similaridade textual semântica
Tarefas de STS medem quão bem os embeddings capturam a similaridade semântica entre pares de sentenças. Estas são as medidas mais diretas da qualidade de embedding para aplicações de recuperação e RAG.| Tarefa | mk-embeddings-pt | multilingual-e5-large | Melhoria |
|---|---|---|---|
| SICK-BR-STS | 0.9241 | 0.7820 | +14.2 pts |
| Assin2STS | 0.8323 | 0.7832 | +4.9 pts |
| STSBenchmarkMultilingualSTS | 0.6701 | 0.8538 | −18.4 pts |
mk-embeddings-pt supera o baseline multilíngue por +4,9 a +14,2 pontos.
O resultado do STSBenchmarkMultilingualSTS favorece o multilingual-e5-large porque este benchmark é uma versão traduzida por máquina do STS Benchmark em inglês — modelos multilíngues treinados em dados de STS em inglês têm uma vantagem inerente aqui. Os benchmarks nativos em pt-BR (SICK-BR, Assin2) são mais representativos da compreensão semântica real em português.
Classificação de pares e implicação textual
| Tarefa | mk-embeddings-pt | multilingual-e5-large | Melhoria |
|---|---|---|---|
| Assin2RTE | 0.9055 | 0.8436 | +6.2 pts |
| SICK-BR-PC | 0.3124 | 0.2251 | +8.7 pts |
mk-embeddings-pt é substancialmente melhor em reconhecer implicação textual em pt-BR — uma capacidade crítica para sistemas RAG que precisam determinar se uma passagem recuperada realmente suporta uma afirmação.
Classificação
| Tarefa | mk-embeddings-pt | multilingual-e5-large |
|---|---|---|
| MassiveIntentClassification | 0.3460 | 0.5617 |
| MassiveScenarioClassification | 0.3590 | 0.6330 |
| BrazilianToxicTweetsClassification | 0.1957 | 0.1939 |
multilingual-e5-large lidera nas tarefas de classificação do MASSIVE. Essas tarefas testam transferência cross-lingual a partir de dados de treinamento em inglês — uma área onde modelos multilíngues grandes têm vantagem inerente devido à sua distribuição de treinamento. No entanto, precisão de classificação não é o requisito principal para um modelo de embedding focado em recuperação.
Para a tarefa específica brasileira (tweets tóxicos), ambos os modelos pontuam de forma similar, com o mk-embeddings-pt marginalmente à frente.
Análise de especialização linguística
O delta de especialização — a diferença entre a pontuação de STS em português e a pontuação de STS em inglês de um modelo — é o indicador-chave de se um modelo é genuinamente especializado para português ou meramente multilíngue com viés para o inglês.Baselines de STS em inglês
| Tarefa | mk-embeddings-pt | multilingual-e5-large |
|---|---|---|
| STS15 | 0.7588 | 0.8903 |
| STSBenchmark | 0.6701 | 0.8537 |
| STS16 | 0.6940 | 0.8373 |
| STS12 | 0.6407 | 0.8008 |
| SICK-R | 0.6358 | 0.8056 |
| STS14 | 0.6669 | 0.7724 |
| STS13 | 0.7072 | 0.7590 |
| Média STS em inglês | 0.6819 | 0.8170 |
Delta de especialização
| Modelo | Média STS pt | Média STS en | Delta (pt − en) | Interpretação |
|---|---|---|---|---|
| mk-embeddings-pt | 0.8088 | 0.6819 | +0.1269 (+12.7%) | Especializado para português |
| multilingual-e5-large | 0.8064 | 0.8170 | −0.0106 (−1.1%) | Enviesado para inglês |
mk-embeddings-pt sacrifica desempenho em inglês para alcançar qualidade superior em português.
Esta é a assinatura esperada de um modelo genuinamente especializado — ele tem melhor desempenho em sua língua-alvo e intencionalmente abre mão de desempenho em outras línguas.
O multilingual-e5-large mostra o padrão oposto: é marginalmente melhor em inglês do que em português, confirmando que é um modelo multilíngue de propósito geral, não um especialista em português.
Paridade entre idiomas
Um requisito-chave é que a qualidade de embedding em pt-BR deve ser equivalente ao que embeddings nativos em inglês alcançam em inglês. A média de STS em português para omk-embeddings-pt (0.8088) está a 1 ponto da média de STS em inglês do multilingual-e5-large (0.8170).
Isso demonstra paridade entre idiomas — usuários de português brasileiro obtêm qualidade de embedding equivalente ao que usuários de inglês esperam.
Comparação com benchmarks publicados em português
O artigo do Serafim (Santos et al., 2024) fornece contexto adicional para o desempenho de embeddings em português. Pontuações publicadas em benchmarks sobrepostos:| Modelo | ASSIN2 STS | Parâmetros | Especialização |
|---|---|---|---|
| mk-embeddings-pt | 0.8323 | 334M | Especializado em pt-BR |
| DistilUSE multilingual | 0.7170 | 135M | Multilíngue |
| GTE (English) | 0.5971 | 434M | Apenas inglês |
mk-embeddings-pt supera baselines multilíngues e somente em inglês publicados por +11,5 a +23,5 pontos no benchmark nativo em português brasileiro ASSIN2.
Dados de treinamento
Todos os dados de treinamento e avaliação são provenientes de benchmarks acadêmicos brasileiros publicamente disponíveis.| Dataset | Fonte | Tipo | Tamanho | Origem |
|---|---|---|---|---|
| ASSIN2 | NILC/USP | STS + Implicação Textual | 9.448 | Instituições acadêmicas brasileiras |
| ASSIN v1 | NILC/USP | STS + Implicação Textual | 10.000 | Português brasileiro + europeu |
| CCMatrix en-pt | OPUS | Paralelo cross-lingual | 20.000 | Pares de tradução |
Conformidade com IA soberana
| Requisito | Status |
|---|---|
| Dados de treinamento de instituições brasileiras | ASSIN2 e ASSIN do NILC/USP |
| Conformidade com LGPD | Todos os dados são benchmarks acadêmicos publicamente disponíveis — sem PII |
| Implantação on-premise | Modelo tem ~670 MB, roda em hardware commodity |
| Sem chamadas a APIs externas | Inferência é totalmente local |
| Sem transferência internacional de dados | Pesos do modelo e inferência permanecem dentro da infraestrutura soberana |
| Pesos abertos | Disponível para auditoria governamental e customização |
Recomendações
Para recuperação e RAG
Usemk-embeddings-pt para todos os pipelines de recuperação em português. A vantagem de +14,2 pontos no SICK-BR-STS e a vantagem de +6,2 pontos no Assin2RTE se traduzem diretamente em melhor relevância de recuperação e detecção de implicação mais precisa em sistemas RAG.
Para classificação
Para tarefas de classificação de intenção e cenário, omultilingual-e5-large continua mais forte devido à sua maior distribuição de treinamento multilíngue. Considere usar uma abordagem híbrida: mk-embeddings-pt para recuperação e um classificador separado para categorização.
Para especialização adicional
O modelo pode ser ajustado com fine-tuning em dados específicos de domínio em português brasileiro usando CoSENT loss para otimização de STS ou aprendizado contrastivo para recuperação. Domínios recomendados para implantação governamental: textos jurídicos, documentos regulatórios, fluxos de serviço público.Referências
- Real et al., 2020. “The ASSIN 2 Shared Task: a Portuguese Semantic Similarity Evaluation”
- Santos et al., 2024. “Serafim: Portuguese Sentence Embeddings” (arXiv:2407.19527)
- Enevoldsen et al., 2025. “MMTEB: Massive Multilingual Text Embedding Benchmark” (arXiv:2502.13595)
- Wang et al., 2024. “Multilingual E5 Text Embeddings” (arXiv:2402.05672)
- Souza et al., 2020. “BERTimbau: Pretrained BERT Models for Brazilian Portuguese”
- MTEB Leaderboard — https://huggingface.co/spaces/mteb/leaderboard