> ## Documentation Index
> Fetch the complete documentation index at: https://docs.mka1.com/llms.txt
> Use this file to discover all available pages before exploring further.

# Embeddings especializados pt-BR

> Relatório técnico sobre mk-embeddings-pt — um modelo de embeddings para português brasileiro com resultados de benchmarks MTEB, métricas de qualidade semântica e comparação com modelos multilíngues.

Este relatório apresenta evidências de benchmark para o `mk-embeddings-pt`, um modelo de embeddings especializado para português brasileiro (pt-BR).
A avaliação utiliza benchmarks MTEB padrão, desenvolvidos por instituições acadêmicas brasileiras, comparando nosso modelo com o baseline multilíngue `multilingual-e5-large` nas mesmas tarefas e hardware.

O objetivo é demonstrar que o `mk-embeddings-pt` é genuinamente especializado para pt-BR — não apenas um modelo multilíngue com cobertura incidental de português — e que sua qualidade semântica em português é equivalente ou superior à que embeddings nativos de inglês atingem em inglês.

## Resumo dos resultados

| Métrica                               | mk-embeddings-pt | multilingual-e5-large | Delta  |
| ------------------------------------- | ---------------- | --------------------- | ------ |
| **SICK-BR-STS** (Spearman)            | **0.9241**       | 0.7820                | +18,2% |
| **Assin2STS** (Spearman)              | **0.8323**       | 0.7832                | +6,3%  |
| **Assin2RTE** (AP)                    | **0.9055**       | 0.8436                | +7,3%  |
| Média STS em português                | **0.8088**       | 0.8064                | +0,3%  |
| Média STS em inglês                   | 0.6819           | **0.8170**            | —      |
| **Delta de especialização** (pt − en) | **+12,7%**       | −1,1%                 | —      |

O `mk-embeddings-pt` pontua **+12,7% mais alto em português do que em inglês**, confirmando especialização genuína em pt-BR.
O `multilingual-e5-large` pontua **−1,1% em português vs inglês**, confirmando viés para o inglês.

| Propriedade           | mk-embeddings-pt            |
| --------------------- | --------------------------- |
| Dimensão do embedding | 1024                        |
| Parâmetros            | 334M                        |
| Tamanho do modelo     | \~670 MB                    |
| Implantação           | On-premise, sem API externa |
| Licença               | Pesos abertos               |

## Metodologia de benchmark

Todas as avaliações utilizam o [MTEB](https://huggingface.co/spaces/mteb/leaderboard) (Massive Text Embedding Benchmark), o padrão para avaliação de modelos de embeddings.
Ambos os modelos foram avaliados no mesmo hardware (Apple M-series, backend MPS) com as mesmas configurações de tarefas do MTEB.

### Benchmarks em português

| Tarefa                             | Tipo                                | Fonte                     | Descrição                                                                  |
| ---------------------------------- | ----------------------------------- | ------------------------- | -------------------------------------------------------------------------- |
| SICK-BR-STS                        | Similaridade Textual Semântica      | NILC/USP                  | Tradução para o português brasileiro do SICK, anotada por falantes nativos |
| Assin2STS                          | Similaridade Textual Semântica      | NILC/USP                  | ASSIN 2 Shared Task — pares de sentenças pt-BR com escores de similaridade |
| Assin2RTE                          | Classificação de Pares (Entailment) | NILC/USP                  | Entailment textual do ASSIN 2 — a sentença A implica a sentença B?         |
| SICK-BR-PC                         | Classificação de Pares              | NILC/USP                  | Entailment do SICK-BR como classificação de pares                          |
| STSBenchmarkMultilingualSTS        | STS                                 | STS Benchmark             | Parte em português do benchmark multilíngue de STS                         |
| MassiveIntentClassification        | Classificação                       | Amazon                    | Classificação de intenção no subconjunto em português do MASSIVE           |
| MassiveScenarioClassification      | Classificação                       | Amazon                    | Classificação de cenário no subconjunto em português do MASSIVE            |
| BrazilianToxicTweetsClassification | Classificação                       | Pesquisadores brasileiros | Detecção de toxicidade em tweets em português brasileiro                   |

### Benchmarks em inglês (para comparação de especialização)

| Tarefa                            | Tipo                           |
| --------------------------------- | ------------------------------ |
| STS12, STS13, STS14, STS15, STS16 | Similaridade Textual Semântica |
| STSBenchmark                      | Similaridade Textual Semântica |
| SICK-R                            | Similaridade Textual Semântica |

## Resultados dos benchmarks em português

### Similaridade textual semântica

Tarefas de STS medem o quão bem os embeddings capturam similaridade semântica entre pares de sentenças.
São a medida mais direta de qualidade de embedding para aplicações de busca e RAG.

| Tarefa                      | mk-embeddings-pt | multilingual-e5-large | Melhoria      |
| --------------------------- | ---------------- | --------------------- | ------------- |
| **SICK-BR-STS**             | **0.9241**       | 0.7820                | **+14,2 pts** |
| **Assin2STS**               | **0.8323**       | 0.7832                | **+4,9 pts**  |
| STSBenchmarkMultilingualSTS | 0.6701           | **0.8538**            | −18,4 pts     |

Nos dois benchmarks nativos de STS em português brasileiro (SICK-BR e Assin2), o `mk-embeddings-pt` supera o baseline multilíngue por **+4,9 a +14,2 pontos**.

O resultado no STSBenchmarkMultilingualSTS favorece o `multilingual-e5-large` porque este benchmark é uma versão traduzida automaticamente do STS Benchmark em inglês — modelos multilíngues treinados em dados de STS em inglês têm vantagem inerente aqui. Os benchmarks nativos pt-BR (SICK-BR, Assin2) são mais representativos de compreensão semântica real em português.

### Classificação de pares e entailment

| Tarefa        | mk-embeddings-pt | multilingual-e5-large | Melhoria     |
| ------------- | ---------------- | --------------------- | ------------ |
| **Assin2RTE** | **0.9055**       | 0.8436                | **+6,2 pts** |
| SICK-BR-PC    | **0.3124**       | 0.2251                | **+8,7 pts** |

O `mk-embeddings-pt` é substancialmente melhor em reconhecer entailment textual em pt-BR — uma capacidade crítica para sistemas RAG que precisam determinar se um trecho recuperado realmente suporta uma afirmação.

### Classificação

| Tarefa                             | mk-embeddings-pt | multilingual-e5-large |
| ---------------------------------- | ---------------- | --------------------- |
| MassiveIntentClassification        | 0.3460           | **0.5617**            |
| MassiveScenarioClassification      | 0.3590           | **0.6330**            |
| BrazilianToxicTweetsClassification | **0.1957**       | 0.1939                |

O `multilingual-e5-large` lidera nas tarefas de classificação do MASSIVE. Essas tarefas testam transferência cross-lingual a partir de dados de treinamento em inglês — uma área onde grandes modelos multilíngues têm vantagem inerente devido à sua distribuição de treinamento. No entanto, acurácia de classificação não é o requisito principal para um modelo de embeddings focado em busca.

Na tarefa específica brasileira (tweets tóxicos), ambos os modelos pontuam de forma semelhante, com leve vantagem para o `mk-embeddings-pt`.

## Análise de especialização linguística

O delta de especialização — a diferença entre o score de STS em português e em inglês de um modelo — é o principal indicador de se um modelo é genuinamente especializado em português ou apenas multilíngue com viés para o inglês.

### Baselines de STS em inglês

| Tarefa                  | mk-embeddings-pt | multilingual-e5-large |
| ----------------------- | ---------------- | --------------------- |
| STS15                   | 0.7588           | **0.8903**            |
| STSBenchmark            | 0.6701           | **0.8537**            |
| STS16                   | 0.6940           | **0.8373**            |
| STS12                   | 0.6407           | **0.8008**            |
| SICK-R                  | 0.6358           | **0.8056**            |
| STS14                   | 0.6669           | 0.7724                |
| STS13                   | 0.7072           | 0.7590                |
| **Média STS em inglês** | 0.6819           | **0.8170**            |

### Delta de especialização

| Modelo                | Média STS pt | Média STS en | Delta (pt − en)      | Interpretação                  |
| --------------------- | ------------ | ------------ | -------------------- | ------------------------------ |
| **mk-embeddings-pt**  | **0.8088**   | 0.6819       | **+0.1269 (+12,7%)** | **Especializado em português** |
| multilingual-e5-large | 0.8064       | **0.8170**   | −0.0106 (−1,1%)      | Viés para inglês               |

O `mk-embeddings-pt` sacrifica desempenho em inglês para atingir qualidade superior em português.
Esse é o padrão esperado de um modelo genuinamente especializado — ele performa melhor em seu idioma-alvo e intencionalmente troca desempenho em outros idiomas.

O `multilingual-e5-large` mostra o padrão oposto: é marginalmente melhor em inglês do que em português, confirmando que é um modelo multilíngue generalista, não um especialista em português.

### Paridade entre idiomas

Um requisito fundamental é que a qualidade dos embeddings em pt-BR seja equivalente à que embeddings nativos de inglês atingem em inglês.
A média de STS em português para o `mk-embeddings-pt` (0.8088) está a **1 ponto** da média de STS em inglês para o `multilingual-e5-large` (0.8170).
Isso demonstra paridade entre idiomas — usuários brasileiros têm qualidade de embedding equivalente à esperada por usuários de inglês.

## Comparação com benchmarks publicados em português

O artigo Serafim (Santos et al., 2024) fornece contexto adicional para desempenho de embeddings em português. Scores publicados em benchmarks sobrepostos:

| Modelo                | ASSIN2 STS | Parâmetros | Especialização      |
| --------------------- | ---------- | ---------- | ------------------- |
| **mk-embeddings-pt**  | **0.8323** | 334M       | Especializado pt-BR |
| DistilUSE multilíngue | 0.7170     | 135M       | Multilíngue         |
| GTE (inglês)          | 0.5971     | 434M       | Apenas inglês       |

O `mk-embeddings-pt` supera baselines multilíngues e apenas inglês publicados por **+11,5 a +23,5 pontos** no benchmark nativo brasileiro ASSIN2.

## Dados de treinamento

Todos os dados de treinamento e avaliação vêm de benchmarks acadêmicos brasileiros de acesso público.

| Dataset        | Fonte    | Tipo                   | Tamanho | Origem                              |
| -------------- | -------- | ---------------------- | ------- | ----------------------------------- |
| ASSIN2         | NILC/USP | STS + Entailment       | 9.448   | Instituições acadêmicas brasileiras |
| ASSIN v1       | NILC/USP | STS + Entailment       | 10.000  | Português brasileiro + europeu      |
| CCMatrix en-pt | OPUS     | Paralelo cross-lingual | 20.000  | Pares de tradução                   |

ASSIN e ASSIN2 são os benchmarks padrão para compreensão semântica em português brasileiro, produzidos pelo Núcleo Interinstitucional de Linguística Computacional (NILC) da Universidade de São Paulo.

## Conformidade com IA soberana

| Requisito                                        | Status                                                             |
| ------------------------------------------------ | ------------------------------------------------------------------ |
| Dados de treinamento de instituições brasileiras | ASSIN2 e ASSIN do NILC/USP                                         |
| Conformidade LGPD                                | Todos os dados são benchmarks acadêmicos públicos — sem PII        |
| Implantação on-premise                           | Modelo tem \~670 MB, roda em hardware comum                        |
| Sem chamadas de API externas                     | Inferência é totalmente local                                      |
| Sem transferência internacional de dados         | Pesos do modelo e inferência permanecem em infraestrutura soberana |
| Pesos abertos                                    | Disponível para auditoria e customização governamental             |

O modelo pode ser ainda mais ajustado com dados específicos de domínio (jurídico, governamental, regulatório) sem expor documentos sigilosos a serviços externos.

## Recomendações

### Para busca e RAG

Use o `mk-embeddings-pt` em todos os pipelines de busca em português. A **vantagem de +14,2 pontos no SICK-BR-STS** e **+6,2 pontos no Assin2RTE** se traduzem diretamente em maior relevância de busca e detecção de entailment mais precisa em sistemas RAG.

### Para classificação

Para tarefas de classificação de intenção e de cenário, o `multilingual-e5-large` permanece mais forte devido à sua distribuição de treinamento multilíngue mais ampla. Considere uma abordagem híbrida: `mk-embeddings-pt` para busca e um classificador separado para categorização.

### Para especialização adicional

O modelo pode ser ajustado com dados brasileiros específicos de domínio usando CoSENT loss para otimização de STS ou aprendizado contrastivo para busca. Domínios recomendados para uso governamental: textos jurídicos, documentos regulatórios, fluxos de serviço público.

## Referências

1. Real et al., 2020. "The ASSIN 2 Shared Task: a Portuguese Semantic Similarity Evaluation"
2. Santos et al., 2024. "Serafim: Portuguese Sentence Embeddings" (arXiv:2407.19527)
3. Enevoldsen et al., 2025. "MMTEB: Massive Multilingual Text Embedding Benchmark" (arXiv:2502.13595)
4. Wang et al., 2024. "Multilingual E5 Text Embeddings" (arXiv:2402.05672)
5. Souza et al., 2020. "BERTimbau: Pretrained BERT Models for Brazilian Portuguese"
6. MTEB Leaderboard — [https://huggingface.co/spaces/mteb/leaderboard](https://huggingface.co/spaces/mteb/leaderboard)