Documentation Index
Fetch the complete documentation index at: https://docs.mka1.com/llms.txt
Use this file to discover all available pages before exploring further.
Este relatório apresenta evidências de benchmark para o mk-embeddings-pt, um modelo de embeddings especializado para português brasileiro (pt-BR).
A avaliação utiliza benchmarks MTEB padrão, desenvolvidos por instituições acadêmicas brasileiras, comparando nosso modelo com o baseline multilíngue multilingual-e5-large nas mesmas tarefas e hardware.
O objetivo é demonstrar que o mk-embeddings-pt é genuinamente especializado para pt-BR — não apenas um modelo multilíngue com cobertura incidental de português — e que sua qualidade semântica em português é equivalente ou superior à que embeddings nativos de inglês atingem em inglês.
Resumo dos resultados
| Métrica | mk-embeddings-pt | multilingual-e5-large | Delta |
|---|
| SICK-BR-STS (Spearman) | 0.9241 | 0.7820 | +18,2% |
| Assin2STS (Spearman) | 0.8323 | 0.7832 | +6,3% |
| Assin2RTE (AP) | 0.9055 | 0.8436 | +7,3% |
| Média STS em português | 0.8088 | 0.8064 | +0,3% |
| Média STS em inglês | 0.6819 | 0.8170 | — |
| Delta de especialização (pt − en) | +12,7% | −1,1% | — |
O mk-embeddings-pt pontua +12,7% mais alto em português do que em inglês, confirmando especialização genuína em pt-BR.
O multilingual-e5-large pontua −1,1% em português vs inglês, confirmando viés para o inglês.
| Propriedade | mk-embeddings-pt |
|---|
| Dimensão do embedding | 1024 |
| Parâmetros | 334M |
| Tamanho do modelo | ~670 MB |
| Implantação | On-premise, sem API externa |
| Licença | Pesos abertos |
Metodologia de benchmark
Todas as avaliações utilizam o MTEB (Massive Text Embedding Benchmark), o padrão para avaliação de modelos de embeddings.
Ambos os modelos foram avaliados no mesmo hardware (Apple M-series, backend MPS) com as mesmas configurações de tarefas do MTEB.
Benchmarks em português
| Tarefa | Tipo | Fonte | Descrição |
|---|
| SICK-BR-STS | Similaridade Textual Semântica | NILC/USP | Tradução para o português brasileiro do SICK, anotada por falantes nativos |
| Assin2STS | Similaridade Textual Semântica | NILC/USP | ASSIN 2 Shared Task — pares de sentenças pt-BR com escores de similaridade |
| Assin2RTE | Classificação de Pares (Entailment) | NILC/USP | Entailment textual do ASSIN 2 — a sentença A implica a sentença B? |
| SICK-BR-PC | Classificação de Pares | NILC/USP | Entailment do SICK-BR como classificação de pares |
| STSBenchmarkMultilingualSTS | STS | STS Benchmark | Parte em português do benchmark multilíngue de STS |
| MassiveIntentClassification | Classificação | Amazon | Classificação de intenção no subconjunto em português do MASSIVE |
| MassiveScenarioClassification | Classificação | Amazon | Classificação de cenário no subconjunto em português do MASSIVE |
| BrazilianToxicTweetsClassification | Classificação | Pesquisadores brasileiros | Detecção de toxicidade em tweets em português brasileiro |
Benchmarks em inglês (para comparação de especialização)
| Tarefa | Tipo |
|---|
| STS12, STS13, STS14, STS15, STS16 | Similaridade Textual Semântica |
| STSBenchmark | Similaridade Textual Semântica |
| SICK-R | Similaridade Textual Semântica |
Resultados dos benchmarks em português
Similaridade textual semântica
Tarefas de STS medem o quão bem os embeddings capturam similaridade semântica entre pares de sentenças.
São a medida mais direta de qualidade de embedding para aplicações de busca e RAG.
| Tarefa | mk-embeddings-pt | multilingual-e5-large | Melhoria |
|---|
| SICK-BR-STS | 0.9241 | 0.7820 | +14,2 pts |
| Assin2STS | 0.8323 | 0.7832 | +4,9 pts |
| STSBenchmarkMultilingualSTS | 0.6701 | 0.8538 | −18,4 pts |
Nos dois benchmarks nativos de STS em português brasileiro (SICK-BR e Assin2), o mk-embeddings-pt supera o baseline multilíngue por +4,9 a +14,2 pontos.
O resultado no STSBenchmarkMultilingualSTS favorece o multilingual-e5-large porque este benchmark é uma versão traduzida automaticamente do STS Benchmark em inglês — modelos multilíngues treinados em dados de STS em inglês têm vantagem inerente aqui. Os benchmarks nativos pt-BR (SICK-BR, Assin2) são mais representativos de compreensão semântica real em português.
Classificação de pares e entailment
| Tarefa | mk-embeddings-pt | multilingual-e5-large | Melhoria |
|---|
| Assin2RTE | 0.9055 | 0.8436 | +6,2 pts |
| SICK-BR-PC | 0.3124 | 0.2251 | +8,7 pts |
O mk-embeddings-pt é substancialmente melhor em reconhecer entailment textual em pt-BR — uma capacidade crítica para sistemas RAG que precisam determinar se um trecho recuperado realmente suporta uma afirmação.
Classificação
| Tarefa | mk-embeddings-pt | multilingual-e5-large |
|---|
| MassiveIntentClassification | 0.3460 | 0.5617 |
| MassiveScenarioClassification | 0.3590 | 0.6330 |
| BrazilianToxicTweetsClassification | 0.1957 | 0.1939 |
O multilingual-e5-large lidera nas tarefas de classificação do MASSIVE. Essas tarefas testam transferência cross-lingual a partir de dados de treinamento em inglês — uma área onde grandes modelos multilíngues têm vantagem inerente devido à sua distribuição de treinamento. No entanto, acurácia de classificação não é o requisito principal para um modelo de embeddings focado em busca.
Na tarefa específica brasileira (tweets tóxicos), ambos os modelos pontuam de forma semelhante, com leve vantagem para o mk-embeddings-pt.
Análise de especialização linguística
O delta de especialização — a diferença entre o score de STS em português e em inglês de um modelo — é o principal indicador de se um modelo é genuinamente especializado em português ou apenas multilíngue com viés para o inglês.
Baselines de STS em inglês
| Tarefa | mk-embeddings-pt | multilingual-e5-large |
|---|
| STS15 | 0.7588 | 0.8903 |
| STSBenchmark | 0.6701 | 0.8537 |
| STS16 | 0.6940 | 0.8373 |
| STS12 | 0.6407 | 0.8008 |
| SICK-R | 0.6358 | 0.8056 |
| STS14 | 0.6669 | 0.7724 |
| STS13 | 0.7072 | 0.7590 |
| Média STS em inglês | 0.6819 | 0.8170 |
Delta de especialização
| Modelo | Média STS pt | Média STS en | Delta (pt − en) | Interpretação |
|---|
| mk-embeddings-pt | 0.8088 | 0.6819 | +0.1269 (+12,7%) | Especializado em português |
| multilingual-e5-large | 0.8064 | 0.8170 | −0.0106 (−1,1%) | Viés para inglês |
O mk-embeddings-pt sacrifica desempenho em inglês para atingir qualidade superior em português.
Esse é o padrão esperado de um modelo genuinamente especializado — ele performa melhor em seu idioma-alvo e intencionalmente troca desempenho em outros idiomas.
O multilingual-e5-large mostra o padrão oposto: é marginalmente melhor em inglês do que em português, confirmando que é um modelo multilíngue generalista, não um especialista em português.
Paridade entre idiomas
Um requisito fundamental é que a qualidade dos embeddings em pt-BR seja equivalente à que embeddings nativos de inglês atingem em inglês.
A média de STS em português para o mk-embeddings-pt (0.8088) está a 1 ponto da média de STS em inglês para o multilingual-e5-large (0.8170).
Isso demonstra paridade entre idiomas — usuários brasileiros têm qualidade de embedding equivalente à esperada por usuários de inglês.
O artigo Serafim (Santos et al., 2024) fornece contexto adicional para desempenho de embeddings em português. Scores publicados em benchmarks sobrepostos:
| Modelo | ASSIN2 STS | Parâmetros | Especialização |
|---|
| mk-embeddings-pt | 0.8323 | 334M | Especializado pt-BR |
| DistilUSE multilíngue | 0.7170 | 135M | Multilíngue |
| GTE (inglês) | 0.5971 | 434M | Apenas inglês |
O mk-embeddings-pt supera baselines multilíngues e apenas inglês publicados por +11,5 a +23,5 pontos no benchmark nativo brasileiro ASSIN2.
Dados de treinamento
Todos os dados de treinamento e avaliação vêm de benchmarks acadêmicos brasileiros de acesso público.
| Dataset | Fonte | Tipo | Tamanho | Origem |
|---|
| ASSIN2 | NILC/USP | STS + Entailment | 9.448 | Instituições acadêmicas brasileiras |
| ASSIN v1 | NILC/USP | STS + Entailment | 10.000 | Português brasileiro + europeu |
| CCMatrix en-pt | OPUS | Paralelo cross-lingual | 20.000 | Pares de tradução |
ASSIN e ASSIN2 são os benchmarks padrão para compreensão semântica em português brasileiro, produzidos pelo Núcleo Interinstitucional de Linguística Computacional (NILC) da Universidade de São Paulo.
| Requisito | Status |
|---|
| Dados de treinamento de instituições brasileiras | ASSIN2 e ASSIN do NILC/USP |
| Conformidade LGPD | Todos os dados são benchmarks acadêmicos públicos — sem PII |
| Implantação on-premise | Modelo tem ~670 MB, roda em hardware comum |
| Sem chamadas de API externas | Inferência é totalmente local |
| Sem transferência internacional de dados | Pesos do modelo e inferência permanecem em infraestrutura soberana |
| Pesos abertos | Disponível para auditoria e customização governamental |
O modelo pode ser ainda mais ajustado com dados específicos de domínio (jurídico, governamental, regulatório) sem expor documentos sigilosos a serviços externos.
Recomendações
Para busca e RAG
Use o mk-embeddings-pt em todos os pipelines de busca em português. A vantagem de +14,2 pontos no SICK-BR-STS e +6,2 pontos no Assin2RTE se traduzem diretamente em maior relevância de busca e detecção de entailment mais precisa em sistemas RAG.
Para classificação
Para tarefas de classificação de intenção e de cenário, o multilingual-e5-large permanece mais forte devido à sua distribuição de treinamento multilíngue mais ampla. Considere uma abordagem híbrida: mk-embeddings-pt para busca e um classificador separado para categorização.
Para especialização adicional
O modelo pode ser ajustado com dados brasileiros específicos de domínio usando CoSENT loss para otimização de STS ou aprendizado contrastivo para busca. Domínios recomendados para uso governamental: textos jurídicos, documentos regulatórios, fluxos de serviço público.
Referências
- Real et al., 2020. “The ASSIN 2 Shared Task: a Portuguese Semantic Similarity Evaluation”
- Santos et al., 2024. “Serafim: Portuguese Sentence Embeddings” (arXiv:2407.19527)
- Enevoldsen et al., 2025. “MMTEB: Massive Multilingual Text Embedding Benchmark” (arXiv:2502.13595)
- Wang et al., 2024. “Multilingual E5 Text Embeddings” (arXiv:2402.05672)
- Souza et al., 2020. “BERTimbau: Pretrained BERT Models for Brazilian Portuguese”
- MTEB Leaderboard — https://huggingface.co/spaces/mteb/leaderboard