Embeddings especializados pt-BR

Este informe presenta evidencia de benchmark para mk-embeddings-pt, un modelo de embeddings especializado en portugués brasileño (pt-BR). La evaluación utiliza benchmarks estándar de MTEB desarrollados por instituciones académicas brasileñas, comparando nuestro modelo con el modelo multilingüe de referencia multilingual-e5-large en tareas y hardware idénticos. El objetivo es demostrar que mk-embeddings-pt está realmente especializado para pt-BR — no es simplemente un modelo multilingüe con cobertura incidental de portugués — y que su calidad semántica en portugués es equivalente o superior a la que logran los embeddings nativos en inglés para ese idioma.

Resumen de resultados

Métrica	mk-embeddings-pt	multilingual-e5-large	Delta
SICK-BR-STS (Spearman)	0.9241	0.7820	+18.2%
Assin2STS (Spearman)	0.8323	0.7832	+6.3%
Assin2RTE (AP)	0.9055	0.8436	+7.3%
Promedio STS portugués	0.8088	0.8064	+0.3%
Promedio STS inglés	0.6819	0.8170	—
Delta de especialización (pt − en)	+12.7%	−1.1%	—

mk-embeddings-pt obtiene +12.7% más en portugués que en inglés, confirmando una verdadera especialización en pt-BR. multilingual-e5-large obtiene −1.1% en portugués vs inglés, confirmando su sesgo hacia el inglés.

Propiedad	mk-embeddings-pt
Dimensión del embedding	1024
Parámetros	334M
Tamaño del modelo	~670 MB
Despliegue	On-premise, sin API externa
Licencia	Pesos abiertos

Metodología de benchmark

Todas las evaluaciones utilizan el marco MTEB (Massive Text Embedding Benchmark), el estándar para la evaluación de modelos de embeddings. Ambos modelos fueron evaluados en hardware idéntico (Apple M-series, backend MPS) con las mismas configuraciones de tareas MTEB.

Benchmarks en portugués

Tarea	Tipo	Fuente	Descripción
SICK-BR-STS	Similitud Semántica de Textos	NILC/USP	Traducción al portugués brasileño de SICK, anotada por hablantes nativos
Assin2STS	Similitud Semántica de Textos	NILC/USP	ASSIN 2 Shared Task — pares de frases pt-BR con puntajes de similitud
Assin2RTE	Clasificación de Pares (Entailment)	NILC/USP	Entailment textual de ASSIN 2 — ¿la frase A implica la frase B?
SICK-BR-PC	Clasificación de Pares	NILC/USP	Entailment de SICK-BR como clasificación de pares
STSBenchmarkMultilingualSTS	STS	STS Benchmark	Porción en portugués del benchmark multilingüe STS
MassiveIntentClassification	Clasificación	Amazon	Clasificación de intención en el subconjunto en portugués de MASSIVE
MassiveScenarioClassification	Clasificación	Amazon	Clasificación de escenario en el subconjunto en portugués de MASSIVE
BrazilianToxicTweetsClassification	Clasificación	Investigadores brasileños	Detección de toxicidad en tuits en portugués brasileño

Benchmarks en inglés (para comparación de especialización)

Tarea	Tipo
STS12, STS13, STS14, STS15, STS16	Similitud Semántica de Textos
STSBenchmark	Similitud Semántica de Textos
SICK-R	Similitud Semántica de Textos

Resultados de benchmarks en portugués

Similitud semántica de textos

Las tareas STS miden qué tan bien los embeddings capturan la similitud semántica entre pares de frases. Son la medida más directa de la calidad de los embeddings para aplicaciones de recuperación y RAG.

Tarea	mk-embeddings-pt	multilingual-e5-large	Mejora
SICK-BR-STS	0.9241	0.7820	+14.2 pts
Assin2STS	0.8323	0.7832	+4.9 pts
STSBenchmarkMultilingualSTS	0.6701	0.8538	−18.4 pts

En los dos benchmarks nativos de portugués brasileño (SICK-BR y Assin2), mk-embeddings-pt supera al modelo multilingüe de referencia por +4.9 a +14.2 puntos. El resultado en STSBenchmarkMultilingualSTS favorece a multilingual-e5-large porque este benchmark es una versión traducida automáticamente del STS Benchmark en inglés — los modelos multilingües entrenados en datos STS en inglés tienen una ventaja inherente aquí. Los benchmarks nativos pt-BR (SICK-BR, Assin2) son más representativos de la comprensión semántica real en portugués.

Clasificación de pares y entailment

Tarea	mk-embeddings-pt	multilingual-e5-large	Mejora
Assin2RTE	0.9055	0.8436	+6.2 pts
SICK-BR-PC	0.3124	0.2251	+8.7 pts

mk-embeddings-pt es sustancialmente mejor en el reconocimiento de entailment textual en pt-BR — una capacidad crítica para sistemas RAG que necesitan determinar si un pasaje recuperado realmente respalda una afirmación.

Clasificación

Tarea	mk-embeddings-pt	multilingual-e5-large
MassiveIntentClassification	0.3460	0.5617
MassiveScenarioClassification	0.3590	0.6330
BrazilianToxicTweetsClassification	0.1957	0.1939

multilingual-e5-large lidera en las tareas de clasificación MASSIVE. Estas tareas evalúan la transferencia cross-lingual desde datos de entrenamiento en inglés — un área donde los grandes modelos multilingües tienen una ventaja inherente debido a su distribución de entrenamiento. Sin embargo, la precisión en clasificación no es el requisito principal para un modelo de embeddings enfocado en recuperación. En la tarea específica para Brasil (tuits tóxicos), ambos modelos obtienen puntajes similares, con mk-embeddings-pt ligeramente por delante.

Análisis de especialización lingüística

El delta de especialización — la diferencia entre el puntaje STS en portugués y el puntaje STS en inglés de un modelo — es el indicador clave de si un modelo está realmente especializado en portugués o simplemente es multilingüe con sesgo hacia el inglés.

Referencias STS en inglés

Tarea	mk-embeddings-pt	multilingual-e5-large
STS15	0.7588	0.8903
STSBenchmark	0.6701	0.8537
STS16	0.6940	0.8373
STS12	0.6407	0.8008
SICK-R	0.6358	0.8056
STS14	0.6669	0.7724
STS13	0.7072	0.7590
Promedio STS inglés	0.6819	0.8170

Delta de especialización

Modelo	Promedio STS pt	Promedio STS en	Delta (pt − en)	Interpretación
mk-embeddings-pt	0.8088	0.6819	+0.1269 (+12.7%)	Especializado en portugués
multilingual-e5-large	0.8064	0.8170	−0.0106 (−1.1%)	Sesgo hacia el inglés

mk-embeddings-pt sacrifica rendimiento en inglés para lograr una calidad superior en portugués. Esta es la señal esperada de un modelo realmente especializado — rinde mejor en su idioma objetivo y, de forma intencionada, intercambia rendimiento en otros idiomas. multilingual-e5-large muestra el patrón opuesto: es ligeramente mejor en inglés que en portugués, confirmando que es un modelo multilingüe generalista, no un especialista en portugués.

Paridad entre idiomas

Un requisito clave es que la calidad de los embeddings en pt-BR debe ser equivalente a la que logran los embeddings nativos en inglés para ese idioma. El promedio STS en portugués para mk-embeddings-pt (0.8088) está a 1 punto del promedio STS en inglés para multilingual-e5-large (0.8170). Esto demuestra paridad entre idiomas — los usuarios de portugués brasileño obtienen calidad de embeddings equivalente a la que esperan los usuarios de inglés.

Comparación con benchmarks publicados en portugués

El artículo de Serafim (Santos et al., 2024) aporta contexto adicional sobre el rendimiento de embeddings en portugués. Puntajes publicados en benchmarks coincidentes:

Modelo	ASSIN2 STS	Parámetros	Especialización
mk-embeddings-pt	0.8323	334M	Especializado pt-BR
DistilUSE multilingual	0.7170	135M	Multilingüe
GTE (English)	0.5971	434M	Solo inglés

mk-embeddings-pt supera a los modelos multilingües y solo inglés publicados por +11.5 a +23.5 puntos en el benchmark nativo de portugués brasileño ASSIN2.

Datos de entrenamiento

Todos los datos de entrenamiento y evaluación provienen de benchmarks académicos brasileños de acceso público.

Dataset	Fuente	Tipo	Tamaño	Origen
ASSIN2	NILC/USP	STS + Entailment	9,448	Instituciones académicas brasileñas
ASSIN v1	NILC/USP	STS + Entailment	10,000	Portugués brasileño + europeo
CCMatrix en-pt	OPUS	Paralelo cross-lingual	20,000	Pares de traducción

ASSIN y ASSIN2 son los benchmarks estándar para la comprensión semántica en portugués brasileño, producidos por el Centro Interinstitucional de Lingüística Computacional (NILC) de la Universidad de São Paulo.

Cumplimiento de IA soberana

Requisito	Estado
Datos de entrenamiento de instituciones brasileñas	ASSIN2 y ASSIN de NILC/USP
Cumplimiento LGPD	Todos los datos son benchmarks académicos públicos — sin PII
Despliegue on-premise	El modelo pesa ~670 MB, funciona en hardware común
Sin llamadas a API externas	Inferencia completamente local
Sin transferencia internacional de datos	Pesos e inferencia permanecen en infraestructura soberana
Pesos abiertos	Disponibles para auditoría y personalización gubernamental

El modelo puede ser ajustado adicionalmente con datos específicos de dominio (legal, gobierno, regulatorio) sin exponer documentos clasificados a servicios externos.

Recomendaciones

Para recuperación y RAG

Utilice mk-embeddings-pt para todos los pipelines de recuperación en portugués. La ventaja de +14.2 puntos en SICK-BR-STS y +6.2 puntos en Assin2RTE se traducen directamente en mayor relevancia de recuperación y detección de entailment más precisa en sistemas RAG.

Para clasificación

Para tareas de clasificación de intención y de escenario, multilingual-e5-large sigue siendo más fuerte debido a su mayor distribución de entrenamiento multilingüe. Considere un enfoque híbrido: mk-embeddings-pt para recuperación y un clasificador separado para categorización.

Para especialización adicional

El modelo puede ser ajustado con datos específicos de portugués brasileño utilizando pérdida CoSENT para optimización STS o aprendizaje contrastivo para recuperación. Dominios recomendados para despliegue gubernamental: textos legales, documentos regulatorios, flujos de trabajo de servicios públicos.

Referencias

Real et al., 2020. “The ASSIN 2 Shared Task: a Portuguese Semantic Similarity Evaluation”
Santos et al., 2024. “Serafim: Portuguese Sentence Embeddings” (arXiv:2407.19527)
Enevoldsen et al., 2025. “MMTEB: Massive Multilingual Text Embedding Benchmark” (arXiv:2502.13595)
Wang et al., 2024. “Multilingual E5 Text Embeddings” (arXiv:2402.05672)
Souza et al., 2020. “BERTimbau: Pretrained BERT Models for Brazilian Portuguese”
MTEB Leaderboard — https://huggingface.co/spaces/mteb/leaderboard

Documentation Index

​Resumen de resultados

​Metodología de benchmark

​Benchmarks en portugués

​Benchmarks en inglés (para comparación de especialización)

​Resultados de benchmarks en portugués

​Similitud semántica de textos

​Clasificación de pares y entailment

​Clasificación

​Análisis de especialización lingüística

​Referencias STS en inglés

​Delta de especialización

​Paridad entre idiomas

​Comparación con benchmarks publicados en portugués

​Datos de entrenamiento

​Cumplimiento de IA soberana

​Recomendaciones

​Para recuperación y RAG

​Para clasificación

​Para especialización adicional

​Referencias