Saltar al contenido principal
Este informe presenta evidencia de benchmark para mk-embeddings-pt, un modelo de embeddings especializado en portugués brasileño (pt-BR). La evaluación utiliza benchmarks estándar de MTEB desarrollados por instituciones académicas brasileñas, comparando nuestro modelo con el modelo multilingüe de referencia multilingual-e5-large en tareas y hardware idénticos. El objetivo es demostrar que mk-embeddings-pt está realmente especializado en pt-BR — no es simplemente un modelo multilingüe con cobertura incidental de portugués — y que su calidad semántica en portugués es equivalente o superior a la que los embeddings nativos en inglés logran en ese idioma.

Resumen de resultados

Métricamk-embeddings-ptmultilingual-e5-largeDelta
SICK-BR-STS (Spearman)0.92410.7820+18.2%
Assin2STS (Spearman)0.83230.7832+6.3%
Assin2RTE (AP)0.90550.8436+7.3%
Promedio STS portugués0.80880.8064+0.3%
Promedio STS inglés0.68190.8170
Delta de especialización (pt − en)+12.7%−1.1%
mk-embeddings-pt obtiene +12.7% más en portugués que en inglés, confirmando una especialización genuina en pt-BR. multilingual-e5-large obtiene −1.1% en portugués frente a inglés, confirmando su sesgo hacia el inglés.
Propiedadmk-embeddings-pt
Dimensión de embedding1024
Parámetros334M
Tamaño del modelo~670 MB
DespliegueOn-premise, sin API externa
LicenciaPesos abiertos

Metodología de benchmark

Todas las evaluaciones utilizan el marco MTEB (Massive Text Embedding Benchmark), el estándar para la evaluación de modelos de embeddings. Ambos modelos fueron evaluados en hardware idéntico (Apple M-series, backend MPS) con las mismas configuraciones de tareas MTEB.

Benchmarks en portugués

TareaTipoFuenteDescripción
SICK-BR-STSSimilitud Semántica de TextosNILC/USPTraducción brasileña de SICK, anotada por hablantes nativos
Assin2STSSimilitud Semántica de TextosNILC/USPASSIN 2 Shared Task — pares de oraciones pt-BR con puntajes de similitud
Assin2RTEClasificación de Pares (Entailment)NILC/USPInferencia textual ASSIN 2 — ¿la oración A implica la B?
SICK-BR-PCClasificación de ParesNILC/USPInferencia SICK-BR como clasificación de pares
STSBenchmarkMultilingualSTSSTSSTS BenchmarkPorción en portugués del benchmark multilingüe STS
MassiveIntentClassificationClasificaciónAmazonClasificación de intención en el subconjunto en portugués de MASSIVE
MassiveScenarioClassificationClasificaciónAmazonClasificación de escenario en el subconjunto en portugués de MASSIVE
BrazilianToxicTweetsClassificationClasificaciónInvestigadores brasileñosDetección de toxicidad en tuits en portugués brasileño

Benchmarks en inglés (para comparación de especialización)

TareaTipo
STS12, STS13, STS14, STS15, STS16Similitud Semántica de Textos
STSBenchmarkSimilitud Semántica de Textos
SICK-RSimilitud Semántica de Textos

Resultados de benchmarks en portugués

Similitud semántica de textos

Las tareas STS miden qué tan bien los embeddings capturan la similitud semántica entre pares de oraciones. Son la medida más directa de la calidad de los embeddings para aplicaciones de recuperación y RAG.
Tareamk-embeddings-ptmultilingual-e5-largeMejora
SICK-BR-STS0.92410.7820+14.2 pts
Assin2STS0.83230.7832+4.9 pts
STSBenchmarkMultilingualSTS0.67010.8538−18.4 pts
En los dos benchmarks nativos de portugués brasileño (SICK-BR y Assin2), mk-embeddings-pt supera al modelo multilingüe de referencia por +4.9 a +14.2 puntos. El resultado en STSBenchmarkMultilingualSTS favorece a multilingual-e5-large porque este benchmark es una versión traducida automáticamente del STS Benchmark en inglés — los modelos multilingües entrenados en datos STS en inglés tienen aquí una ventaja inherente. Los benchmarks nativos pt-BR (SICK-BR, Assin2) son más representativos de la comprensión semántica real en portugués.

Clasificación de pares e inferencia

Tareamk-embeddings-ptmultilingual-e5-largeMejora
Assin2RTE0.90550.8436+6.2 pts
SICK-BR-PC0.31240.2251+8.7 pts
mk-embeddings-pt es sustancialmente mejor reconociendo inferencia textual en pt-BR — una capacidad crítica para sistemas RAG que necesitan determinar si un pasaje recuperado realmente respalda una afirmación.

Clasificación

Tareamk-embeddings-ptmultilingual-e5-large
MassiveIntentClassification0.34600.5617
MassiveScenarioClassification0.35900.6330
BrazilianToxicTweetsClassification0.19570.1939
multilingual-e5-large lidera en las tareas de clasificación MASSIVE. Estas tareas prueban la transferencia cross-lingual desde datos de entrenamiento en inglés — un área donde los modelos multilingües grandes tienen una ventaja inherente debido a su distribución de entrenamiento. Sin embargo, la precisión en clasificación no es el requerimiento principal para un modelo de embeddings enfocado en recuperación. Para la tarea específica de Brasil (tuits tóxicos), ambos modelos obtienen puntajes similares, con mk-embeddings-pt ligeramente por delante.

Análisis de especialización lingüística

El delta de especialización — la diferencia entre el puntaje STS en portugués y el puntaje STS en inglés de un modelo — es el indicador clave de si un modelo está realmente especializado en portugués o simplemente es multilingüe con sesgo hacia el inglés.

Referencias STS en inglés

Tareamk-embeddings-ptmultilingual-e5-large
STS150.75880.8903
STSBenchmark0.67010.8537
STS160.69400.8373
STS120.64070.8008
SICK-R0.63580.8056
STS140.66690.7724
STS130.70720.7590
Promedio STS inglés0.68190.8170

Delta de especialización

ModeloPromedio STS ptPromedio STS enDelta (pt − en)Interpretación
mk-embeddings-pt0.80880.6819+0.1269 (+12.7%)Especializado en portugués
multilingual-e5-large0.80640.8170−0.0106 (−1.1%)Sesgo hacia el inglés
mk-embeddings-pt sacrifica rendimiento en inglés para lograr una calidad superior en portugués. Esta es la firma esperada de un modelo realmente especializado — rinde mejor en su idioma objetivo y sacrifica intencionalmente rendimiento en otros idiomas. multilingual-e5-large muestra el patrón opuesto: es marginalmente mejor en inglés que en portugués, confirmando que es un modelo multilingüe generalista, no un especialista en portugués.

Paridad entre idiomas

Un requisito clave es que la calidad de embeddings en pt-BR sea equivalente a la que los embeddings nativos en inglés logran en ese idioma. El promedio STS en portugués para mk-embeddings-pt (0.8088) está a 1 punto del promedio STS en inglés para multilingual-e5-large (0.8170). Esto demuestra paridad entre idiomas — los usuarios de portugués brasileño obtienen una calidad de embeddings equivalente a la que esperan los usuarios de inglés.

Comparación con benchmarks publicados en portugués

El artículo de Serafim (Santos et al., 2024) aporta contexto adicional sobre el rendimiento de embeddings en portugués. Puntajes publicados en benchmarks coincidentes:
ModeloASSIN2 STSParámetrosEspecialización
mk-embeddings-pt0.8323334MEspecializado pt-BR
DistilUSE multilingual0.7170135MMultilingüe
GTE (Inglés)0.5971434MSolo inglés
mk-embeddings-pt supera a los modelos multilingües y solo inglés publicados por +11.5 a +23.5 puntos en el benchmark nativo de portugués brasileño ASSIN2.

Datos de entrenamiento

Todos los datos de entrenamiento y evaluación provienen de benchmarks académicos brasileños de acceso público.
DatasetFuenteTipoTamañoOrigen
ASSIN2NILC/USPSTS + Entailment9,448Instituciones académicas brasileñas
ASSIN v1NILC/USPSTS + Entailment10,000Portugués brasileño + europeo
CCMatrix en-ptOPUSParalelo cross-lingual20,000Pares de traducción
ASSIN y ASSIN2 son los benchmarks estándar para comprensión semántica en portugués brasileño, producidos por el Centro Interinstitucional de Lingüística Computacional (NILC) de la Universidad de São Paulo.

Cumplimiento de IA soberana

RequisitoEstado
Datos de entrenamiento de instituciones brasileñasASSIN2 y ASSIN de NILC/USP
Cumplimiento LGPDTodos los datos son benchmarks académicos públicos — sin PII
Despliegue on-premiseModelo de ~670 MB, corre en hardware común
Sin llamadas a API externasInferencia completamente local
Sin transferencia internacional de datosPesos del modelo e inferencia permanecen en infraestructura soberana
Pesos abiertosDisponibles para auditoría y personalización gubernamental
El modelo puede ser ajustado adicionalmente con datos específicos de dominio (legal, gobierno, regulatorio) sin exponer documentos clasificados a servicios externos.

Recomendaciones

Para recuperación y RAG

Utilice mk-embeddings-pt para todos los pipelines de recuperación en portugués. La ventaja de +14.2 puntos en SICK-BR-STS y +6.2 puntos en Assin2RTE se traducen directamente en mayor relevancia en recuperación y detección de inferencia más precisa en sistemas RAG.

Para clasificación

Para tareas de clasificación de intención y de escenario, multilingual-e5-large sigue siendo más fuerte debido a su mayor distribución de entrenamiento multilingüe. Considere un enfoque híbrido: mk-embeddings-pt para recuperación y un clasificador aparte para categorización.

Para mayor especialización

El modelo puede ajustarse con datos brasileños específicos de dominio usando pérdida CoSENT para optimización STS o aprendizaje contrastivo para recuperación. Dominios recomendados para despliegue gubernamental: textos legales, documentos regulatorios, flujos de trabajo de servicios públicos.

Referencias

  1. Real et al., 2020. “The ASSIN 2 Shared Task: a Portuguese Semantic Similarity Evaluation”
  2. Santos et al., 2024. “Serafim: Portuguese Sentence Embeddings” (arXiv:2407.19527)
  3. Enevoldsen et al., 2025. “MMTEB: Massive Multilingual Text Embedding Benchmark” (arXiv:2502.13595)
  4. Wang et al., 2024. “Multilingual E5 Text Embeddings” (arXiv:2402.05672)
  5. Souza et al., 2020. “BERTimbau: Pretrained BERT Models for Brazilian Portuguese”
  6. MTEB Leaderboard — https://huggingface.co/spaces/mteb/leaderboard