mk-embeddings-pt, un modelo de embeddings especializado en portugués brasileño (pt-BR).
La evaluación utiliza benchmarks estándar de MTEB desarrollados por instituciones académicas brasileñas, comparando nuestro modelo con el modelo multilingüe de referencia multilingual-e5-large en tareas y hardware idénticos.
El objetivo es demostrar que mk-embeddings-pt está realmente especializado en pt-BR — no es simplemente un modelo multilingüe con cobertura incidental de portugués — y que su calidad semántica en portugués es equivalente o superior a la que los embeddings nativos en inglés logran en ese idioma.
Resumen de resultados
| Métrica | mk-embeddings-pt | multilingual-e5-large | Delta |
|---|---|---|---|
| SICK-BR-STS (Spearman) | 0.9241 | 0.7820 | +18.2% |
| Assin2STS (Spearman) | 0.8323 | 0.7832 | +6.3% |
| Assin2RTE (AP) | 0.9055 | 0.8436 | +7.3% |
| Promedio STS portugués | 0.8088 | 0.8064 | +0.3% |
| Promedio STS inglés | 0.6819 | 0.8170 | — |
| Delta de especialización (pt − en) | +12.7% | −1.1% | — |
mk-embeddings-pt obtiene +12.7% más en portugués que en inglés, confirmando una especialización genuina en pt-BR.
multilingual-e5-large obtiene −1.1% en portugués frente a inglés, confirmando su sesgo hacia el inglés.
| Propiedad | mk-embeddings-pt |
|---|---|
| Dimensión de embedding | 1024 |
| Parámetros | 334M |
| Tamaño del modelo | ~670 MB |
| Despliegue | On-premise, sin API externa |
| Licencia | Pesos abiertos |
Metodología de benchmark
Todas las evaluaciones utilizan el marco MTEB (Massive Text Embedding Benchmark), el estándar para la evaluación de modelos de embeddings. Ambos modelos fueron evaluados en hardware idéntico (Apple M-series, backend MPS) con las mismas configuraciones de tareas MTEB.Benchmarks en portugués
| Tarea | Tipo | Fuente | Descripción |
|---|---|---|---|
| SICK-BR-STS | Similitud Semántica de Textos | NILC/USP | Traducción brasileña de SICK, anotada por hablantes nativos |
| Assin2STS | Similitud Semántica de Textos | NILC/USP | ASSIN 2 Shared Task — pares de oraciones pt-BR con puntajes de similitud |
| Assin2RTE | Clasificación de Pares (Entailment) | NILC/USP | Inferencia textual ASSIN 2 — ¿la oración A implica la B? |
| SICK-BR-PC | Clasificación de Pares | NILC/USP | Inferencia SICK-BR como clasificación de pares |
| STSBenchmarkMultilingualSTS | STS | STS Benchmark | Porción en portugués del benchmark multilingüe STS |
| MassiveIntentClassification | Clasificación | Amazon | Clasificación de intención en el subconjunto en portugués de MASSIVE |
| MassiveScenarioClassification | Clasificación | Amazon | Clasificación de escenario en el subconjunto en portugués de MASSIVE |
| BrazilianToxicTweetsClassification | Clasificación | Investigadores brasileños | Detección de toxicidad en tuits en portugués brasileño |
Benchmarks en inglés (para comparación de especialización)
| Tarea | Tipo |
|---|---|
| STS12, STS13, STS14, STS15, STS16 | Similitud Semántica de Textos |
| STSBenchmark | Similitud Semántica de Textos |
| SICK-R | Similitud Semántica de Textos |
Resultados de benchmarks en portugués
Similitud semántica de textos
Las tareas STS miden qué tan bien los embeddings capturan la similitud semántica entre pares de oraciones. Son la medida más directa de la calidad de los embeddings para aplicaciones de recuperación y RAG.| Tarea | mk-embeddings-pt | multilingual-e5-large | Mejora |
|---|---|---|---|
| SICK-BR-STS | 0.9241 | 0.7820 | +14.2 pts |
| Assin2STS | 0.8323 | 0.7832 | +4.9 pts |
| STSBenchmarkMultilingualSTS | 0.6701 | 0.8538 | −18.4 pts |
mk-embeddings-pt supera al modelo multilingüe de referencia por +4.9 a +14.2 puntos.
El resultado en STSBenchmarkMultilingualSTS favorece a multilingual-e5-large porque este benchmark es una versión traducida automáticamente del STS Benchmark en inglés — los modelos multilingües entrenados en datos STS en inglés tienen aquí una ventaja inherente. Los benchmarks nativos pt-BR (SICK-BR, Assin2) son más representativos de la comprensión semántica real en portugués.
Clasificación de pares e inferencia
| Tarea | mk-embeddings-pt | multilingual-e5-large | Mejora |
|---|---|---|---|
| Assin2RTE | 0.9055 | 0.8436 | +6.2 pts |
| SICK-BR-PC | 0.3124 | 0.2251 | +8.7 pts |
mk-embeddings-pt es sustancialmente mejor reconociendo inferencia textual en pt-BR — una capacidad crítica para sistemas RAG que necesitan determinar si un pasaje recuperado realmente respalda una afirmación.
Clasificación
| Tarea | mk-embeddings-pt | multilingual-e5-large |
|---|---|---|
| MassiveIntentClassification | 0.3460 | 0.5617 |
| MassiveScenarioClassification | 0.3590 | 0.6330 |
| BrazilianToxicTweetsClassification | 0.1957 | 0.1939 |
multilingual-e5-large lidera en las tareas de clasificación MASSIVE. Estas tareas prueban la transferencia cross-lingual desde datos de entrenamiento en inglés — un área donde los modelos multilingües grandes tienen una ventaja inherente debido a su distribución de entrenamiento. Sin embargo, la precisión en clasificación no es el requerimiento principal para un modelo de embeddings enfocado en recuperación.
Para la tarea específica de Brasil (tuits tóxicos), ambos modelos obtienen puntajes similares, con mk-embeddings-pt ligeramente por delante.
Análisis de especialización lingüística
El delta de especialización — la diferencia entre el puntaje STS en portugués y el puntaje STS en inglés de un modelo — es el indicador clave de si un modelo está realmente especializado en portugués o simplemente es multilingüe con sesgo hacia el inglés.Referencias STS en inglés
| Tarea | mk-embeddings-pt | multilingual-e5-large |
|---|---|---|
| STS15 | 0.7588 | 0.8903 |
| STSBenchmark | 0.6701 | 0.8537 |
| STS16 | 0.6940 | 0.8373 |
| STS12 | 0.6407 | 0.8008 |
| SICK-R | 0.6358 | 0.8056 |
| STS14 | 0.6669 | 0.7724 |
| STS13 | 0.7072 | 0.7590 |
| Promedio STS inglés | 0.6819 | 0.8170 |
Delta de especialización
| Modelo | Promedio STS pt | Promedio STS en | Delta (pt − en) | Interpretación |
|---|---|---|---|---|
| mk-embeddings-pt | 0.8088 | 0.6819 | +0.1269 (+12.7%) | Especializado en portugués |
| multilingual-e5-large | 0.8064 | 0.8170 | −0.0106 (−1.1%) | Sesgo hacia el inglés |
mk-embeddings-pt sacrifica rendimiento en inglés para lograr una calidad superior en portugués.
Esta es la firma esperada de un modelo realmente especializado — rinde mejor en su idioma objetivo y sacrifica intencionalmente rendimiento en otros idiomas.
multilingual-e5-large muestra el patrón opuesto: es marginalmente mejor en inglés que en portugués, confirmando que es un modelo multilingüe generalista, no un especialista en portugués.
Paridad entre idiomas
Un requisito clave es que la calidad de embeddings en pt-BR sea equivalente a la que los embeddings nativos en inglés logran en ese idioma. El promedio STS en portugués paramk-embeddings-pt (0.8088) está a 1 punto del promedio STS en inglés para multilingual-e5-large (0.8170).
Esto demuestra paridad entre idiomas — los usuarios de portugués brasileño obtienen una calidad de embeddings equivalente a la que esperan los usuarios de inglés.
Comparación con benchmarks publicados en portugués
El artículo de Serafim (Santos et al., 2024) aporta contexto adicional sobre el rendimiento de embeddings en portugués. Puntajes publicados en benchmarks coincidentes:| Modelo | ASSIN2 STS | Parámetros | Especialización |
|---|---|---|---|
| mk-embeddings-pt | 0.8323 | 334M | Especializado pt-BR |
| DistilUSE multilingual | 0.7170 | 135M | Multilingüe |
| GTE (Inglés) | 0.5971 | 434M | Solo inglés |
mk-embeddings-pt supera a los modelos multilingües y solo inglés publicados por +11.5 a +23.5 puntos en el benchmark nativo de portugués brasileño ASSIN2.
Datos de entrenamiento
Todos los datos de entrenamiento y evaluación provienen de benchmarks académicos brasileños de acceso público.| Dataset | Fuente | Tipo | Tamaño | Origen |
|---|---|---|---|---|
| ASSIN2 | NILC/USP | STS + Entailment | 9,448 | Instituciones académicas brasileñas |
| ASSIN v1 | NILC/USP | STS + Entailment | 10,000 | Portugués brasileño + europeo |
| CCMatrix en-pt | OPUS | Paralelo cross-lingual | 20,000 | Pares de traducción |
Cumplimiento de IA soberana
| Requisito | Estado |
|---|---|
| Datos de entrenamiento de instituciones brasileñas | ASSIN2 y ASSIN de NILC/USP |
| Cumplimiento LGPD | Todos los datos son benchmarks académicos públicos — sin PII |
| Despliegue on-premise | Modelo de ~670 MB, corre en hardware común |
| Sin llamadas a API externas | Inferencia completamente local |
| Sin transferencia internacional de datos | Pesos del modelo e inferencia permanecen en infraestructura soberana |
| Pesos abiertos | Disponibles para auditoría y personalización gubernamental |
Recomendaciones
Para recuperación y RAG
Utilicemk-embeddings-pt para todos los pipelines de recuperación en portugués. La ventaja de +14.2 puntos en SICK-BR-STS y +6.2 puntos en Assin2RTE se traducen directamente en mayor relevancia en recuperación y detección de inferencia más precisa en sistemas RAG.
Para clasificación
Para tareas de clasificación de intención y de escenario,multilingual-e5-large sigue siendo más fuerte debido a su mayor distribución de entrenamiento multilingüe. Considere un enfoque híbrido: mk-embeddings-pt para recuperación y un clasificador aparte para categorización.
Para mayor especialización
El modelo puede ajustarse con datos brasileños específicos de dominio usando pérdida CoSENT para optimización STS o aprendizaje contrastivo para recuperación. Dominios recomendados para despliegue gubernamental: textos legales, documentos regulatorios, flujos de trabajo de servicios públicos.Referencias
- Real et al., 2020. “The ASSIN 2 Shared Task: a Portuguese Semantic Similarity Evaluation”
- Santos et al., 2024. “Serafim: Portuguese Sentence Embeddings” (arXiv:2407.19527)
- Enevoldsen et al., 2025. “MMTEB: Massive Multilingual Text Embedding Benchmark” (arXiv:2502.13595)
- Wang et al., 2024. “Multilingual E5 Text Embeddings” (arXiv:2402.05672)
- Souza et al., 2020. “BERTimbau: Pretrained BERT Models for Brazilian Portuguese”
- MTEB Leaderboard — https://huggingface.co/spaces/mteb/leaderboard