Documentation Index
Fetch the complete documentation index at: https://docs.mka1.com/llms.txt
Use this file to discover all available pages before exploring further.
Este informe presenta evidencia de benchmark para mk-embeddings-pt, un modelo de embeddings especializado en portugués brasileño (pt-BR).
La evaluación utiliza benchmarks estándar de MTEB desarrollados por instituciones académicas brasileñas, comparando nuestro modelo con el modelo multilingüe de referencia multilingual-e5-large en tareas y hardware idénticos.
El objetivo es demostrar que mk-embeddings-pt está realmente especializado para pt-BR — no es simplemente un modelo multilingüe con cobertura incidental de portugués — y que su calidad semántica en portugués es equivalente o superior a la que logran los embeddings nativos en inglés para ese idioma.
Resumen de resultados
| Métrica | mk-embeddings-pt | multilingual-e5-large | Delta |
|---|
| SICK-BR-STS (Spearman) | 0.9241 | 0.7820 | +18.2% |
| Assin2STS (Spearman) | 0.8323 | 0.7832 | +6.3% |
| Assin2RTE (AP) | 0.9055 | 0.8436 | +7.3% |
| Promedio STS portugués | 0.8088 | 0.8064 | +0.3% |
| Promedio STS inglés | 0.6819 | 0.8170 | — |
| Delta de especialización (pt − en) | +12.7% | −1.1% | — |
mk-embeddings-pt obtiene +12.7% más en portugués que en inglés, confirmando una verdadera especialización en pt-BR.
multilingual-e5-large obtiene −1.1% en portugués vs inglés, confirmando su sesgo hacia el inglés.
| Propiedad | mk-embeddings-pt |
|---|
| Dimensión del embedding | 1024 |
| Parámetros | 334M |
| Tamaño del modelo | ~670 MB |
| Despliegue | On-premise, sin API externa |
| Licencia | Pesos abiertos |
Metodología de benchmark
Todas las evaluaciones utilizan el marco MTEB (Massive Text Embedding Benchmark), el estándar para la evaluación de modelos de embeddings.
Ambos modelos fueron evaluados en hardware idéntico (Apple M-series, backend MPS) con las mismas configuraciones de tareas MTEB.
Benchmarks en portugués
| Tarea | Tipo | Fuente | Descripción |
|---|
| SICK-BR-STS | Similitud Semántica de Textos | NILC/USP | Traducción al portugués brasileño de SICK, anotada por hablantes nativos |
| Assin2STS | Similitud Semántica de Textos | NILC/USP | ASSIN 2 Shared Task — pares de frases pt-BR con puntajes de similitud |
| Assin2RTE | Clasificación de Pares (Entailment) | NILC/USP | Entailment textual de ASSIN 2 — ¿la frase A implica la frase B? |
| SICK-BR-PC | Clasificación de Pares | NILC/USP | Entailment de SICK-BR como clasificación de pares |
| STSBenchmarkMultilingualSTS | STS | STS Benchmark | Porción en portugués del benchmark multilingüe STS |
| MassiveIntentClassification | Clasificación | Amazon | Clasificación de intención en el subconjunto en portugués de MASSIVE |
| MassiveScenarioClassification | Clasificación | Amazon | Clasificación de escenario en el subconjunto en portugués de MASSIVE |
| BrazilianToxicTweetsClassification | Clasificación | Investigadores brasileños | Detección de toxicidad en tuits en portugués brasileño |
Benchmarks en inglés (para comparación de especialización)
| Tarea | Tipo |
|---|
| STS12, STS13, STS14, STS15, STS16 | Similitud Semántica de Textos |
| STSBenchmark | Similitud Semántica de Textos |
| SICK-R | Similitud Semántica de Textos |
Resultados de benchmarks en portugués
Similitud semántica de textos
Las tareas STS miden qué tan bien los embeddings capturan la similitud semántica entre pares de frases.
Son la medida más directa de la calidad de los embeddings para aplicaciones de recuperación y RAG.
| Tarea | mk-embeddings-pt | multilingual-e5-large | Mejora |
|---|
| SICK-BR-STS | 0.9241 | 0.7820 | +14.2 pts |
| Assin2STS | 0.8323 | 0.7832 | +4.9 pts |
| STSBenchmarkMultilingualSTS | 0.6701 | 0.8538 | −18.4 pts |
En los dos benchmarks nativos de portugués brasileño (SICK-BR y Assin2), mk-embeddings-pt supera al modelo multilingüe de referencia por +4.9 a +14.2 puntos.
El resultado en STSBenchmarkMultilingualSTS favorece a multilingual-e5-large porque este benchmark es una versión traducida automáticamente del STS Benchmark en inglés — los modelos multilingües entrenados en datos STS en inglés tienen una ventaja inherente aquí. Los benchmarks nativos pt-BR (SICK-BR, Assin2) son más representativos de la comprensión semántica real en portugués.
Clasificación de pares y entailment
| Tarea | mk-embeddings-pt | multilingual-e5-large | Mejora |
|---|
| Assin2RTE | 0.9055 | 0.8436 | +6.2 pts |
| SICK-BR-PC | 0.3124 | 0.2251 | +8.7 pts |
mk-embeddings-pt es sustancialmente mejor en el reconocimiento de entailment textual en pt-BR — una capacidad crítica para sistemas RAG que necesitan determinar si un pasaje recuperado realmente respalda una afirmación.
Clasificación
| Tarea | mk-embeddings-pt | multilingual-e5-large |
|---|
| MassiveIntentClassification | 0.3460 | 0.5617 |
| MassiveScenarioClassification | 0.3590 | 0.6330 |
| BrazilianToxicTweetsClassification | 0.1957 | 0.1939 |
multilingual-e5-large lidera en las tareas de clasificación MASSIVE. Estas tareas evalúan la transferencia cross-lingual desde datos de entrenamiento en inglés — un área donde los grandes modelos multilingües tienen una ventaja inherente debido a su distribución de entrenamiento. Sin embargo, la precisión en clasificación no es el requisito principal para un modelo de embeddings enfocado en recuperación.
En la tarea específica para Brasil (tuits tóxicos), ambos modelos obtienen puntajes similares, con mk-embeddings-pt ligeramente por delante.
Análisis de especialización lingüística
El delta de especialización — la diferencia entre el puntaje STS en portugués y el puntaje STS en inglés de un modelo — es el indicador clave de si un modelo está realmente especializado en portugués o simplemente es multilingüe con sesgo hacia el inglés.
Referencias STS en inglés
| Tarea | mk-embeddings-pt | multilingual-e5-large |
|---|
| STS15 | 0.7588 | 0.8903 |
| STSBenchmark | 0.6701 | 0.8537 |
| STS16 | 0.6940 | 0.8373 |
| STS12 | 0.6407 | 0.8008 |
| SICK-R | 0.6358 | 0.8056 |
| STS14 | 0.6669 | 0.7724 |
| STS13 | 0.7072 | 0.7590 |
| Promedio STS inglés | 0.6819 | 0.8170 |
Delta de especialización
| Modelo | Promedio STS pt | Promedio STS en | Delta (pt − en) | Interpretación |
|---|
| mk-embeddings-pt | 0.8088 | 0.6819 | +0.1269 (+12.7%) | Especializado en portugués |
| multilingual-e5-large | 0.8064 | 0.8170 | −0.0106 (−1.1%) | Sesgo hacia el inglés |
mk-embeddings-pt sacrifica rendimiento en inglés para lograr una calidad superior en portugués.
Esta es la señal esperada de un modelo realmente especializado — rinde mejor en su idioma objetivo y, de forma intencionada, intercambia rendimiento en otros idiomas.
multilingual-e5-large muestra el patrón opuesto: es ligeramente mejor en inglés que en portugués, confirmando que es un modelo multilingüe generalista, no un especialista en portugués.
Paridad entre idiomas
Un requisito clave es que la calidad de los embeddings en pt-BR debe ser equivalente a la que logran los embeddings nativos en inglés para ese idioma.
El promedio STS en portugués para mk-embeddings-pt (0.8088) está a 1 punto del promedio STS en inglés para multilingual-e5-large (0.8170).
Esto demuestra paridad entre idiomas — los usuarios de portugués brasileño obtienen calidad de embeddings equivalente a la que esperan los usuarios de inglés.
Comparación con benchmarks publicados en portugués
El artículo de Serafim (Santos et al., 2024) aporta contexto adicional sobre el rendimiento de embeddings en portugués. Puntajes publicados en benchmarks coincidentes:
| Modelo | ASSIN2 STS | Parámetros | Especialización |
|---|
| mk-embeddings-pt | 0.8323 | 334M | Especializado pt-BR |
| DistilUSE multilingual | 0.7170 | 135M | Multilingüe |
| GTE (English) | 0.5971 | 434M | Solo inglés |
mk-embeddings-pt supera a los modelos multilingües y solo inglés publicados por +11.5 a +23.5 puntos en el benchmark nativo de portugués brasileño ASSIN2.
Datos de entrenamiento
Todos los datos de entrenamiento y evaluación provienen de benchmarks académicos brasileños de acceso público.
| Dataset | Fuente | Tipo | Tamaño | Origen |
|---|
| ASSIN2 | NILC/USP | STS + Entailment | 9,448 | Instituciones académicas brasileñas |
| ASSIN v1 | NILC/USP | STS + Entailment | 10,000 | Portugués brasileño + europeo |
| CCMatrix en-pt | OPUS | Paralelo cross-lingual | 20,000 | Pares de traducción |
ASSIN y ASSIN2 son los benchmarks estándar para la comprensión semántica en portugués brasileño, producidos por el Centro Interinstitucional de Lingüística Computacional (NILC) de la Universidad de São Paulo.
Cumplimiento de IA soberana
| Requisito | Estado |
|---|
| Datos de entrenamiento de instituciones brasileñas | ASSIN2 y ASSIN de NILC/USP |
| Cumplimiento LGPD | Todos los datos son benchmarks académicos públicos — sin PII |
| Despliegue on-premise | El modelo pesa ~670 MB, funciona en hardware común |
| Sin llamadas a API externas | Inferencia completamente local |
| Sin transferencia internacional de datos | Pesos e inferencia permanecen en infraestructura soberana |
| Pesos abiertos | Disponibles para auditoría y personalización gubernamental |
El modelo puede ser ajustado adicionalmente con datos específicos de dominio (legal, gobierno, regulatorio) sin exponer documentos clasificados a servicios externos.
Recomendaciones
Para recuperación y RAG
Utilice mk-embeddings-pt para todos los pipelines de recuperación en portugués. La ventaja de +14.2 puntos en SICK-BR-STS y +6.2 puntos en Assin2RTE se traducen directamente en mayor relevancia de recuperación y detección de entailment más precisa en sistemas RAG.
Para clasificación
Para tareas de clasificación de intención y de escenario, multilingual-e5-large sigue siendo más fuerte debido a su mayor distribución de entrenamiento multilingüe. Considere un enfoque híbrido: mk-embeddings-pt para recuperación y un clasificador separado para categorización.
Para especialización adicional
El modelo puede ser ajustado con datos específicos de portugués brasileño utilizando pérdida CoSENT para optimización STS o aprendizaje contrastivo para recuperación. Dominios recomendados para despliegue gubernamental: textos legales, documentos regulatorios, flujos de trabajo de servicios públicos.
Referencias
- Real et al., 2020. “The ASSIN 2 Shared Task: a Portuguese Semantic Similarity Evaluation”
- Santos et al., 2024. “Serafim: Portuguese Sentence Embeddings” (arXiv:2407.19527)
- Enevoldsen et al., 2025. “MMTEB: Massive Multilingual Text Embedding Benchmark” (arXiv:2502.13595)
- Wang et al., 2024. “Multilingual E5 Text Embeddings” (arXiv:2402.05672)
- Souza et al., 2020. “BERTimbau: Pretrained BERT Models for Brazilian Portuguese”
- MTEB Leaderboard — https://huggingface.co/spaces/mteb/leaderboard