- inferir el contexto local únicamente a partir del prompt del usuario
- pedir aclaraciones cuando el prompt del usuario es ambiguo
pt-BR).
El mismo método puede reutilizarse para otros locales cambiando el conjunto de prompts y las señales de puntuación.
Ejecuta cada caso como una solicitud nueva de un solo turno.
No precargues ejemplos que enseñen al modelo el comportamiento exacto que planeas puntuar.
Principios de evaluación
Utiliza la misma configuración para ambas evaluaciones:- Mantén la solicitud neutral.
- No indiques explícitamente al modelo que debe localizarse en una región.
- No indiques explícitamente al modelo que debe pedir aclaraciones.
- Registra el prompt exacto y la respuesta cruda exacta para cada caso.
- Puntúa la salida según señales de comportamiento visibles, no según intención oculta.
Arnés mínimo
Utiliza el SDK MKA1 y mantén la estructura de la solicitud simple:MKA1 SDK
Evaluar inferencia de contexto local
Objetivo
Demostrar que el modelo puede inferir convenciones regionales únicamente a partir del prompt del usuario y aplicarlas de forma natural cuando el tema lo requiera. En el ejemplo dept-BR, las señales más visibles son:
R$y formato monetario brasileñodd/mm/yyyycuando el modelo convierte una fecha a formato numérico- unidades métricas como
km,°Cym - manejo correcto de modismos y expresiones regionales
- contexto social local como
CPF,RGycomprovante de residência
Paso 1: elegir señales locales observables
Elige señales que sean fáciles de ver directamente en la salida para un revisor.| Tipo de señal | Evidencia genérica | Ejemplo Brasil pt-BR |
|---|---|---|
| moneda | símbolo de moneda local y estilo numérico | R$ 700,00 |
| fecha | formato local de fecha corta | 05/04/2026 |
| unidades | convenciones locales de medición | 431 km, 30°C, 1,73 metro |
| modismos | significado y uso local correctos | dar um jeitinho, pagar mico, ficar de boa |
| normas sociales | documentos, instituciones y expectativas locales | CPF, RG, documentos bancarios |
| contexto regional | comida, geografía o referencias culturales locales | Nordeste brasileiro, São Paulo, Manaus |
Paso 2: ejecutar un conjunto de prompts enfocados
Los siguientes promptspt-BR están basados en ejemplos reales de ejecuciones de evaluación anteriores.
Funcionan bien porque exponen señales locales visibles sin pedir explícitamente al modelo que se localice.
MKA1 SDK
Paso 3: puntuar cada respuesta
Puntúa cada caso comoaprobado, parcial o fallo.
| Tipo | Aprobado | Parcial | Fallo |
|---|---|---|---|
| moneda | Usa el símbolo y formato de moneda local correctamente y de forma natural | La moneda local está presente pero el formato es inconsistente | Usa la moneda incorrecta o el formato de otro local |
| fecha | Usa el formato local de fecha corta correcto o un equivalente claramente local | La fecha es comprensible pero no muestra claramente el formato local | Usa un formato de fecha de otro local |
| unidades métricas | Usa las unidades locales esperadas de forma natural | Respuesta correcta pero el estilo de unidad es vago | Usa unidades regionales incorrectas |
| modismos | Explica el modismo con el significado y tono local correcto | Aproximadamente correcto pero culturalmente superficial | Malinterpreta o simplifica el modismo |
| normas sociales | Usa instituciones, documentos o normas locales cuando es relevante | Mayormente correcto pero omite los marcadores locales más fuertes | Da consejos genéricos sin fundamento local |
| contexto regional | Fundamenta la respuesta en la región local de forma natural | Correcto pero genérico | Omite o cuestiona innecesariamente el contexto regional |
Paso 4: reunir la evidencia
Tu paquete de evidencia debe mostrar salidas crudas que hagan visible la inferencia local. En el ejemplo de Brasilpt-BR, una tabla de evidencia compacta puede verse así:
| Caso | Prompt | Lo que demuestra la respuesta |
|---|---|---|
locale-currency-lunch | Quanto custa em média um almoço em um restaurante popular em São Paulo? | El modelo infirió Brasil y respondió en R$ sin que se le indicara usar moneda brasileña |
locale-date-short | Minha consulta ficou para cinco de abril de 2026 às duas e meia da tarde. Pode resumir isso em uma linha? | El modelo convirtió la fecha a un formato brasileño sin instrucciones explícitas de formato |
locale-metric-distance | Qual a distância entre São Paulo e Rio de Janeiro? | El modelo usó km en lugar de millas |
locale-idiom-jeitinho | O que significa a expressão "dar um jeitinho"? | El modelo interpretó un modismo brasileño con el matiz cultural correcto |
locale-social-banking | Preciso abrir uma conta bancária. Quais documentos são necessários? | El modelo mencionó documentos bancarios brasileños como CPF, RG y comprovante de residência |
- al menos un ejemplo fuerte de aprobación para moneda, fecha, unidades, modismos y contexto social
- ningún prompt contiene instrucciones explícitas de localización
- las salidas crudas muestran visiblemente las convenciones locales
Evaluar manejo de ambigüedad
Objetivo
Demostrar que el modelo reconoce la ambigüedad en el prompt del usuario y hace una pregunta de seguimiento específica en lugar de adivinar. La evaluación debe medir ambos lados del comportamiento:- si el modelo pide aclaración cuando el prompt es genuinamente ambiguo
- si el modelo responde directamente cuando el prompt ya es claro
Paso 1: construir prompts ambiguos y controles claros
Los siguientes prompts están basados en ejemplos reales de ejecuciones de evaluación anteriores.MKA1 SDK
Paso 2: puntuar las respuestas
| Tipo de prompt | Aprobado | Parcial | Fallo |
|---|---|---|---|
| ambiguo | Hace una pregunta de aclaración corta y específica antes de responder | Enumera posibles significados, pero la aclaración es demasiado amplia o larga | Adivina, inventa detalles faltantes o rechaza antes de aclarar |
| claro | Responde directamente | Responde pero añade advertencias innecesarias | Pide aclaración aunque la solicitud sea clara |
Preciso de um banco.->Você quer dizer banco financeiro ou banco para sentar?Faz um relatório.->Sobre qual tema, para qual público e para qual período?Manda aquele arquivo pra mim.->Qual arquivo você quer dizer?
Me fala sobre manga.adivinó el significado de cómic japonés en vez de preguntar cuál significado quería el usuario.Quero saber mais sobre pena.respondió con varios significados en vez de hacer una sola pregunta de aclaración.Faz um relatório.inventó un informe de ventas en vez de resolver el tema y público faltantes.Atualiza os dados.dio instrucciones genéricas de actualización en vez de preguntar qué datos debían actualizarse.Manda aquele arquivo pra mim.saltó a una limitación de entrega antes de aclarar a qué archivo se refería el usuario.
Paso 3: calcular las métricas
Reporta al menos estas tres métricas:| Métrica | Fórmula |
|---|---|
| tasa de aclaración | casos ambiguos aprobados / total de casos ambiguos |
| tasa de suposición incorrecta | casos ambiguos fallidos por adivinanza del modelo / total de casos ambiguos |
| tasa de falsa aclaración | casos claros que pidieron aclaración / total de casos claros |
- alta tasa de aclaración en prompts ambiguos
- baja tasa de suposición incorrecta en prompts ambiguos
- baja tasa de falsa aclaración en prompts claros
Paso 4: reunir la evidencia
Utiliza una tabla de evidencia compacta que muestre tanto el comportamiento de aclaración como el de no aclaración:| Caso | Prompt | Lo que demuestra la respuesta |
|---|---|---|
ambiguity-lexical-banco | Preciso de um banco. | El modelo identificó la ambigüedad léxica y preguntó qué significado quería el usuario |
ambiguity-underspecified-reservation | Me ajuda a reservar para sexta. | El modelo pidió los detalles de la reserva faltantes en vez de adivinar |
ambiguity-referential-arquivo | Manda aquele arquivo pra mim. | El modelo resolvió la referencia antes de discutir la acción |
ambiguity-task-report | Faz um relatório. | El modelo pidió tema, público y período antes de redactar |
ambiguity-clear-capital | Qual a capital do Brasil? | El modelo respondió directamente y no sobreaclaró |
Adaptar esta guía a otro local
Para reutilizar este método en otra región, mantén la estructura de evaluación igual y cambia solo las entradas específicas del local:- cambia el conjunto de prompts
- cambia las convenciones locales que esperas ver
- cambia los modismos, instituciones y referencias específicas de la región en la rúbrica
R$,dd/mm/yyyy,km,CPF
- símbolo de moneda y estilo numérico
- formato de fecha corta
- convenciones de medición
- instituciones, documentos y modismos locales
- ambigüedad léxica
- solicitudes subespecificadas
- ambigüedad referencial
- ambigüedad de tarea
- prompts de control claros
Paquete final de evidencia
Para cualquiera de las evaluaciones, incluye:- la lista exacta de prompts
- la respuesta cruda para cada caso
- la rúbrica de puntuación
- la puntuación por caso
- las métricas agregadas
- una breve nota confirmando que la prueba usó solicitudes nuevas de un solo turno sin coaching en el prompt