- inferir o contexto de localidade apenas a partir do prompt do usuário
- pedir esclarecimento quando o prompt do usuário é ambíguo
pt-BR).
Você pode reutilizar o mesmo método para outros locais mudando o conjunto de prompts e os sinais de pontuação.
Execute cada caso como uma requisição independente de turno único.
Não pré-carregue exemplos que ensinem ao modelo exatamente o comportamento que você pretende pontuar.
Princípios da avaliação
Use a mesma configuração para as duas avaliações:- Mantenha a requisição neutra.
- Não instrua explicitamente o modelo a se localizar em uma região.
- Não instrua explicitamente o modelo a pedir esclarecimento.
- Registre o prompt exato e a resposta bruta exata para cada caso.
- Pontue a saída com base em sinais comportamentais visíveis, não em intenção oculta.
Configuração mínima
Use o SDK da MKA1 e mantenha o formato da requisição simples:MKA1 SDK
Avalie a inferência de contexto local
Objetivo
Comprove que o modelo consegue inferir convenções regionais apenas a partir do prompt do usuário e aplicá-las naturalmente quando o tema exigir isso. No exemplo empt-BR, os sinais mais visíveis são:
R$e formatação monetária brasileiradd/mm/yyyyquando o modelo converte uma data para forma numérica- unidades métricas como
km,°Cem - tratamento correto de expressões idiomáticas e regionais
- contexto social local como
CPF,RGecomprovante de residência
Etapa 1: escolha sinais de localidade observáveis
Escolha sinais que um revisor consiga ver diretamente na saída.| Tipo de sinal | Evidência genérica | Exemplo Brasil pt-BR |
|---|---|---|
| moeda | símbolo monetário local e estilo numérico | R$ 700,00 |
| data | formato curto de data local | 05/04/2026 |
| unidades | convenções de medida locais | 431 km, 30°C, 1,73 metro |
| expressões idiomáticas | significado e uso local corretos | dar um jeitinho, pagar mico, ficar de boa |
| normas sociais | documentos, instituições e expectativas locais | CPF, RG, documentos bancários |
| contexto regional | referências locais de comida, geografia ou cultura | Nordeste brasileiro, São Paulo, Manaus |
Etapa 2: execute um conjunto de prompts focado
Os prompts empt-BR abaixo são baseados em exemplos reais de execuções de avaliação anteriores.
Eles funcionam bem porque expõem sinais locais visíveis sem pedir explicitamente que o modelo se localize.
MKA1 SDK
Etapa 3: pontue cada resposta
Pontue cada caso comopass, partial ou fail.
| Tipo | Pass | Partial | Fail |
|---|---|---|---|
| moeda | Usa naturalmente o símbolo monetário e a formatação locais corretos | A moeda local aparece, mas a formatação é inconsistente | Usa a moeda errada ou a formatação de localidade errada |
| data | Usa o formato curto de data local correto ou um equivalente claramente local | A data é compreensível, mas não mostra o formato local com clareza | Usa um formato de localidade conflitante |
| unidades métricas | Usa naturalmente as unidades locais esperadas | A resposta está correta, mas o estilo da unidade é vago | Usa unidades regionais erradas |
| expressões idiomáticas | Explica a expressão com o significado e o tom locais corretos | Está aproximadamente correto, mas sem profundidade cultural | Interpreta mal ou neutraliza demais a expressão |
| normas sociais | Usa instituições, documentos ou normas locais quando isso é relevante | Está quase certo, mas perde os marcadores locais mais fortes | Dá um conselho genérico, sem base local |
| contexto regional | Fundamenta a resposta naturalmente na região local | Está correto, mas genérico | Perde o contexto regional ou o questiona sem necessidade |
Etapa 4: monte as evidências
Seu pacote de evidências deve mostrar saídas brutas que tornem a inferência de localidade visível. No exemplo do Brasil empt-BR, uma tabela compacta de evidências pode ser assim:
| Caso | Prompt | O que a resposta comprova |
|---|---|---|
locale-currency-lunch | Quanto custa em média um almoço em um restaurante popular em São Paulo? | O modelo inferiu Brasil e respondeu em R$ sem receber instrução para usar moeda brasileira |
locale-date-short | Minha consulta ficou para cinco de abril de 2026 às duas e meia da tarde. Pode resumir isso em uma linha? | O modelo converteu a data para um formato brasileiro sem instruções explícitas de formatação |
locale-metric-distance | Qual a distância entre São Paulo e Rio de Janeiro? | O modelo usou km em vez de milhas |
locale-idiom-jeitinho | O que significa a expressão "dar um jeitinho"? | O modelo interpretou uma expressão idiomática brasileira com a nuance cultural correta |
locale-social-banking | Preciso abrir uma conta bancária. Quais documentos são necessários? | O modelo citou documentos bancários brasileiros como CPF, RG e comprovante de residência |
- pelo menos um exemplo forte aprovado para moeda, data, unidades, expressões idiomáticas e contexto social
- nenhum prompt contém orientação explícita de localização
- as saídas brutas mostram visivelmente convenções locais
Avalie o tratamento de ambiguidade
Objetivo
Comprove que o modelo reconhece ambiguidade no prompt do usuário e faz uma pergunta de acompanhamento direcionada em vez de adivinhar. A avaliação deve medir os dois lados do comportamento:- se o modelo pede esclarecimento quando o prompt é genuinamente ambíguo
- se o modelo responde diretamente quando o prompt já está claro
Etapa 1: monte prompts ambíguos e controles claros
Os prompts abaixo são baseados em exemplos reais de execuções de avaliação anteriores.MKA1 SDK
Etapa 2: pontue as respostas
| Tipo de prompt | Pass | Partial | Fail |
|---|---|---|---|
| ambíguo | Faz uma pergunta curta e direcionada de esclarecimento antes de responder | Lista significados possíveis, mas o esclarecimento é amplo demais ou longo demais | Adivinha, inventa detalhes ausentes ou recusa antes de esclarecer |
| claro | Responde diretamente | Responde, mas adiciona cautela desnecessária | Pede esclarecimento mesmo quando a solicitação está clara |
Preciso de um banco.->Você quer dizer banco financeiro ou banco para sentar?Faz um relatório.->Sobre qual tema, para qual público e para qual período?Manda aquele arquivo pra mim.->Qual arquivo você quer dizer?
Me fala sobre manga.adivinhou o sentido de quadrinho japonês em vez de perguntar qual significado o usuário queria.Quero saber mais sobre pena.respondeu com vários significados em vez de fazer uma pergunta de esclarecimento.Faz um relatório.inventou um relatório de vendas em vez de resolver a ausência de tema e público.Atualiza os dados.deu instruções genéricas de atualização em vez de perguntar quais dados deveriam ser atualizados.Manda aquele arquivo pra mim.pulou direto para uma limitação de envio antes de esclarecer qual arquivo o usuário queria dizer.
Etapa 3: calcule as métricas
Reporte pelo menos estas três métricas:| Métrica | Fórmula |
|---|---|
| taxa de esclarecimento | casos ambíguos com score pass / total de casos ambíguos |
| taxa de suposição errada | casos ambíguos com score fail porque o modelo adivinhou / total de casos ambíguos |
| taxa de esclarecimento falso | casos claros que pediram esclarecimento / total de casos claros |
- alta taxa de esclarecimento em prompts ambíguos
- baixa taxa de suposição errada em prompts ambíguos
- baixa taxa de esclarecimento falso em prompts claros
Etapa 4: monte as evidências
Use uma tabela compacta de evidências que mostre tanto comportamento de esclarecimento quanto de não esclarecimento:| Caso | Prompt | O que a resposta comprova |
|---|---|---|
ambiguity-lexical-banco | Preciso de um banco. | O modelo identificou a ambiguidade lexical e perguntou qual significado o usuário pretendia |
ambiguity-underspecified-reservation | Me ajuda a reservar para sexta. | O modelo pediu os detalhes ausentes da reserva em vez de adivinhar |
ambiguity-referential-arquivo | Manda aquele arquivo pra mim. | O modelo resolveu a referência antes de discutir a ação |
ambiguity-task-report | Faz um relatório. | O modelo perguntou sobre tema, público e período antes de redigir |
ambiguity-clear-capital | Qual a capital do Brasil? | O modelo respondeu diretamente e não esclareceu em excesso |
Adapte este guia para outro local
Para reutilizar este método em outra região, mantenha a mesma estrutura de avaliação e mude apenas as entradas específicas da localidade:- mude o conjunto de prompts
- mude as convenções locais que você espera ver
- mude as expressões idiomáticas, instituições e referências específicas da região na rubrica
R$,dd/mm/yyyy,km,CPF
- símbolo monetário e estilo numérico
- formato curto de data
- convenções de medida
- instituições, documentos e expressões idiomáticas locais
- ambiguidade lexical
- solicitações pouco especificadas
- ambiguidade referencial
- ambiguidade de tarefa
- prompts claros de controle
Pacote final de evidências
Para qualquer uma das avaliações, inclua:- a lista exata de prompts
- a resposta bruta para cada caso
- a rubrica de pontuação
- a pontuação por caso
- as métricas agregadas
- uma nota curta confirmando que o teste usou requisições independentes de turno único sem orientação no prompt