Pular para o conteúdo principal

Documentation Index

Fetch the complete documentation index at: https://docs.mka1.com/llms.txt

Use this file to discover all available pages before exploring further.

A API de Respostas aceita texto, imagens, áudio e arquivos em uma única solicitação. Use o campo estruturado input com arrays de conteúdo para combinar modalidades.

Tipos de entrada suportados

TipoTipo de conteúdoFormatosEntrega
Textoinput_textTexto simplesInline
Imageminput_imageJPEG, PNG, WebP, GIF, TIFFURL, data URI base64 ou file_id
Áudioinput_audioWAV, MP3Base64
Documentoinput_filePDF, DOCX, XLSX, PPTX, RTF, TXT, CSVURL, data URI base64 ou file_id
Vídeoinput_fileMP4Data URI base64 ou file_id

Entrada de imagem

Envie uma imagem para o modelo descrever, analisar ou responder perguntas sobre ela. Forneça a imagem como uma URL, um data URI base64 ou um file_id previamente enviado.

Imagem via URL

mka1 llm responses create \
  -H 'X-On-Behalf-Of: <end-user-id>' \
  --body '{
    "model": "meetkai:functionary-pt",
    "input": [
      {
        "type": "message",
        "role": "user",
        "content": [
          { "type": "input_text", "text": "Describe what you see in this image." },
          {
            "type": "input_image",
            "image_url": "https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Cat03.jpg/1200px-Cat03.jpg"
          }
        ]
      }
    ]
  }'

Imagem via base64

Codifique a imagem como um data URI com o tipo MIME apropriado.
IMAGE_B64=$(base64 -i photo.jpg)

mka1 llm responses create \
  --body "{
    \"model\": \"meetkai:functionary-pt\",
    \"input\": [
      {
        \"type\": \"message\",
        \"role\": \"user\",
        \"content\": [
          { \"type\": \"input_text\", \"text\": \"What is in this photo?\" },
          {
            \"type\": \"input_image\",
            \"image_url\": \"data:image/jpeg;base64,${IMAGE_B64}\"
          }
        ]
      }
    ]
  }"

Imagem via file_id

Envie uma imagem primeiro com a API de Arquivos e depois referencie pelo ID.
# Envie a imagem
FILE_ID=$(mka1 llm files upload \
  --file @photo.jpg \
  --purpose assistants | jq -r '.id')

# Use o file_id
mka1 llm responses create \
  --body "{
    \"model\": \"meetkai:functionary-pt\",
    \"input\": [
      {
        \"type\": \"message\",
        \"role\": \"user\",
        \"content\": [
          { \"type\": \"input_text\", \"text\": \"Describe this image.\" },
          { \"type\": \"input_image\", \"file_id\": \"${FILE_ID}\" }
        ]
      }
    ]
  }"

Entrada de áudio

Envie áudio para o modelo processar. O áudio é automaticamente transcrito e o modelo responde ao conteúdo falado. Formatos suportados: WAV e MP3 (máx. 25 MB).
AUDIO_B64=$(base64 -i recording.wav)

mka1 llm responses create \
  --body "{
    \"model\": \"meetkai:functionary-pt\",
    \"input\": [
      {
        \"type\": \"message\",
        \"role\": \"user\",
        \"content\": [
          {
            \"type\": \"input_audio\",
            \"input_audio\": {
              \"data\": \"${AUDIO_B64}\",
              \"format\": \"wav\"
            }
          }
        ]
      }
    ]
  }"
O modelo transcreve automaticamente o áudio e responde ao conteúdo falado. Por exemplo, ao enviar um arquivo WAV contendo “Hello, how are you today?” retorna:
{
  "status": "completed",
  "output": [
    {
      "type": "message",
      "role": "assistant",
      "content": [
        {
          "type": "output_text",
          "text": "Hello! I'm doing well, thank you for asking. I'm here and ready to help you with any questions or tasks you might have. How can I assist you today?"
        }
      ]
    }
  ]
}

Entrada de documento

Envie documentos para o modelo ler e raciocinar sobre eles. PDFs e documentos digitalizados são processados automaticamente com OCR — não é necessária configuração extra.

Documento via URL

mka1 llm responses create \
  --body '{
    "model": "meetkai:functionary-pt",
    "input": [
      {
        "type": "message",
        "role": "user",
        "content": [
          { "type": "input_text", "text": "Summarize this document in three bullet points." },
          {
            "type": "input_file",
            "file_url": "https://example.com/report.pdf",
            "filename": "report.pdf"
          }
        ]
      }
    ]
  }'

Documento via base64

Codifique o arquivo como um data URI. Inclua o tipo MIME para que a API possa encaminhar para o processador correto.
PDF_B64=$(base64 -i contract.pdf)

mka1 llm responses create \
  --body "{
    \"model\": \"meetkai:functionary-pt\",
    \"input\": [
      {
        \"type\": \"message\",
        \"role\": \"user\",
        \"content\": [
          { \"type\": \"input_text\", \"text\": \"What are the key terms in this contract?\" },
          {
            \"type\": \"input_file\",
            \"file_data\": \"data:application/pdf;base64,${PDF_B64}\",
            \"filename\": \"contract.pdf\"
          }
        ]
      }
    ]
  }"

Documentos digitalizados e OCR

PDFs digitalizados e imagens de documentos são processados automaticamente. A API utiliza OCR para extrair texto de:
  • Páginas PDF digitalizadas (convertidas em imagens a 150 DPI, depois OCR)
  • Fotos de documentos (JPEG, PNG, TIFF)
  • Arquivos Office (DOCX, XLSX, PPTX — convertidos para PDF primeiro, depois OCR)
Documentos com várias páginas são processados em paralelo. O texto extraído é retornado como Markdown e enviado ao modelo para raciocínio. Nenhum parâmetro especial é necessário — basta enviar o arquivo como input_file e o pipeline cuida da detecção, conversão e OCR.

Formatos de documento suportados

FormatoTipo MIMEProcessamento
PDFapplication/pdfOCR por página a 150 DPI
JPEG / PNG / TIFF / WebP / GIFimage/*OCR direto
Word (.doc, .docx)application/msword, application/vnd.openxmlformats-officedocument.wordprocessingml.documentConverter para PDF, depois OCR
Excel (.xls, .xlsx)application/vnd.ms-excel, application/vnd.openxmlformats-officedocument.spreadsheetml.sheetConverter para PDF, depois OCR
PowerPoint (.ppt, .pptx)application/vnd.ms-powerpoint, application/vnd.openxmlformats-officedocument.presentationml.presentationConverter para PDF, depois OCR
RTFapplication/rtfConverter para PDF, depois OCR
Texto simples / CSVtext/plain, text/csvLido diretamente
Limite de tamanho: 30 MB por arquivo.

Entrada mista

Combine múltiplos tipos de conteúdo em uma única mensagem. O modelo vê todas as entradas juntas e pode raciocinar sobre elas.
mka1 llm responses create \
  --body '{
    "model": "meetkai:functionary-pt",
    "input": [
      {
        "type": "message",
        "role": "user",
        "content": [
          { "type": "input_text", "text": "Compare the chart in the image with the data in the spreadsheet. Are the numbers consistent?" },
          {
            "type": "input_image",
            "image_url": "https://example.com/chart.png"
          },
          {
            "type": "input_file",
            "file_url": "https://example.com/data.xlsx",
            "filename": "data.xlsx"
          }
        ]
      }
    ]
  }'

Próximos passos