Entrada multimodal

A API de Respostas aceita texto, imagens, áudio e arquivos em uma única solicitação. Use o campo estruturado input com arrays de conteúdo para combinar modalidades.

Tipos de entrada suportados

Tipo	Tipo de conteúdo	Formatos	Entrega
Texto	`input_text`	Texto simples	Inline
Imagem	`input_image`	JPEG, PNG, WebP, GIF, TIFF	URL, data URI base64 ou `file_id`
Áudio	`input_audio`	WAV, MP3	Base64
Documento	`input_file`	PDF, DOCX, XLSX, PPTX, RTF, TXT, CSV	URL, data URI base64 ou `file_id`
Vídeo	`input_file`	MP4	Data URI base64 ou `file_id`

Entrada de imagem

Envie uma imagem para o modelo descrever, analisar ou responder perguntas sobre ela. Forneça a imagem como uma URL, um data URI base64 ou um file_id previamente enviado.

Imagem via URL

mka1 llm responses create \
  -H 'X-On-Behalf-Of: <end-user-id>' \
  --body '{
    "model": "meetkai:functionary-pt",
    "input": [
      {
        "type": "message",
        "role": "user",
        "content": [
          { "type": "input_text", "text": "Describe what you see in this image." },
          {
            "type": "input_image",
            "image_url": "https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Cat03.jpg/1200px-Cat03.jpg"
          }
        ]
      }
    ]
  }'

Imagem via base64

Codifique a imagem como um data URI com o tipo MIME apropriado.

IMAGE_B64=$(base64 -i photo.jpg)

mka1 llm responses create \
  --body "{
    \"model\": \"meetkai:functionary-pt\",
    \"input\": [
      {
        \"type\": \"message\",
        \"role\": \"user\",
        \"content\": [
          { \"type\": \"input_text\", \"text\": \"What is in this photo?\" },
          {
            \"type\": \"input_image\",
            \"image_url\": \"data:image/jpeg;base64,${IMAGE_B64}\"
          }
        ]
      }
    ]
  }"

Imagem via file_id

Envie uma imagem primeiro com a API de Arquivos e depois referencie pelo ID.

# Envie a imagem
FILE_ID=$(mka1 llm files upload \
  --file @photo.jpg \
  --purpose assistants | jq -r '.id')

# Use o file_id
mka1 llm responses create \
  --body "{
    \"model\": \"meetkai:functionary-pt\",
    \"input\": [
      {
        \"type\": \"message\",
        \"role\": \"user\",
        \"content\": [
          { \"type\": \"input_text\", \"text\": \"Describe this image.\" },
          { \"type\": \"input_image\", \"file_id\": \"${FILE_ID}\" }
        ]
      }
    ]
  }"

Entrada de áudio

Envie áudio para o modelo processar. O áudio é automaticamente transcrito e o modelo responde ao conteúdo falado. Formatos suportados: WAV e MP3 (máx. 25 MB).

AUDIO_B64=$(base64 -i recording.wav)

mka1 llm responses create \
  --body "{
    \"model\": \"meetkai:functionary-pt\",
    \"input\": [
      {
        \"type\": \"message\",
        \"role\": \"user\",
        \"content\": [
          {
            \"type\": \"input_audio\",
            \"input_audio\": {
              \"data\": \"${AUDIO_B64}\",
              \"format\": \"wav\"
            }
          }
        ]
      }
    ]
  }"

O modelo transcreve automaticamente o áudio e responde ao conteúdo falado. Por exemplo, ao enviar um arquivo WAV contendo “Hello, how are you today?” retorna:

{
  "status": "completed",
  "output": [
    {
      "type": "message",
      "role": "assistant",
      "content": [
        {
          "type": "output_text",
          "text": "Hello! I'm doing well, thank you for asking. I'm here and ready to help you with any questions or tasks you might have. How can I assist you today?"
        }
      ]
    }
  ]
}

Entrada de documento

Envie documentos para o modelo ler e raciocinar sobre eles. PDFs e documentos digitalizados são processados automaticamente com OCR — não é necessária configuração extra.

Documento via URL

mka1 llm responses create \
  --body '{
    "model": "meetkai:functionary-pt",
    "input": [
      {
        "type": "message",
        "role": "user",
        "content": [
          { "type": "input_text", "text": "Summarize this document in three bullet points." },
          {
            "type": "input_file",
            "file_url": "https://example.com/report.pdf",
            "filename": "report.pdf"
          }
        ]
      }
    ]
  }'

Documento via base64

Codifique o arquivo como um data URI. Inclua o tipo MIME para que a API possa encaminhar para o processador correto.

PDF_B64=$(base64 -i contract.pdf)

mka1 llm responses create \
  --body "{
    \"model\": \"meetkai:functionary-pt\",
    \"input\": [
      {
        \"type\": \"message\",
        \"role\": \"user\",
        \"content\": [
          { \"type\": \"input_text\", \"text\": \"What are the key terms in this contract?\" },
          {
            \"type\": \"input_file\",
            \"file_data\": \"data:application/pdf;base64,${PDF_B64}\",
            \"filename\": \"contract.pdf\"
          }
        ]
      }
    ]
  }"

Documentos digitalizados e OCR

PDFs digitalizados e imagens de documentos são processados automaticamente. A API utiliza OCR para extrair texto de:

Páginas PDF digitalizadas (convertidas em imagens a 150 DPI, depois OCR)
Fotos de documentos (JPEG, PNG, TIFF)
Arquivos Office (DOCX, XLSX, PPTX — convertidos para PDF primeiro, depois OCR)

Documentos com várias páginas são processados em paralelo. O texto extraído é retornado como Markdown e enviado ao modelo para raciocínio. Nenhum parâmetro especial é necessário — basta enviar o arquivo como input_file e o pipeline cuida da detecção, conversão e OCR.

Formatos de documento suportados

Formato	Tipo MIME	Processamento
PDF	`application/pdf`	OCR por página a 150 DPI
JPEG / PNG / TIFF / WebP / GIF	`image/*`	OCR direto
Word (.doc, .docx)	`application/msword`, `application/vnd.openxmlformats-officedocument.wordprocessingml.document`	Converter para PDF, depois OCR
Excel (.xls, .xlsx)	`application/vnd.ms-excel`, `application/vnd.openxmlformats-officedocument.spreadsheetml.sheet`	Converter para PDF, depois OCR
PowerPoint (.ppt, .pptx)	`application/vnd.ms-powerpoint`, `application/vnd.openxmlformats-officedocument.presentationml.presentation`	Converter para PDF, depois OCR
RTF	`application/rtf`	Converter para PDF, depois OCR
Texto simples / CSV	`text/plain`, `text/csv`	Lido diretamente

Limite de tamanho: 30 MB por arquivo.

Entrada mista

Combine múltiplos tipos de conteúdo em uma única mensagem. O modelo vê todas as entradas juntas e pode raciocinar sobre elas.

mka1 llm responses create \
  --body '{
    "model": "meetkai:functionary-pt",
    "input": [
      {
        "type": "message",
        "role": "user",
        "content": [
          { "type": "input_text", "text": "Compare the chart in the image with the data in the spreadsheet. Are the numbers consistent?" },
          {
            "type": "input_image",
            "image_url": "https://example.com/chart.png"
          },
          {
            "type": "input_file",
            "file_url": "https://example.com/data.xlsx",
            "filename": "data.xlsx"
          }
        ]
      }
    ]
  }'

Próximos passos

Saída multimodal — gere áudio e imagens nas respostas
Arquivos e vetores — envie e gerencie arquivos para reutilização
Gerar uma resposta — solicitações apenas de texto e trocas multi-turno
Modo de voz avançado — conversas de voz em tempo real com LiveKit

Primeiros passos

Respostas

Recursos

CLI

Receitas

Benchmarks

Infraestrutura

Entrada multimodal

Tipos de entrada suportados

Entrada de imagem

Imagem via URL

Imagem via base64

Imagem via file_id

Entrada de áudio

Entrada de documento

Documento via URL

Documento via base64

Documentos digitalizados e OCR

Formatos de documento suportados

Entrada mista

Próximos passos

Primeiros passos

Respostas

Recursos

CLI

Receitas

Benchmarks

Infraestrutura

Documentation Index

​Tipos de entrada suportados

​Entrada de imagem

​Imagem via URL

​Imagem via base64

​Imagem via file_id

​Entrada de áudio

​Entrada de documento

​Documento via URL

​Documento via base64

​Documentos digitalizados e OCR

​Formatos de documento suportados

​Entrada mista

​Próximos passos

Tipos de entrada suportados

Entrada de imagem

Imagem via URL

Imagem via base64

Imagem via file_id

Entrada de áudio

Entrada de documento

Documento via URL

Documento via base64

Documentos digitalizados e OCR

Formatos de documento suportados

Entrada mista

Próximos passos