Saltar al contenido principal

Documentation Index

Fetch the complete documentation index at: https://docs.mka1.com/llms.txt

Use this file to discover all available pages before exploring further.

La API de Respuestas acepta texto, imágenes, audio y archivos en una sola solicitud. Utiliza input estructurado con arreglos de contenido para combinar modalidades.

Tipos de entrada soportados

TipoTipo de contenidoFormatosEntrega
Textoinput_textTexto planoEn línea
Imageninput_imageJPEG, PNG, WebP, GIF, TIFFURL, URI de datos base64 o file_id
Audioinput_audioWAV, MP3Base64
Documentoinput_filePDF, DOCX, XLSX, PPTX, RTF, TXT, CSVURL, URI de datos base64 o file_id
Videoinput_fileMP4URI de datos base64 o file_id

Entrada de imagen

Envía una imagen para que el modelo la describa, analice o responda preguntas sobre ella. Proporciona la imagen como una URL, una URI de datos base64 o un file_id previamente subido.

Imagen vía URL

mka1 llm responses create \
  -H 'X-On-Behalf-Of: <end-user-id>' \
  --body '{
    "model": "meetkai:functionary-es-mini",
    "input": [
      {
        "type": "message",
        "role": "user",
        "content": [
          { "type": "input_text", "text": "Describe what you see in this image." },
          {
            "type": "input_image",
            "image_url": "https://upload.wikimedia.org/wikipedia/commons/thumb/3/3a/Cat03.jpg/1200px-Cat03.jpg"
          }
        ]
      }
    ]
  }'

Imagen vía base64

Codifica la imagen como una URI de datos con el tipo MIME apropiado.
IMAGE_B64=$(base64 -i photo.jpg)

mka1 llm responses create \
  --body "{
    \"model\": \"meetkai:functionary-es-mini\",
    \"input\": [
      {
        \"type\": \"message\",
        \"role\": \"user\",
        \"content\": [
          { \"type\": \"input_text\", \"text\": \"What is in this photo?\" },
          {
            \"type\": \"input_image\",
            \"image_url\": \"data:image/jpeg;base64,${IMAGE_B64}\"
          }
        ]
      }
    ]
  }"

Imagen vía file_id

Sube una imagen primero con la API de Archivos y luego haz referencia a ella por su ID.
# Sube la imagen
FILE_ID=$(mka1 llm files upload \
  --file @photo.jpg \
  --purpose assistants | jq -r '.id')

# Usa el file_id
mka1 llm responses create \
  --body "{
    \"model\": \"meetkai:functionary-es-mini\",
    \"input\": [
      {
        \"type\": \"message\",
        \"role\": \"user\",
        \"content\": [
          { \"type\": \"input_text\", \"text\": \"Describe this image.\" },
          { \"type\": \"input_image\", \"file_id\": \"${FILE_ID}\" }
        ]
      }
    ]
  }"

Entrada de audio

Envía audio para que el modelo lo procese. El audio se transcribe automáticamente y el modelo responde al contenido hablado. Formatos soportados: WAV y MP3 (máx 25 MB).
AUDIO_B64=$(base64 -i recording.wav)

mka1 llm responses create \
  --body "{
    \"model\": \"meetkai:functionary-es-mini\",
    \"input\": [
      {
        \"type\": \"message\",
        \"role\": \"user\",
        \"content\": [
          {
            \"type\": \"input_audio\",
            \"input_audio\": {
              \"data\": \"${AUDIO_B64}\",
              \"format\": \"wav\"
            }
          }
        ]
      }
    ]
  }"
El modelo transcribe automáticamente el audio y responde al contenido hablado. Por ejemplo, enviar un archivo WAV que contiene “Hello, how are you today?” devuelve:
{
  "status": "completed",
  "output": [
    {
      "type": "message",
      "role": "assistant",
      "content": [
        {
          "type": "output_text",
          "text": "Hello! I'm doing well, thank you for asking. I'm here and ready to help you with any questions or tasks you might have. How can I assist you today?"
        }
      ]
    }
  ]
}

Entrada de documento

Envía documentos para que el modelo los lea y razone sobre ellos. Los documentos PDF y escaneados se procesan automáticamente con OCR — no se necesita configuración adicional.

Documento vía URL

mka1 llm responses create \
  --body '{
    "model": "meetkai:functionary-es-mini",
    "input": [
      {
        "type": "message",
        "role": "user",
        "content": [
          { "type": "input_text", "text": "Summarize this document in three bullet points." },
          {
            "type": "input_file",
            "file_url": "https://example.com/report.pdf",
            "filename": "report.pdf"
          }
        ]
      }
    ]
  }'

Documento vía base64

Codifica el archivo como una URI de datos. Incluye el tipo MIME para que la API pueda enviarlo al procesador correcto.
PDF_B64=$(base64 -i contract.pdf)

mka1 llm responses create \
  --body "{
    \"model\": \"meetkai:functionary-es-mini\",
    \"input\": [
      {
        \"type\": \"message\",
        \"role\": \"user\",
        \"content\": [
          { \"type\": \"input_text\", \"text\": \"What are the key terms in this contract?\" },
          {
            \"type\": \"input_file\",
            \"file_data\": \"data:application/pdf;base64,${PDF_B64}\",
            \"filename\": \"contract.pdf\"
          }
        ]
      }
    ]
  }"

Documentos escaneados y OCR

Los PDFs escaneados y las imágenes de documentos se procesan automáticamente. La API utiliza OCR para extraer texto de:
  • Páginas PDF escaneadas (convertidas a imágenes a 150 DPI, luego OCR)
  • Fotos de documentos (JPEG, PNG, TIFF)
  • Archivos de Office (DOCX, XLSX, PPTX — convertidos a PDF primero, luego OCR)
Los documentos de varias páginas se procesan en paralelo. El texto extraído se devuelve como Markdown y se pasa al modelo para razonamiento. No se necesitan parámetros especiales — solo envía el archivo como input_file y la canalización se encarga de la detección, conversión y OCR.

Formatos de documento soportados

FormatoTipo MIMEProcesamiento
PDFapplication/pdfOCR por página a 150 DPI
JPEG / PNG / TIFF / WebP / GIFimage/*OCR directo
Word (.doc, .docx)application/msword, application/vnd.openxmlformats-officedocument.wordprocessingml.documentConvertir a PDF, luego OCR
Excel (.xls, .xlsx)application/vnd.ms-excel, application/vnd.openxmlformats-officedocument.spreadsheetml.sheetConvertir a PDF, luego OCR
PowerPoint (.ppt, .pptx)application/vnd.ms-powerpoint, application/vnd.openxmlformats-officedocument.presentationml.presentationConvertir a PDF, luego OCR
RTFapplication/rtfConvertir a PDF, luego OCR
Texto plano / CSVtext/plain, text/csvLeer directamente
Límite de tamaño: 30 MB por archivo.

Entrada mixta

Combina múltiples tipos de contenido en un solo mensaje. El modelo ve todas las entradas juntas y puede razonar entre ellas.
mka1 llm responses create \
  --body '{
    "model": "meetkai:functionary-es-mini",
    "input": [
      {
        "type": "message",
        "role": "user",
        "content": [
          { "type": "input_text", "text": "Compare the chart in the image with the data in the spreadsheet. Are the numbers consistent?" },
          {
            "type": "input_image",
            "image_url": "https://example.com/chart.png"
          },
          {
            "type": "input_file",
            "file_url": "https://example.com/data.xlsx",
            "filename": "data.xlsx"
          }
        ]
      }
    ]
  }'

Próximos pasos