input estructurado con arreglos de contenido para combinar modalidades.
Tipos de entrada admitidos
| Tipo | Tipo de contenido | Formatos | Entrega |
|---|---|---|---|
| Texto | input_text | Texto plano | Inline |
| Imagen | input_image | JPEG, PNG, WebP, GIF, TIFF | URL, URI de datos base64 o file_id |
| Audio | input_audio | WAV, MP3 | Base64 |
| Documento | input_file | PDF, DOCX, XLSX, PPTX, RTF, TXT, CSV | URL, URI de datos base64 o file_id |
| Video | input_file | MP4 | URI de datos base64 o file_id |
Entrada de imagen
Envía una imagen para que el modelo la describa, analice o responda preguntas sobre ella. Proporciona la imagen como una URL, una URI de datos base64 o unfile_id previamente subido.
Imagen vía URL
Imagen vía base64
Codifica la imagen como una URI de datos con el tipo MIME apropiado.Imagen vía file_id
Sube una imagen primero con la API de Archivos, luego haz referencia a ella por su ID.Entrada de audio
Envía audio para que el modelo lo procese. El audio se transcribe automáticamente y el modelo responde al contenido hablado. Formatos admitidos: WAV y MP3 (máx 25 MB).Entrada de documentos
Envía documentos para que el modelo los lea y razone sobre ellos. Los PDF y documentos escaneados se procesan automáticamente con OCR — no se necesita configuración adicional.Documento vía URL
Documento vía base64
Codifica el archivo como una URI de datos. Incluye el tipo MIME para que la API pueda enrutarlo al procesador correcto.Documentos escaneados y OCR
Los PDF escaneados y las imágenes de documentos se procesan automáticamente. La API utiliza OCR para extraer texto de:- Páginas PDF escaneadas (convertidas a imágenes a 150 DPI, luego con OCR)
- Fotos de documentos (JPEG, PNG, TIFF)
- Archivos de Office (DOCX, XLSX, PPTX — convertidos a PDF primero, luego OCR)
input_file y el pipeline se encarga de la detección, conversión y OCR.
Formatos de documento admitidos
| Formato | Tipo MIME | Procesamiento |
|---|---|---|
application/pdf | OCR por página a 150 DPI | |
| JPEG / PNG / TIFF / WebP / GIF | image/* | OCR directo |
| Word (.doc, .docx) | application/msword, application/vnd.openxmlformats-officedocument.wordprocessingml.document | Convertir a PDF, luego OCR |
| Excel (.xls, .xlsx) | application/vnd.ms-excel, application/vnd.openxmlformats-officedocument.spreadsheetml.sheet | Convertir a PDF, luego OCR |
| PowerPoint (.ppt, .pptx) | application/vnd.ms-powerpoint, application/vnd.openxmlformats-officedocument.presentationml.presentation | Convertir a PDF, luego OCR |
| RTF | application/rtf | Convertir a PDF, luego OCR |
| Texto plano / CSV | text/plain, text/csv | Leer directamente |
Entrada mixta
Combina múltiples tipos de contenido en un solo mensaje. El modelo ve todas las entradas juntas y puede razonar entre ellas.Próximos pasos
- Salida multimodal — genera audio e imágenes en las respuestas
- Archivos y almacenes vectoriales — sube y administra archivos para reutilizarlos
- Generar una respuesta — solicitudes solo de texto e intercambios multi-turno
- Modo de voz avanzado — conversaciones de voz en tiempo real con LiveKit