Use this file to discover all available pages before exploring further.
La API de Respuestas acepta texto, imágenes, audio y archivos en una sola solicitud.
Utiliza input estructurado con arreglos de contenido para combinar modalidades.
Envía una imagen para que el modelo la describa, analice o responda preguntas sobre ella.
Proporciona la imagen como una URL, una URI de datos base64 o un file_id previamente subido.
Envía audio para que el modelo lo procese. El audio se transcribe automáticamente y el modelo responde al contenido hablado.Formatos soportados: WAV y MP3 (máx 25 MB).
El modelo transcribe automáticamente el audio y responde al contenido hablado. Por ejemplo, enviar un archivo WAV que contiene “Hello, how are you today?” devuelve:
{ "status": "completed", "output": [ { "type": "message", "role": "assistant", "content": [ { "type": "output_text", "text": "Hello! I'm doing well, thank you for asking. I'm here and ready to help you with any questions or tasks you might have. How can I assist you today?" } ] } ]}
Envía documentos para que el modelo los lea y razone sobre ellos.
Los documentos PDF y escaneados se procesan automáticamente con OCR — no se necesita configuración adicional.
Los PDFs escaneados y las imágenes de documentos se procesan automáticamente. La API utiliza OCR para extraer texto de:
Páginas PDF escaneadas (convertidas a imágenes a 150 DPI, luego OCR)
Fotos de documentos (JPEG, PNG, TIFF)
Archivos de Office (DOCX, XLSX, PPTX — convertidos a PDF primero, luego OCR)
Los documentos de varias páginas se procesan en paralelo. El texto extraído se devuelve como Markdown y se pasa al modelo para razonamiento.No se necesitan parámetros especiales — solo envía el archivo como input_file y la canalización se encarga de la detección, conversión y OCR.