input com arrays de conteúdo para combinar modalidades.
Tipos de entrada suportados
| Tipo | Tipo de conteúdo | Formatos | Entrega |
|---|---|---|---|
| Texto | input_text | Texto simples | Inline |
| Imagem | input_image | JPEG, PNG, WebP, GIF, TIFF | URL, data URI base64 ou file_id |
| Áudio | input_audio | WAV, MP3 | Base64 |
| Documento | input_file | PDF, DOCX, XLSX, PPTX, RTF, TXT, CSV | URL, data URI base64 ou file_id |
| Vídeo | input_file | MP4 | Data URI base64 ou file_id |
Entrada de imagem
Envie uma imagem para o modelo descrever, analisar ou responder perguntas sobre ela. Forneça a imagem como uma URL, um data URI base64 ou umfile_id previamente enviado.
Imagem via URL
Imagem via base64
Codifique a imagem como um data URI com o tipo MIME apropriado.Imagem via file_id
Envie uma imagem primeiro com a API de Arquivos e depois referencie pelo ID.Entrada de áudio
Envie áudio para o modelo processar. O áudio é automaticamente transcrito e o modelo responde ao conteúdo falado. Formatos suportados: WAV e MP3 (máx. 25 MB).Entrada de documento
Envie documentos para o modelo ler e raciocinar sobre eles. PDFs e documentos digitalizados são processados automaticamente com OCR — não é necessária configuração extra.Documento via URL
Documento via base64
Codifique o arquivo como um data URI. Inclua o tipo MIME para que a API possa encaminhar para o processador correto.Documentos digitalizados e OCR
PDFs digitalizados e imagens de documentos são processados automaticamente. A API utiliza OCR para extrair texto de:- Páginas PDF digitalizadas (convertidas em imagens a 150 DPI, depois OCR)
- Fotos de documentos (JPEG, PNG, TIFF)
- Arquivos Office (DOCX, XLSX, PPTX — convertidos para PDF primeiro, depois OCR)
input_file e o pipeline cuida da detecção, conversão e OCR.
Formatos de documento suportados
| Formato | Tipo MIME | Processamento |
|---|---|---|
application/pdf | OCR por página a 150 DPI | |
| JPEG / PNG / TIFF / WebP / GIF | image/* | OCR direto |
| Word (.doc, .docx) | application/msword, application/vnd.openxmlformats-officedocument.wordprocessingml.document | Converter para PDF, depois OCR |
| Excel (.xls, .xlsx) | application/vnd.ms-excel, application/vnd.openxmlformats-officedocument.spreadsheetml.sheet | Converter para PDF, depois OCR |
| PowerPoint (.ppt, .pptx) | application/vnd.ms-powerpoint, application/vnd.openxmlformats-officedocument.presentationml.presentation | Converter para PDF, depois OCR |
| RTF | application/rtf | Converter para PDF, depois OCR |
| Texto simples / CSV | text/plain, text/csv | Lido diretamente |
Entrada mista
Combine múltiplos tipos de conteúdo em uma única mensagem. O modelo vê todas as entradas juntas e pode raciocinar sobre elas.Próximos passos
- Saída multimodal — gere áudio e imagens nas respostas
- Arquivos e vetores — envie e gerencie arquivos para reutilização
- Gerar uma resposta — solicitações apenas de texto e trocas multi-turno
- Modo de voz avançado — conversas de voz em tempo real com LiveKit