input estruturado com arrays de conteudo para combinar modalidades.
Tipos de entrada suportados
| Tipo | Tipo de conteudo | Formatos | Entrega |
|---|---|---|---|
| Texto | input_text | Texto simples | Inline |
| Imagem | input_image | JPEG, PNG, WebP, GIF, TIFF | URL, data URI base64 ou file_id |
| Audio | input_audio | WAV, MP3 | Base64 |
| Documento | input_file | PDF, DOCX, XLSX, PPTX, RTF, TXT, CSV | URL, data URI base64 ou file_id |
| Video | input_file | MP4 | Data URI base64 ou file_id |
Entrada de imagem
Envie uma imagem para o modelo descrever, analisar ou responder perguntas sobre ela. Forneca a imagem como URL, data URI base64 ou umfile_id previamente enviado.
Imagem via URL
Imagem via base64
Codifique a imagem como data URI com o tipo MIME apropriado.Imagem via file_id
Faca upload de uma imagem com a API Files primeiro e depois referencie-a pelo ID.Entrada de audio
Envie audio para o modelo processar. O audio e automaticamente transcrito e o modelo responde ao conteudo falado. Formatos suportados: WAV e MP3 (maximo 25 MB).Entrada de documento
Envie documentos para o modelo ler e raciocinar sobre eles. PDFs e documentos digitalizados sao processados automaticamente com OCR — nenhuma configuracao extra e necessaria.Documento via URL
Documento via base64
Codifique o arquivo como data URI. Inclua o tipo MIME para que a API possa direcioná-lo ao processador correto.Documentos digitalizados e OCR
PDFs digitalizados e imagens de documentos sao processados automaticamente. A API usa OCR para extrair texto de:- Paginas de PDF digitalizadas (convertidas em imagens a 150 DPI e depois processadas por OCR)
- Fotos de documentos (JPEG, PNG, TIFF)
- Arquivos Office (DOCX, XLSX, PPTX — convertidos para PDF primeiro e depois processados por OCR)
input_file e o pipeline cuida da deteccao, conversao e OCR.
Formatos de documento suportados
| Formato | Tipo MIME | Processamento |
|---|---|---|
application/pdf | OCR por pagina a 150 DPI | |
| JPEG / PNG / TIFF / WebP / GIF | image/* | OCR direto |
| Word (.doc, .docx) | application/msword, application/vnd.openxmlformats-officedocument.wordprocessingml.document | Converte para PDF e depois OCR |
| Excel (.xls, .xlsx) | application/vnd.ms-excel, application/vnd.openxmlformats-officedocument.spreadsheetml.sheet | Converte para PDF e depois OCR |
| PowerPoint (.ppt, .pptx) | application/vnd.ms-powerpoint, application/vnd.openxmlformats-officedocument.presentationml.presentation | Converte para PDF e depois OCR |
| RTF | application/rtf | Converte para PDF e depois OCR |
| Texto simples / CSV | text/plain, text/csv | Leitura direta |
Entrada mista
Combine multiplos tipos de conteudo em uma unica mensagem. O modelo ve todas as entradas juntas e pode raciocinar entre elas.Proximos passos
- Saida multimodal — gere audio e imagens nas respostas
- Arquivos e vector stores — faca upload e gerencie arquivos para reutilizacao
- Gerar uma resposta — requisicoes somente texto e trocas de multiplos turnos
- Modo de voz avancado — conversas de voz em tempo real com LiveKit