
Já teve uma imagem que estava quase perfeita? Gosta do tema, a composição é sólida, mas gostava de poder ver algumas abordagens estilísticas diferentes. Enquanto a maioria das ferramentas de IA se foca em criar imagens a partir de texto, por vezes, só precisa de improvisar sobre um elemento visual que já tem.
É precisamente esse o trabalho da API de Variações de Imagem da OpenAI. É uma pequena ferramenta útil para gerar alternativas estilísticas a partir de uma única imagem de origem.
Este guia irá explicar-lhe o que é a API, como colocá-la a funcionar com um pouco de Python, e algumas das peculiaridades e custos importantes que deve conhecer. Também abordaremos por que motivo construir uma ferramenta de negócios completa geralmente exige mais do que apenas uma API em bruto.
O que é a API de Variações de Imagem da OpenAI?
A API de Variações de Imagem da OpenAI é um endpoint específico ("POST /v1/images/variations") que recebe uma imagem que carrega e devolve novas versões com diferentes estilos artísticos. Pense nela como um assistente criativo que pode pegar no seu conceito inicial e mostrar-lhe algumas formas diferentes de como poderia parecer, tudo enquanto mantém o tema principal e o layout intactos.
É fácil confundir esta com as outras APIs de imagem da OpenAI, por isso, vamos esclarecer isso:
-
Geração de Imagens ("/v1/images/generations"): Esta é a que provavelmente conhece melhor. Cria imagens completamente novas com base num prompt de texto. Você escreve palavras, ela cria imagens.
-
Edição de Imagens ("/v1/images/edits"): Esta permite-lhe alterar partes de uma imagem existente. Fornece uma imagem, uma máscara que mostra a área a ser alterada, e um prompt de texto a explicar o que fazer.
A API de Variações é diferente porque destina-se apenas a criar novas versões de uma imagem inteira, e fá-lo sem qualquer entrada de texto da sua parte. Atualmente, funciona com o modelo DALL-E 2, o que é importante lembrar porque tem regras e resultados diferentes do mais recente DALL-E 3.
Como usar a API de Variações de Imagem da OpenAI
Se já escreveu um pouco de Python antes, colocar esta API a funcionar é bastante simples. Aqui está um guia rápido.
Preparação para usar a API de Variações de Imagem da OpenAI
Primeiro, precisará de uma conta OpenAI e uma chave de API. Já tem? Ótimo. Agora, precisará de instalar a biblioteca oficial de Python "openai". Basta abrir o seu terminal e executar isto:
pip install openai
É sempre uma boa ideia definir a sua chave de API como uma variável de ambiente em vez de a colar diretamente no seu código. Isto ajuda a evitar que a envie acidentalmente para um repositório público do GitHub (todos já passámos por isso).
No macOS ou Linux:
export OPENAI_API_KEY="a_sua_chave_de_api_aqui"
No Windows (PowerShell):
$ENV:OPENAI_API_KEY = "a_sua_chave_de_api_aqui"
Compreender os parâmetros da API de Variações de Imagem da OpenAI
A chamada à API em si é limpa e simples, com apenas alguns parâmetros que precisa de conhecer:
-
"image": Esta é a sua imagem inicial. Tem algumas regras estritas: tem de ser um ficheiro PNG quadrado e pesar menos de 4MB.
-
"n": Isto diz à API quantas variações deve criar para si. Pode pedir entre 1 e 10.
-
"size": Isto define as dimensões para as imagens de saída. Com o DALL-E 2, as suas escolhas são "256x256", "512x512", ou "1024x1024".
-
"response_format": Pode pedir um "url" (que é temporário e expira numa hora) ou "b64_json" se quiser os dados da imagem codificados em Base64 diretamente.
Um exemplo rápido em Python para a API de Variações de Imagem da OpenAI
Muito bem, vamos juntar tudo. O script abaixo abrirá uma imagem do seu computador, pedirá à API para gerar duas variações, e depois imprimirá o URL da primeira.
import os
from openai import OpenAI
# O cliente encontrará automaticamente a sua OPENAI_API_KEY a partir das variáveis de ambiente
client = OpenAI()
try:
# Abra o seu ficheiro de imagem em modo de leitura binária
with open("imagem-de-origem.png", "rb") as image_file:
response = client.images.create_variation(
image=image_file,
n=2,
size="1024x1024"
)
# Imprima o URL da primeira imagem gerada
print(response.data[0].url)
except openai.APIError as e:
# Trate os erros da API aqui, talvez tente novamente ou registe-os
print(f"A API da OpenAI devolveu um erro: {e}")
except Exception as e:
print(f"Ocorreu um erro inesperado: {e}")
Quando executar isto, a API envia de volta um objeto JSON. Se pediu um "url", terá um aspeto semelhante a este:
{
"created": 1677610602,
"data": [
{
"url": "https://..."
},
{
"url": "https://..."
}
]
}
Pode então pegar nesse URL e ver as suas imagens recém-geradas.
Principais funcionalidades e limitações da API de Variações de Imagem da OpenAI
A API de Variações é útil, mas é definitivamente uma ferramenta de um só truque. Conhecer os seus limites é tão importante como saber para o que serve.
A principal força da API de Variações de Imagem da OpenAI: Exploração estilística
A melhor coisa sobre esta API é a sua capacidade de criar imagens que mantêm a alma da sua original, mas exploram diferentes vias artísticas. É ótima para coisas como:
-
Criar alguns conceitos de logótipo a partir de um esboço inicial.
-
Criar diferentes versões de uma personagem para um jogo.
-
Gerar mockups de produtos variados para testes A/B.
É uma forma rápida de fazer brainstorming visual sem ter de voltar à estaca zero de cada vez.
Limitação 1: Não pode usar um prompt de texto
Esta é a que confunde a maioria dos programadores. O endpoint "v1/images/variations" não aceita um parâmetro "prompt". É uma suposição comum, especialmente se estiver habituado à interface do ChatGPT onde pode carregar uma imagem e digitar instruções. A API mantém estas funções separadas.
Isto significa que não pode dizer-lhe "faz com que isto pareça mais uma pintura em aguarela" ou "muda o fundo para um dia de sol". O modelo gera variações baseando-se apenas na sua própria interpretação da imagem que forneceu.
Limitação 2: Está presa no DALL-E 2
A API de Variações atualmente só usa o modelo DALL-E 2. O DALL-E 2 ainda é impressionante, mas é um modelo mais antigo que o DALL-E 3. Isto significa que a qualidade da imagem, o nível de detalhe e a coerência geral podem não ser tão nítidos como o que obteria ao gerar uma nova imagem com o DALL-E 3. É uma troca clássica: obtém iteração rápida ao custo de uma qualidade de topo.
Limitação 3: Os requisitos de entrada são exigentes
A API é muito rigorosa quanto à imagem que lhe fornece. Tem de ser obrigatoriamente um ficheiro PNG quadrado com menos de 4MB. Isto geralmente significa que tem de pré-processar as suas imagens antes de poder sequer fazer uma chamada à API. Dar-se-á por si a escrever código para lidar com o redimensionamento, recorte, conversão de formatos e talvez até compressão de imagens apenas para as fazer funcionar. Não é um fator decisivo, mas é um atrito extra e mais uma coisa para gerir na sua aplicação.
Compreender os preços da API de Variações de Imagem da OpenAI
O preço da API da OpenAI é pay-as-you-go, e os modelos de imagem têm um preço bastante simples. Para o modelo DALL-E 2 que a API de Variações usa, o custo depende do tamanho da imagem que solicita.
Eis o detalhe da página oficial de preços da OpenAI:
Resolução | Preço por Imagem |
---|---|
1024×1024 | $0.020 |
512×512 | $0.018 |
256×256 | $0.016 |
O custo por imagem é baixo, mas se estiver a gerar centenas ou milhares de variações, pode definitivamente começar a acumular. Também vale a pena salientar que o DALL-E 3 é mais caro, o que torna a API de Variações uma opção mais amiga da carteira para exploração estilística simples, mesmo que seja menos poderosa.
A dor de cabeça de construir ferramentas empresariais com a API de Variações de Imagem da OpenAI
Brincar com a API de Variações de Imagem da OpenAI é divertido, mas também lança luz sobre uma realidade maior: os modelos de IA fundamentais são interessantes, mas não são soluções de negócio prontas a usar.
Como acabámos de ver, rapidamente se depara com pequenos aborrecimentos que se tornam grandes problemas em escala:
-
Limites do modelo: Está preso a um modelo mais antigo e não tem controlo real sobre o resultado final.
-
Entradas exigentes: Tem de construir todo um pipeline de pré-processamento apenas para fazer uma chamada de API válida.
-
Gerir múltiplos endpoints: Precisa de gerar, variar e editar imagens? Prepare-se para gerir três APIs diferentes, cada uma com o seu próprio conjunto de regras.
-
Custos imprevisíveis: O preço baseado no uso é difícil de orçamentar, especialmente quando está a tentar gerir um negócio.
Estas APIs em bruto são fantásticas para experimentar ou para tarefas muito específicas e limitadas. Mas se está a tentar construir um produto polido e fiável sobre elas, está a inscrever-se para muito trabalho de desenvolvimento e manutenção contínua.
Para automação empresarial, vai querer uma plataforma
Digamos que não está apenas a criar imagens, mas a tentar construir uma ferramenta inteligente para o seu negócio, como uma IA para apoio ao cliente. Enfrentaria obstáculos semelhantes. Teria de se integrar com o seu helpdesk, descobrir fluxos de trabalho, treinar a IA na voz da sua empresa e testar tudo incessantemente.
É aqui que uma plataforma dedicada como a eesel AI faz muito mais sentido. Foi construída especificamente para lidar com estes desafios para apoio ao cliente e gestão de conhecimento interno.
-
Comece a funcionar em minutos: Em vez de passar os seus dias a lutar com integrações de API, a eesel AI liga-se ao seu helpdesk (como Zendesk ou Freshdesk) e fontes de conhecimento (como Confluence ou Google Docs) com um clique. Pode ter um agente de IA a funcionar no tempo que leva para ir buscar um café.
-
Controlo e personalização reais: Uma API em bruto dá-lhe muito pouca voz no resultado. Com a eesel AI, obtém um motor de fluxo de trabalho completo. Pode definir a personalidade da IA, decidir exatamente a que tickets responde e criar ações personalizadas, como procurar informações de pedidos no Shopify.
-
Preços previsíveis: Os preços da OpenAI podem deixá-lo a adivinhar qual será a sua fatura. Os planos da eesel AI são baseados num número fixo de interações de IA, para que não tenha uma surpresa desagradável no final de um mês movimentado.
Qual é o veredito sobre a API de Variações de Imagem da OpenAI?
A API de Variações de Imagem da OpenAI é uma ferramenta interessante para uma tarefa muito específica: criar derivações estilísticas de uma imagem que já possui. É uma ótima maneira de explorar ideias criativas rapidamente, desde que se lembre dos seus limites, está a trabalhar com o DALL-E 2 e não lhe pode dar quaisquer instruções de texto.
E embora experimentar APIs em bruto seja uma ótima maneira de aprender, construir ferramentas de negócio sérias para algo como a automação de suporte é um jogo diferente. As dores de cabeça de gerir integrações, fluxos de trabalho e custos imprevisíveis são exatamente o motivo pelo qual plataformas como a eesel AI existem. Elas permitem que se concentre em resolver o seu problema de negócio em vez de se afundar na documentação da API.
Pronto para ver o que uma plataforma de IA desenvolvida para um fim específico pode fazer pela sua equipa? Pode saltar o incómodo de construir do zero. Experimente a eesel AI gratuitamente e implemente um agente de IA real em minutos.
Perguntas Frequentes
A API de Variações de Imagem da OpenAI foi projetada para gerar alternativas estilísticas a partir de uma única imagem de origem. Ela pega numa imagem existente e cria novas versões que mantêm o tema e a composição principais, mas exploram diferentes estilos artísticos.
Não, uma limitação fundamental da API de Variações de Imagem da OpenAI é que ela não aceita um prompt de texto. Ela gera variações baseando-se unicamente na sua interpretação da imagem fornecida, sem qualquer orientação textual do utilizador.
Ao usar a API de Variações de Imagem da OpenAI, a sua imagem de entrada deve ser um ficheiro PNG quadrado. Além disso, o tamanho do ficheiro deve ser inferior a 4MB. As imagens muitas vezes precisam de pré-processamento para cumprir estes requisitos rigorosos antes de fazer uma chamada à API.
A API de Variações de Imagem da OpenAI funciona atualmente com o modelo DALL-E 2. Embora ainda seja poderoso, o DALL-E 2 é um modelo mais antigo que o DALL-E 3, o que significa que a qualidade e o detalhe do resultado podem diferir do que obteria com os modelos de última geração.
O preço da API de Variações de Imagem da OpenAI baseia-se na resolução das imagens de saída que solicita. Os custos são tipicamente por imagem gerada, sendo que resoluções mais altas (como 1024x1024) são ligeiramente mais caras do que as mais baixas (como 256x256).
A API de Variações de Imagem da OpenAI cria novas versões estilísticas de uma imagem inteira sem prompts de texto. Em contraste, a API de Edição de Imagem permite-lhe alterar partes específicas de uma imagem existente, fornecendo uma máscara transparente e um prompt de texto para guiar a edição.