Como usar o GPT Image 2: guia prático com 12 exemplos reais

GPT Image 2
Tutorial
Geração de Imagens
OpenAI

O GPT Image 2 é o modelo de geração de imagens de última geração da OpenAI, lançado em 21 de abril de 2026. É o padrão recomendado para qualquer novo fluxo de trabalho de imagens: geração e edição da mais alta qualidade, renderização multilíngue de texto quase perfeita, edições sensíveis à identidade e dimensionamento flexível até 4K. Este guia é um tutorial prático focado em prompts — como formular o prompt, o que pedir e doze exemplos reais que você pode copiar diretamente.

Os doze prompts abaixo seguem todos a estrutura de prompt recomendada pela OpenAI. Copie-os, troque o assunto pelo seu e publique.

A receita de prompt que realmente funciona

O GPT Image 2 recompensa estrutura. O modelo segue prompts significativamente melhor quando escritos como uma sequência clara de diretivas em vez de frases livres. Cada exemplo abaixo usa a mesma receita — seis elementos nesta ordem:

  1. Cena / fundo — onde a imagem acontece ("um terraço de pedra clareado pelo sol com vista para o Mediterrâneo").
  2. Sujeito — quem ou o que está no quadro, incluindo escala, pose, olhar e ação ("uma mulher alta com um terno oversized de linho cor de creme, olhar ligeiramente para baixo").
  3. Detalhes visuais principais — materiais, texturas, tecido, superfície ("papel kraft preto fosco com uma faixa de textura de linho natural").
  4. Composição e câmera — enquadramento, ponto de vista, perspectiva, distância focal ("close-up médio na altura dos olhos, lente 50mm, profundidade de campo rasa").
  5. Iluminação e atmosfera — direção, qualidade, hora do dia ("luz de janela suave e difusa vinda do canto superior esquerdo, luz de contorno na hora dourada").
  6. Restrições — o que preservar, o que NÃO adicionar ("sem marca d'água, sem texto extra, preservar identidade e layout").

Duas regras adicionais para lembrar: coloque o texto literal dentro da imagem entre aspas ("RUN FASTER.") e inclua a palavra "photorealistic" explicitamente quando quiser uma aparência de foto real. Tokens de estilo genéricos como "8K, ultra-detailed, masterpiece" são em sua maioria padrões herdados de modelos de difusão anteriores — o GPT Image 2 os ignora em grande parte. Gaste esse orçamento de prompt em iluminação, composição e restrições.

Exemplo 1 — Retrato fotorrealista com textura de pele real

Os retratos são a categoria mais sensível à identidade na geração de imagens. O truque com o GPT Image 2 é evitar palavras que sugiram polimento de estúdio ("pele perfeita", "sem falhas", "retoque profissional") e, em vez disso, pedir explicitamente por pistas de foto real: poros, linhas finas, assimetria, luz disponível. Use a configuração de alta qualidade e uma proporção quadrada ou retrato para os resultados mais limpos.

GPT Image 2 photorealistic portrait — soft window light, visible pore texture, candid framing
Exemplo 1 — retrato fotorrealista, alta qualidade, 1024×1024

Prompt

A photorealistic candid portrait of a man in his late 50s, weathered skin with visible pores and sun lines, short salt-and-pepper beard, calm direct gaze. Soft diffused window light from the upper left, warm neutral wall behind him slightly out of focus. Medium close-up at eye level, 50mm lens, shallow depth of field, subtle film grain, natural color balance. Honest and unposed, real skin texture, no glamorization, no heavy retouching. No watermark.

Por que isso funciona: o prompt nomeia o meio (50mm, profundidade de campo rasa), a direção da iluminação (canto superior esquerdo, suave e difusa) e as anti-pistas específicas ("sem glamour, sem retoque pesado"). Essas restrições afastam o modelo da aparência genérica de retrato de IA.

Exemplo 2 — Pôster multilíngue com texto na imagem

A renderização de texto é a capacidade de destaque do GPT Image 2. O modelo usa um caminho tipográfico que dispõe os glifos como vetores antes de rasterizá-los — o que significa que inglês, japonês, coreano, árabe, chinês e hebraico são renderizados corretamente na primeira tentativa na maioria dos casos. Coloque o texto literal entre aspas, nomeie a família tipográfica ("sans-serif geométrico em negrito") e indique a colocação.

GPT Image 2 mixed Japanese-English event poster with crisp kanji and clean Latin display type
Exemplo 2 — pôster multilíngue de festival de música, alta qualidade, 1024×1536 retrato

Prompt

A bold music festival poster, vertical orientation. Headline in large brushstroke kanji centered at the top third: "音楽の未来". Directly below in a clean geometric sans-serif: "FUTURE SOUNDS FESTIVAL". Bottom strip in smaller white type: "Shibuya O-EAST · Tokyo · June 14 2026". Dark background, electric teal and magenta neon glow. All text must be fully legible and correctly formed. No decorative elements that obscure the type. No watermark.

Dica: para nomes de marca complicados ou grafias incomuns, soletre-os letra por letra dentro do prompt ("F-U-T-U-R-E"). Isso aumenta a precisão dos caracteres quando a palavra é incomum ou contém números.

Exemplo 3 — Fotografia de produto com etiqueta legível

A fotografia de produto é onde o GPT Image 2 substitui diretamente sessões de estúdio para uma ampla gama de SKUs de e-commerce. O padrão abaixo funciona de forma confiável: nomeie a superfície e a iluminação primeiro, depois a geometria do produto, em seguida o texto literal da etiqueta entre aspas e, por último, composição e enquadramento. Mantenha a configuração de alta qualidade para a legibilidade da etiqueta.

GPT Image 2 skincare product flat lay with frosted glass bottle, accurate label text, soft window light
Exemplo 3 — flat lay de produto de skincare, alta qualidade, 1536×1024 paisagem

Prompt

A high-end skincare flat lay on smooth white marble. Center: a frosted glass serum bottle with a gold dropper cap. The label reads "LUMIÈRE SÉRUM — 30ml" in clean black serif type. Surrounding it: three dried white peonies, scattered rose petals, a small jade facial roller, and a cream-colored linen cloth crumpled in the bottom-left corner. Soft north-window light from above-left, clean drop shadows under each object. Shot from directly above. Magazine-editorial feel, not studio-staged. No watermark, no extra text.

Exemplo 4 — Mockup de embalagem com integridade de marca

Os mockups de embalagem precisam de texto renderizado corretamente em uma superfície 3D com distorção curva e textura de material. Isso costumava ser impossível sem composição no Photoshop. Com o GPT Image 2 é um dos casos de uso de maior alavancagem: painéis de ingredientes, notas de degustação e tipografia de marca renderizam de forma legível na primeira tentativa para a maioria dos prompts. Liste cada elemento de texto que você quer que apareça, na ordem em que deve aparecer.

GPT Image 2 specialty coffee bag mockup — legible brand mark, tasting notes, and origin text
Exemplo 4 — mockup de saco de café especial, alta qualidade, 1024×1536 retrato

Prompt

A photorealistic standing coffee bag mockup. The bag is matte black kraft paper with a natural linen texture stripe across the center. Brand name on the front: "ALTIPLANO" in bold wide uppercase serif, letterpressed in gold foil. Below it: "Single Origin · Ethiopian Yirgacheffe" in a smaller clean sans-serif. Bottom strip: "Notes: Blueberry · Jasmine · Brown Sugar". Tin-tie closure at the top, circular degassing valve on the lower right. Dark studio background with a single dramatic spotlight from above. Realistic paper texture, no plastic sheen.

Para embalagens sensíveis à marca, fixe a configuração de alta qualidade e execute duas ou três regenerações do mesmo prompt. O GPT Image 2 produzirá pequenas variações entre execuções — escolha aquela cuja tipografia esteja mais limpa; o restante dos elementos já estará alinhado com o briefing.

Exemplo 5 — Material criativo de marketing com título literal

Trate prompts de marketing como briefings criativos, não como especificações técnicas. Descreva a marca, o público, o clima, a cena e a tagline exata. Coloque o texto literal entre aspas e adicione "EXACT, verbatim, no extra characters" para que o modelo não parafrasee. Especifique o posicionamento ("painel direito", "centralizado", "abaixo do produto") para que o layout permaneça previsível em re-execuções.

GPT Image 2 social ad creative — split layout, product on left, navy panel with headline and lime CTA on right
Exemplo 5 — anúncio em redes sociais com título e CTA, alta qualidade, 1024×1024 quadrado em formato social

Prompt

A clean social media ad for a premium running shoe brand. Split layout: left half shows a dramatic close-up of a white and electric blue running shoe on wet asphalt reflecting city lights. Right half is a solid dark navy panel. On the navy panel, stacked vertically: bold white headline "RUN FASTER." (EXACT, verbatim, no extra characters), a small white separator line, then secondary copy in light grey "Engineered for your fastest 5K." then below that a solid lime green CTA button with the text "SHOP NOW" in black. Modern, premium athletic aesthetic. No watermark, no extra text outside the elements above.

Exemplo 6 — Infográfico com setas e rótulos

Os infográficos combinam três coisas difíceis ao mesmo tempo: hierarquia tipográfica, iconografia e precisão dos dados. O GPT Image 2 lida com as duas primeiras de forma confiável para diagramas educacionais estilizados. Para cada etapa ou seção, liste-a explicitamente no prompt — número, título, ícone e descrição em uma linha. Use um tamanho paisagem e a configuração de alta qualidade para layouts densos.

GPT Image 2 educational infographic — five steps explaining how AI image generation works
Exemplo 6 — infográfico educacional, alta qualidade, 1536×1024 paisagem

Prompt

A clean modern educational infographic titled "How AI Image Generation Works" showing 5 steps in a left-to-right horizontal flow. Step 1: "Text Prompt" — icon of a person typing. Step 2: "Tokenization" — text split into tokens. Step 3: "Noise Injection" — abstract Gaussian noise cloud. Step 4: "Denoising Diffusion" — blurry image sharpening. Step 5: "Final Image" — completed photograph. Each step has: a bold number in a lime green circle, a flat icon above, the step title in bold dark text, and a one-line description in grey below. Steps connected by clean horizontal arrows. White background. Clear typographic hierarchy. No decorative clutter, no extra text.

Para infográficos densos em dados, em que os números devem ser precisos (dimensionamento de mercado, valores científicos), inclua os números literais no prompt. O modelo não inventará dados — ele renderizará os valores que você fornecer tal como estão.

Exemplo 7 — Mockup de UI como app real em produção

A geração de mockups de UI é um novo caso de uso que o GPT Image 2 lida melhor do que qualquer modelo anterior. O truque: descreva o produto como se ele já existisse. Evite linguagem de arte conceitual ("interface dos sonhos", "UI futurística"). Concentre-se em layout, hierarquia, espaçamento e elementos reais de interface para que o resultado pareça um app utilizável, não um esboço de design. Liste cada seção da UI em ordem.

GPT Image 2 mobile banking app UI mockup — dashboard with balance card, transactions, navigation bar
Exemplo 7 — mockup de UI de app bancário móvel, alta qualidade, 1024×1536 retrato

Prompt

A photorealistic mobile app UI mockup for a premium digital bank, placed in an iPhone frame. Dark charcoal background. Top: user greeting "Good morning, Maya" in white. Below: a frosted glass card showing "Total Balance: $12,480.50" in large white serif, with a small visa logo bottom-right. Below the card: a section "Recent Transactions" with three rows — each row has a category icon left, merchant name and date center, and amount right (e.g. "Whole Foods Market · Apr 23 · -$84.20"). Bottom navigation bar with five icons: Home, Cards, Transfer, Invest, Profile. All labels must be legible. Clean, minimal, premium fintech aesthetic. No watermark.

Exemplo 8 — Geração de logotipo com múltiplas variantes

Quando precisar explorar uma marca, peça ao modelo um lote de variantes a partir do mesmo prompt — a maioria das interfaces do GPT Image 2 permite definir uma opção "número de variantes" que retorna quatro (ou mais) versões do mesmo briefing de uma só vez. Útil para revisão com partes interessadas e trabalho exploratório de branding. Mantenha o prompt simples: nomeie a marca, a personalidade, e peça formas limpas, espaço negativo equilibrado e escalabilidade.

GPT Image 2 logo generation — four variants of a bakery mark, flat vector style on plain background
Exemplo 8 — variantes de logotipo, qualidade média, 1024×1024 quadrado, quatro variantes

Prompt

Create an original, non-infringing logo for a company called "Field & Flour", a local bakery. The logo should feel warm, simple, and timeless. Use clean vector-like shapes, a strong silhouette, and balanced negative space. Favor simplicity over detail so it reads clearly at small and large sizes. Flat design, minimal strokes, no gradients unless essential. Plain background. Single centered logo with generous padding. No watermark.

Dica: ao gerar múltiplas variantes, dê ao prompt um adjetivo ligado à atitude ("acolhedor", "industrial", "divertido") em vez de ditar a forma. O modelo explorará na direção desse adjetivo e os quatro resultados parecerão alternativas coordenadas em vez de variações aleatórias.

Exemplo 9 — História multi-painel com consistência de personagem

O GPT Image 2 suporta narrativa multi-painel em uma única geração: defina cada painel como uma cena visual clara e o modelo manterá a aparência do personagem, a roupa e o estilo visual em todos os painéis em uma única imagem. Isso funciona para histórias em quadrinhos, storyboards, campanhas de marca sequenciais e ilustração de livros infantis. Descreva o protagonista uma vez no início e, em seguida, liste cada painel como uma batida numerada.

GPT Image 2 four-panel comic — same character (Chef Milo) in four cooking scenes with consistent appearance
Exemplo 9 — quadrinho de quatro painéis com continuidade de personagem, qualidade média, 1024×1536 retrato

Prompt

A vertical comic-style image with 4 equal-sized panels. Same character throughout: Chef Milo, a cheerful stocky man in his 40s with a thick red-orange beard, round wire-rimmed glasses, white double-breasted chef coat with a small anchovy embroidered on the chest pocket. Panel 1: Milo plating a dish with tweezers in a busy open kitchen, intense concentration. Panel 2: Milo at a morning market selecting vegetables, smiling at a vendor. Panel 3: Milo eating a street taco by a food cart, genuine delight. Panel 4: Milo teaching a cooking class, holding a carbon steel wok, students visible in the background. Keep Milo's face, beard, glasses, and coat identical across all four panels. Cinematic photography style.

Exemplo 10 — Edição em linguagem natural (troca de fundo)

O GPT Image 2 suporta edição de imagens sem máscaras. Entregue ao modelo uma imagem de referência e uma instrução em texto, e ele aplicará a alteração mantendo o resto do quadro intacto. O padrão que funciona melhor: declare explicitamente o que mudar E o que preservar. Use frases como "change only X" + "keep everything else the same" + repita a lista do que preservar. Isso reduz drasticamente a deriva na primeira tentativa.

GPT Image 2 natural-language edit — perfume bottle moved from white studio to rustic wood table via text instruction
Exemplo 10 — edição em linguagem natural, troca de fundo, alta qualidade, 1024×1024

Prompt

Change only the background. Keep the perfume bottle, its label, its reflections, and its shadow exactly as they appear in the input image. New background: a warm rustic wooden table surface with soft dappled sunlight from the upper left, like a sunlit Parisian apartment. Match the lighting direction so the bottle shadow falls naturally on the new surface. Do not change the bottle, do not change saturation or contrast of the bottle, do not add any text or watermark.

Exemplo 11 — Transferência de estilo a partir de imagem de referência

A transferência de estilo mantém a linguagem visual de uma imagem de referência (paleta, pinceladas, granulação de filme, estilo de ilustração) ao mudar o sujeito. Coloque a referência, depois descreva o que deve permanecer consistente (pistas de estilo) e o que deve mudar (novo conteúdo). Adicionar uma restrição rígida como "sem elementos extras" impede que o modelo invente detalhes periféricos.

GPT Image 2 style transfer — reference watercolor style applied to a new subject (a motorcyclist on a white background)
Exemplo 11 — transferência de estilo com imagem de referência, qualidade média, 1024×1536

Prompt

Use the same illustration style as the input image — the same palette, brushwork, line weight, and texture. Generate a new subject: a man riding a motorcycle on a plain white background. Keep the visual style identical to the reference. Centered subject, generous padding, no extra elements, no text, no watermark.

Exemplo 12 — Traduzindo texto dentro de uma imagem existente

A tradução dentro da imagem é um dos padrões de produção mais úteis do GPT Image 2. Entregue ao modelo um design pronto — um anúncio, um infográfico, uma captura de tela de UI, um mockup de embalagem — e peça que ele traduza o texto sem alterar mais nada. A frase de restrição chave: "Translate the text to X. Do not change any other aspect of the image." Isso preserva a tipografia, a colocação, o espaçamento, a hierarquia e as imagens ao redor.

GPT Image 2 in-image translation — original English infographic localized to Spanish with layout preserved
Exemplo 12 — tradução dentro da imagem, qualidade média, 1024×1536

Prompt

Translate the text in the input image to Spanish. Do not change any other aspect of the image: keep the typography style, font size, placement, spacing, hierarchy, icons, illustrations, color palette, and all non-text elements exactly as they appear. Translate verbatim and accurately, no added words. No reflow unless absolutely necessary. No watermark.

Esse padrão desbloqueia todo um fluxo de localização que antes exigia ferramentas de design. Um asset de origem → um prompt por idioma de destino → criativo localizado pronto para envio. Verifique parágrafos densos em corpos de texto pequenos — a precisão pode cair levemente em corpos de texto muito pequenos.

Escolhendo qualidade e tamanho por caso de uso

O GPT Image 2 expõe três níveis de qualidade — baixa, média e alta — e suporta tamanhos flexíveis de um quadrado 1024×1024 até um hero 4K. A baixa é a mais rápida e é genuinamente boa para miniaturas, rascunhos, prévias para redes sociais e qualquer imagem que passará por uma etapa de revisão posterior. Recorra à média ou alta apenas quando a fidelidade for o gargalo. A tabela abaixo mapeia as configurações recomendadas para casos de uso comuns.

Fluxo de trabalhoTamanho recomendadoQualidade recomendadaNotas
Rascunho de redes sociais / miniatura1024×1024baixaMais rápido. Bom para geração em lote.
Fotografia de produto (e-commerce)1536×1024altaA legibilidade da etiqueta exige alta.
Retrato / editorial de moda1024×1536altaTextura da pele e iluminação precisam de alta.
Anúncio de marketing com texto na imagem1024×1024 ou 1080×1350média ou altaAlta se o título + CTA + corpo forem densos.
Mockup de embalagem1024×1536altaTexto multilinha em superfície 3D precisa de alta.
Infográfico / diagrama educacional1536×1024altaRótulos densos e legendas precisam de alta.
Mockup de UI1024×1536médiaOrientado a layout; a média é suficiente.
Logotipo (múltiplas variantes)1024×1024médiaVariantes a partir do mesmo prompt; a média equilibra a velocidade.
Quadrinho multi-painel / storyboard1024×1536médiaConsistência entre painéis; a média é suficiente.
Troca de fundo / edição de objeto1024×1024 ou tamanho do inputmédiaAs edições preservam a fidelidade da entrada automaticamente.
Tradução dentro da imagemIgual ao inputmédiaO objetivo principal é preservar o layout.
Asset hero 4K3840×2160altaExperimental; espere mais variabilidade.
GPT Image 2 — recomendações de qualidade e tamanho por fluxo de trabalho

Armadilhas comuns e como evitá-las

  • Reforços de estilo genéricos ("8K, ultra-detailed, masterpiece, cinematic") são em grande parte ignorados. Eles são padrões herdados de modelos de difusão anteriores. Gaste esse orçamento de prompt em iluminação, composição e restrições.
  • Pedir "pele perfeita" ou "sem falhas" produz a aparência genérica de retrato de IA — plástica, super lisa, com pouca identidade. Substitua essas palavras por pistas explícitas de foto real: "poros visíveis", "linhas finas", "assimetria", "luz disponível", "sem retoque pesado".
  • Instruções de layout vagas ("deixe bonito") levam a resultados inconsistentes em re-execuções. Detalhe o posicionamento ("logotipo no canto superior direito, título centralizado, CTA no canto inferior esquerdo") sempre que precisar de uma colocação previsível.
  • Esquecer de colocar o texto literal entre aspas. Sem aspas, o modelo parafraseia. Com aspas mais "EXACT, verbatim, no extra characters", ele renderiza as palavras como escritas.
  • Acima de 2K (2560×1440), os resultados são marcados como experimentais — a renderização de texto, os detalhes finos e a aderência ao prompt tornam-se mais variáveis. Se precisar de um hero 4K, gere primeiro em 2K e escale separadamente.
  • Tentar alterar três ou mais partes independentes de uma imagem em uma única edição. Edições multi-região geralmente exigem 2-3 iterações. Divida a edição em passos sequenciais de uma única alteração — você atingirá a qualidade de produção mais rápido.
  • Fundos transparentes não são suportados atualmente. Gere com fundo opaco e execute uma etapa de remoção de fundo posterior se precisar de um asset transparente.
  • O corte de conhecimento é dezembro de 2025. Para sujeitos que surgiram após essa data — novos designs de produtos, eventos de 2026, empresas recentemente renomeadas — o modelo pode produzir saídas imprecisas. Forneça uma imagem de referência quando a precisão for importante.

Conclusão: um modelo padrão de prompt

Se houver uma única coisa para tirar deste guia, leve o modelo de prompt. Ele funciona para quase todos os casos de uso nos exemplos acima:

Cena → Sujeito (com escala e olhar) → Materiais e textura → Composição (enquadramento, ponto de vista, distância focal) → Iluminação (direção e qualidade) → Texto literal na imagem entre aspas → Restrições (preservar / sem marca d'água / sem texto extra).

Comece com a configuração de qualidade média e um quadrado 1024×1024, execute duas gerações para calibrar o prompt e, em seguida, mude para alta qualidade e uma proporção não quadrada para o asset final. Para refinamentos, edite a imagem existente com uma instrução em linguagem natural em vez de regenerar do zero — esta última é a maior fonte isolada de drift de marca em trabalho de produção.