如何使用 GPT Image 2：含 12 个实战示例的实用指南

GPT Image 2

教程

图像生成

OpenAI

GPT Image 2 是 OpenAI 于 2026 年 4 月 21 日发布的最先进图像生成模型。任何新启动的图像工作流,它都是推荐的默认选择:最高质量的生成与编辑能力、近乎完美的多语言文字渲染、身份敏感编辑,以及最高 4K 的灵活尺寸。本指南是一份提示词优先的实战教程——提示词怎么写、要让模型做什么,再加 12 个可直接复用的真实示例。

下文 12 段提示词均遵循 OpenAI 推荐的提示词结构。复制下来,把主体换成你自己的内容,直接交付。

真正管用的提示词配方

GPT Image 2 偏好结构化的提示词。同样的内容,写成清晰的指令序列,效果远好于大段散文。下文每个示例都使用同一份配方——按以下顺序写六个要素:

场景/背景——图像发生的地点（"俯瞰地中海的阳光直晒石质露台"）。
主体——画面中的人或物,包括尺度、姿态、目光和动作（"一位身穿宽松米色亚麻西装的高个女性,目光略微低垂"）。
关键视觉细节——材质、纹理、面料、表面（"哑光黑色牛皮纸,中央有自然亚麻纹理装饰带"）。
构图与镜头——取景、视角、透视、焦距（"中景近距、平视视角、50mm 镜头、浅景深"）。
光线与氛围——方向、质感、时间（"左上方柔和漫射窗光、黄金时刻边缘补光"）。
约束——保留什么、不要添加什么（"无水印、无多余文字、保留身份与版式"）。

另外两条要记住:图内文字必须用引号引用（"RUN FASTER."），需要真实照片质感时直接写 "photorealistic"。"8K、超精细、大师级" 之类通用风格词大多是旧版扩散模型的遗留套路,GPT Image 2 基本忽略它们。把那部分提示词预算花在光线、构图与约束上更划算。

示例 1 — 真实皮肤纹理的写实人像

人像是图像生成中身份最敏感的类别。GPT Image 2 的诀窍是避开暗示"棚拍精修"的词（"完美肌肤"、"无瑕"、"专业修图"），改为明确请求真实照片线索:毛孔、细纹、不对称、自然光。使用高质量档位,正方形或竖版比例可获得最干净的结果。

GPT Image 2 photorealistic portrait — soft window light, visible pore texture, candid framing — 示例 1 — 写实人像,高质量,1024×1024

为什么有效:提示词点明了媒介（50mm、浅景深）、光照方向（左上方、柔和漫射）以及反向线索（"无修饰、无重度修图"）。这些约束把模型从通用 AI 人像感中拉出来。

示例 2 — 含图内文字的多语言海报

文字渲染是 GPT Image 2 的突破性能力。模型在扩散前先把字形作为矢量绘制,再光栅化——所以英、日、韩、阿、中、希等多种语言都能在多数情况下一次成图。务必给字面文案加引号、点名字体类别（"粗体几何无衬线"），并指明位置。

GPT Image 2 mixed Japanese-English event poster with crisp kanji and clean Latin display type — 示例 2 — 多语言音乐节海报,高质量,1024×1536 竖版

技巧:对于难处理的品牌名或不常见拼写,在提示词中按字母逐个拼出（"F-U-T-U-R-E"）。这能显著提升不寻常单词或包含数字时的字符准确度。

示例 3 — 标签清晰可读的产品摄影

在大量电商 SKU 上,GPT Image 2 已能直接替代摄影棚。下面这种模式可靠有效:先点明表面与光照,再描述产品几何,然后用引号标注字面标签文字,最后构图与取景。高质量档位是标签可读性的保障。

GPT Image 2 skincare product flat lay with frosted glass bottle, accurate label text, soft window light — 示例 3 — 护肤产品平铺照,高质量,1536×1024 横版

示例 4 — 品牌完整性的包装效果图

包装效果图需要在带曲面变形与材质纹理的 3D 表面上正确渲染文字。这在过去如果不靠 Photoshop 合成根本做不到。GPT Image 2 让它成为最具杠杆效应的应用场景之一:成分表、风味描述和品牌字体在多数提示词下都能一次成像清晰可读。请按图中应出现的顺序列出每一段文字。

示例 4 — 精品咖啡袋包装效果图,高质量,1024×1536 竖版

提示词

A photorealistic standing coffee bag mockup. The bag is matte black kraft paper with a natural linen texture stripe across the center. Brand name on the front: "ALTIPLANO" in bold wide uppercase serif, letterpressed in gold foil. Below it: "Single Origin · Ethiopian Yirgacheffe" in a smaller clean sans-serif. Bottom strip: "Notes: Blueberry · Jasmine · Brown Sugar". Tin-tie closure at the top, circular degassing valve on the lower right. Dark studio background with a single dramatic spotlight from above. Realistic paper texture, no plastic sheen.

体验 GPT Image 2 （立即体验）

对品牌敏感的包装,锁定高质量档位,用同一段提示词跑两到三次。GPT Image 2 每次生成会有细微差异——挑字体最干净的那一版,其余元素本来就符合 brief。

示例 5 — 标题原字不动的营销广告

请把营销提示词当作创意 brief 写,而不是技术规格。描述品牌、受众、调性、场景与精确标语。字面文案用引号标出,加上 "EXACT, verbatim, no extra characters",防止模型替你改写。指明位置（"右侧面板"、"居中"、"产品下方"），让多次重跑的版式可预测。

GPT Image 2 social ad creative — split layout, product on left, navy panel with headline and lime CTA on right — 示例 5 — 含标题与 CTA 的社交媒体广告,高质量,1024×1024 社交格式正方形

示例 6 — 含箭头与标注的信息图

信息图同时考验三件难事:文字层级、图标系统、数据准确性。GPT Image 2 在前两项上对风格化教学图表表现可靠。每一步或每一节都要在提示词中显式列出——编号、标题、图标、一句话说明。密集排版用横版尺寸 + 高质量档位。

GPT Image 2 educational infographic — five steps explaining how AI image generation works — 示例 6 — 教学信息图,高质量,1536×1024 横版

对数字必须准确的数据信息图（市场规模、科学数值），把字面数字写进提示词。模型不会自己捏造数字——它会原样渲染你给的数值。

示例 7 — 像真实上线 App 的 UI 原型图

UI 原型图是 GPT Image 2 比任何前代模型都更擅长的新场景。关键诀窍:把产品当作已经存在的事物来描述。避开概念稿语言（"梦幻界面"、"未来感 UI"）。聚焦在版式、层级、间距、真实界面元素上,让结果看起来像可用 App,而不是设计草图。按顺序列出每个 UI 区块。

GPT Image 2 mobile banking app UI mockup — dashboard with balance card, transactions, navigation bar — 示例 7 — 移动端银行 App UI 原型图,高质量,1024×1536 竖版

示例 8 — 多变体 Logo 生成

探索品牌标识时,可以让模型一次基于同一段提示词产出一组变体——大多数支持 GPT Image 2 的工具都提供"生成数量"选项,可以一次返回四张（或更多）同一 brief 的不同诠释。便于干系人评审与品牌探索。提示词保持简洁:点明品牌、调性,要求干净造型、平衡负空间和可缩放性。

示例 8 — Logo 多变体,中等质量,1024×1024 正方形,四个变体

提示词

Create an original, non-infringing logo for a company called "Field & Flour", a local bakery. The logo should feel warm, simple, and timeless. Use clean vector-like shapes, a strong silhouette, and balanced negative space. Favor simplicity over detail so it reads clearly at small and large sizes. Flat design, minimal strokes, no gradients unless essential. Plain background. Single centered logo with generous padding. No watermark.

体验 GPT Image 2 （立即体验）

技巧:生成多个变体时,用一个偏"调性"的形容词（"温暖"、"工业"、"俏皮"）给提示词加味,而不是规定形状。模型会朝那个形容词的方向探索,四个输出感觉更像协调的备选,而不是随机变体。

示例 9 — 角色一致的多格故事

GPT Image 2 在单次生成中支持多格叙事:把每一格定义为清晰的视觉节拍,模型会在一张图内的所有面板中保持角色外观、服装与整体风格一致。这适用于漫画条、分镜脚本、系列品牌活动以及童书插图。开头先把主角描述清楚,然后把每一格当作编号节拍逐条列出。

GPT Image 2 four-panel comic — same character (Chef Milo) in four cooking scenes with consistent appearance — 示例 9 — 角色连贯的四格漫画,中等质量,1024×1536 竖版

示例 10 — 自然语言编辑（背景替换）

GPT Image 2 支持无 mask 的图像编辑。给模型一张参考图加一段文字指令,它就能在保留画面其余部分的前提下完成修改。最有效的模式:同时显式说明"要改什么"和"要保留什么"。用 "change only X" + "keep everything else the same" + 重复保留清单的句式,可以显著降低首次生成的偏移。

GPT Image 2 natural-language edit — perfume bottle moved from white studio to rustic wood table via text instruction — 示例 10 — 自然语言编辑,背景替换,高质量,1024×1024

示例 11 — 基于参考图的风格迁移

风格迁移在保留参考图视觉语言（色板、笔触、胶片颗粒、插画风格）的同时更换主体。把参考图丢进去,然后描述什么必须保持一致（风格线索）、什么必须改变（新主体）。加一条"无多余元素"的硬约束,可以阻止模型自己脑补外围细节。

GPT Image 2 style transfer — reference watercolor style applied to a new subject (a motorcyclist on a white background) — 示例 11 — 基于参考图的风格迁移,中等质量,1024×1536

示例 12 — 翻译现有图像中的文字

图内翻译是 GPT Image 2 在生产中最实用的模式之一。把任意成品设计——广告、信息图、UI 截图、包装效果图——交给模型,让它仅翻译文字而不改其他。关键约束句式:"Translate the text to X. Do not change any other aspect of the image." 这能保留排版、位置、间距、层级与周边图像。

GPT Image 2 in-image translation — original English infographic localized to Spanish with layout preserved — 示例 12 — 图内文字翻译,中等质量,1024×1536

这个模式开启了一整套之前必须依赖设计工具的本地化流水线。一份源资产 → 每个目标语言一次提示词 → 直接可投放的本地化素材。极小字号的密集段落需要人工抽查,准确率会略有下降。

按使用场景挑画质与尺寸

GPT Image 2 提供三档画质——低、中、高,并支持从 1024×1024 正方形到 4K 主视觉的灵活尺寸。低档是最快档位,对缩略图、草稿、社交预览,以及任何会经过下游审核的图像已经够用。仅当保真度成为瓶颈时再升级到中或高。下表把推荐参数对应到常见使用场景。

工作流	推荐尺寸	推荐画质	备注
社交媒体草图/缩略图	1024×1024	低	最快,适合批量生成。
产品摄影（电商）	1536×1024	高	标签可读性需要高画质。
人像/时尚大片	1024×1536	高	皮肤纹理与光线需要高画质。
含图内文字的营销广告	1024×1024 或 1080×1350	中或高	标题 + CTA + 正文密集时用高。
包装效果图	1024×1536	高	3D 表面多行文字需要高。
信息图/教学图表	1536×1024	高	密集标注与图例需要高。
UI 原型图	1024×1536	中	版式驱动,中等已足够。
Logo（多变体）	1024×1024	中	同一提示词出多版,中等平衡速度。
多格漫画/分镜脚本	1024×1536	中	重点在跨格一致性,中等够用。
背景替换/物体编辑	1024×1024 或输入尺寸	中	编辑会自动保持输入保真度。
图内文字翻译	与输入一致	中	目标是保留版式。
4K 主视觉	3840×2160	高	实验性,稳定性会有所下降。

GPT Image 2 — 按工作流推荐的画质与尺寸

常见陷阱及规避方法

通用风格增强词（"8K、超精细、大师级、电影感"）基本被忽略,它们是旧版扩散模型的遗留套路。把那部分提示词预算花在光线、构图与约束上更划算。
要求"完美肌肤"或"无瑕"会得到通用 AI 人像感——塑料感、过度平滑、身份感弱。用真实照片线索替换那些词:"可见毛孔"、"细纹"、"不对称"、"自然光"、"无重度修图"。
版式指令模糊（"看起来好看就行"）会导致多次生成结果不一致。需要可预测位置时,把摆放写清楚（"logo 右上角、标题居中、CTA 左下"）。
忘了给字面文字加引号。不加引号,模型会改写;加引号并附上 "EXACT, verbatim, no extra characters",才会逐字渲染。
超过 2K（2560×1440）的输出标记为实验性——文字渲染、细节与提示词遵循度会变得更不稳定。需要 4K 主视觉时建议先在 2K 生成再单独放大。
一次编辑里同时改图像中三个或更多独立部位。多区域编辑往往需要 2–3 次迭代。把编辑拆成连续的单次修改,达到生产质量更快。
当前不支持透明背景,请在不透明背景上生成,如需透明素材再走下游抠图。
知识截止日期为 2025 年 12 月。对于该日期之后出现的主题——新产品设计、2026 年事件、近期改名的品牌——模型可能输出不准确。准确性要紧时请提供参考图。

总结:一份默认提示词模板

如果只能从这份指南里带走一样东西,那就是这份提示词模板。它对上文几乎所有场景都有效:

场景 → 主体（含尺度与目光） → 材质与纹理 → 构图（取景、视角、焦距） → 光线（方向与质感） → 加引号的图内文字 → 约束（保留 / 无水印 / 无多余文字）。

先用中等画质和 1024×1024 正方形起手,跑两次校准提示词,再切到高画质和非正方形比例出最终素材。改稿优先用自然语言指令在已有图像上编辑,而不是从头重生——后者是生产工作流中品牌偏移的最大单一来源。