GPT Image 2の使い方:12の実践例で学ぶ実用ガイド
GPT Image 2はOpenAIが2026年4月21日にリリースした最先端の画像生成モデルです。新しい画像ワークフローを始めるなら、これがデフォルトの推奨選択肢になります——最高品質の生成と編集、ほぼ完璧な多言語テキストレンダリング、アイデンティティに敏感な編集、最大4Kまでの柔軟なサイズ指定。本ガイドはプロンプトを軸とした実践的なチュートリアルです——どうフレーズすればよいか、何を指示すべきか、そしてそのままコピーして使える12の実例を紹介します。
以下の12のプロンプトはすべてOpenAI推奨のプロンプト構造に従っています。コピーして、被写体を自分の対象に置き換えれば、すぐに本番投入できます。
本当に機能するプロンプトのレシピ
GPT Image 2は構造化されたプロンプトで真価を発揮します。同じ情報でも、自由な文章として書くより、明確な指令の連なりとして書いたほうが、モデルの追従性ははるかに高くなります。以下の例はすべて同じレシピを使っています——次の順序で6つの要素を並べます:
- シーン/背景——画像が起こる場所("地中海を見下ろす陽に焼けた石造りのテラス")。
- 被写体——フレーム内の人や物。スケール、ポーズ、視線、動作を含む("オーバーサイズのクリーム色リネンスーツを着た背の高い女性、視線はやや下向き")。
- 重要な視覚的ディテール——素材、テクスチャ、布地、表面("ナチュラルなリネンテクスチャのストライプが入ったマット黒のクラフト紙")。
- 構図とカメラ——フレーミング、視点、パースペクティブ、焦点距離("ミディアムクローズアップ、目線の高さ、50mmレンズ、浅い被写界深度")。
- 光と雰囲気——方向、質感、時間帯("左上から差し込む柔らかな拡散窓光、ゴールデンアワーのリムライト")。
- 制約——保持すべきもの、追加してはいけないもの("透かしなし、余分なテキストなし、アイデンティティとレイアウトを保持")。
もう2つ覚えておくべきルール:画像内の文字どおりのテキストは引用符で囲むこと("RUN FASTER.")、そして実写風の見た目が欲しい時は"photorealistic"という単語を明示的に含めること。"8K, ultra-detailed, masterpiece"のような汎用的なスタイルトークンは、ほとんどが古い拡散モデルから残ったパターンであり——GPT Image 2はそれらをほぼ無視します。そのプロンプト予算は、照明、構図、制約に振り向けてください。
例 1 — 本物の肌のテクスチャを持つフォトリアリスティックなポートレート
ポートレートは画像生成において最もアイデンティティに敏感なカテゴリです。GPT Image 2のコツは、スタジオの仕上がりを連想させる言葉("完璧な肌"、"無欠点"、"プロのレタッチ")を避け、代わりに実写の手がかりを明示的に求めることです:毛穴、細かなしわ、非対称性、自然光。最もきれいな結果を得るには、高品質設定と正方形またはポートレート比率を使用します。

プロンプト
A photorealistic candid portrait of a man in his late 50s, weathered skin with visible pores and sun lines, short salt-and-pepper beard, calm direct gaze. Soft diffused window light from the upper left, warm neutral wall behind him slightly out of focus. Medium close-up at eye level, 50mm lens, shallow depth of field, subtle film grain, natural color balance. Honest and unposed, real skin texture, no glamorization, no heavy retouching. No watermark.
なぜこれが機能するか:プロンプトはメディア(50mm、浅い被写界深度)、光の方向(左上、柔らかな拡散光)、そして特定の反対の手がかり("美化なし、重いレタッチなし")を名指ししています。これらの制約がモデルを汎用的なAIポートレートの見た目から引き離します。
例 2 — 画像内テキスト付き多言語ポスター
テキストレンダリングはGPT Image 2の代表的な能力です。モデルはラスタライズ前にグリフをベクターとして配置するタイポグラフィパスウェイを使用します——つまり英語、日本語、韓国語、アラビア語、中国語、ヘブライ語のすべてが、ほとんどの場合、初回で正しくレンダリングされます。文字どおりのコピーは引用符で囲み、書体ファミリー("太字の幾何学的サンセリフ")を指定し、配置を明示してください。

プロンプト
A bold music festival poster, vertical orientation. Headline in large brushstroke kanji centered at the top third: "音楽の未来". Directly below in a clean geometric sans-serif: "FUTURE SOUNDS FESTIVAL". Bottom strip in smaller white type: "Shibuya O-EAST · Tokyo · June 14 2026". Dark background, electric teal and magenta neon glow. All text must be fully legible and correctly formed. No decorative elements that obscure the type. No watermark.
ヒント:扱いにくいブランド名や珍しいスペルの場合、プロンプト内で1文字ずつ綴ります("F-U-T-U-R-E")。これにより、単語が一般的でない場合や数字を含む場合の文字精度が向上します。
例 3 — 読み取れるラベル付きの製品写真
製品写真は、GPT Image 2が幅広いEC SKUに対してスタジオ撮影を直接置き換える分野です。以下のパターンは確実に機能します:まず表面と照明を指定し、次に製品のジオメトリ、その後に文字どおりのラベル文言を引用符で囲み、最後に構図とフレーミングを指定。ラベルの可読性のために高品質設定を維持します。

プロンプト
A high-end skincare flat lay on smooth white marble. Center: a frosted glass serum bottle with a gold dropper cap. The label reads "LUMIÈRE SÉRUM — 30ml" in clean black serif type. Surrounding it: three dried white peonies, scattered rose petals, a small jade facial roller, and a cream-colored linen cloth crumpled in the bottom-left corner. Soft north-window light from above-left, clean drop shadows under each object. Shot from directly above. Magazine-editorial feel, not studio-staged. No watermark, no extra text.
例 4 — ブランドの整合性を保つパッケージモックアップ
パッケージモックアップでは、曲面の歪みと素材のテクスチャを伴う3次元表面でテキストを正しくレンダリングする必要があります。これは以前はPhotoshopでの合成なしには不可能でした。GPT Image 2では、これは最も高いレバレッジを持つユースケースの1つです:成分パネル、テイスティングノート、ブランドタイポグラフィのすべてが、ほとんどのプロンプトで初回パスから読み取れる状態でレンダリングされます。表示させたい各テキスト要素を、表示すべき順序ですべてリストアップしてください。

プロンプト
A photorealistic standing coffee bag mockup. The bag is matte black kraft paper with a natural linen texture stripe across the center. Brand name on the front: "ALTIPLANO" in bold wide uppercase serif, letterpressed in gold foil. Below it: "Single Origin · Ethiopian Yirgacheffe" in a smaller clean sans-serif. Bottom strip: "Notes: Blueberry · Jasmine · Brown Sugar". Tin-tie closure at the top, circular degassing valve on the lower right. Dark studio background with a single dramatic spotlight from above. Realistic paper texture, no plastic sheen.
ブランドに敏感なパッケージの場合、高品質設定を固定し、同じプロンプトで2〜3回再生成を行ってください。GPT Image 2は実行ごとにわずかなバリエーションを生成します——タイポグラフィが最もクリーンなものを選べば、他の要素はすでにブリーフに沿っています。
例 5 — 一字一句正確な見出しを持つマーケティング広告クリエイティブ
マーケティングのプロンプトは技術仕様ではなく、クリエイティブブリーフとして扱ってください。ブランド、オーディエンス、雰囲気、シーン、そして正確なタグラインを記述します。文字どおりのコピーを引用符で囲み、"EXACT, verbatim, no extra characters"を追加して、モデルが言い換えないようにします。配置("右パネル"、"中央"、"製品の下")を指定して、再実行間でレイアウトが予測可能になるようにします。

プロンプト
A clean social media ad for a premium running shoe brand. Split layout: left half shows a dramatic close-up of a white and electric blue running shoe on wet asphalt reflecting city lights. Right half is a solid dark navy panel. On the navy panel, stacked vertically: bold white headline "RUN FASTER." (EXACT, verbatim, no extra characters), a small white separator line, then secondary copy in light grey "Engineered for your fastest 5K." then below that a solid lime green CTA button with the text "SHOP NOW" in black. Modern, premium athletic aesthetic. No watermark, no extra text outside the elements above.
例 6 — 矢印とラベル付きのインフォグラフィック
インフォグラフィックは3つの難しい要素を同時に組み合わせます:タイポグラフィの階層、アイコノグラフィ、データの正確性。GPT Image 2はスタイル化された教育用ダイアグラムについて、最初の2つを確実に処理します。各ステップまたはセクションについて、プロンプト内で明示的にリストアップしてください——番号、タイトル、アイコン、1行の説明。密集したレイアウトには横長サイズと高品質設定を使用します。

プロンプト
A clean modern educational infographic titled "How AI Image Generation Works" showing 5 steps in a left-to-right horizontal flow. Step 1: "Text Prompt" — icon of a person typing. Step 2: "Tokenization" — text split into tokens. Step 3: "Noise Injection" — abstract Gaussian noise cloud. Step 4: "Denoising Diffusion" — blurry image sharpening. Step 5: "Final Image" — completed photograph. Each step has: a bold number in a lime green circle, a flat icon above, the step title in bold dark text, and a one-line description in grey below. Steps connected by clean horizontal arrows. White background. Clear typographic hierarchy. No decorative clutter, no extra text.
数字が正確でなければならないデータ重視のインフォグラフィック(市場規模、科学的数値)では、文字どおりの数字をプロンプトに含めてください。モデルは数字を発明しません——あなたが提供した値をそのままレンダリングします。
例 7 — 実際にリリースされたアプリのようなUIモックアップ
UIモックアップ生成は、GPT Image 2が以前のどのモデルよりもうまく扱う新しいユースケースです。コツは、製品をすでに存在しているかのように記述することです。コンセプトアート的な言葉("夢のようなインターフェース"、"未来的なUI")は避けてください。レイアウト、階層、間隔、実際のインターフェース要素に焦点を当て、結果がデザインスケッチではなく使用可能なアプリとして読み取れるようにします。すべてのUIセクションを順番にリストアップしてください。

プロンプト
A photorealistic mobile app UI mockup for a premium digital bank, placed in an iPhone frame. Dark charcoal background. Top: user greeting "Good morning, Maya" in white. Below: a frosted glass card showing "Total Balance: $12,480.50" in large white serif, with a small visa logo bottom-right. Below the card: a section "Recent Transactions" with three rows — each row has a category icon left, merchant name and date center, and amount right (e.g. "Whole Foods Market · Apr 23 · -$84.20"). Bottom navigation bar with five icons: Home, Cards, Transfer, Invest, Profile. All labels must be legible. Clean, minimal, premium fintech aesthetic. No watermark.
例 8 — 複数バリアントのロゴ生成
ブランドマークを探求する場合は、同じプロンプトから一度にバリアントのバッチをモデルに依頼します——GPT Image 2の多くのインターフェースでは、"バリアント数"オプションを設定でき、同じブリーフに対する4つ(またはそれ以上)のテイクを一度に返すことができます。ステークホルダーレビューや探索的なブランディング作業に役立ちます。プロンプトはシンプルに保ちます:ブランド名、性格を指定し、クリーンな形状、バランスの取れたネガティブスペース、スケーラビリティを求めてください。

プロンプト
Create an original, non-infringing logo for a company called "Field & Flour", a local bakery. The logo should feel warm, simple, and timeless. Use clean vector-like shapes, a strong silhouette, and balanced negative space. Favor simplicity over detail so it reads clearly at small and large sizes. Flat design, minimal strokes, no gradients unless essential. Plain background. Single centered logo with generous padding. No watermark.
ヒント:複数のバリアントを生成する際は、形状を指示する代わりに、味わいを表現する形容詞1つ("温かい"、"工業的"、"遊び心がある")でプロンプトに方向性を与えてください。モデルはその形容詞の方向に探索し、4つの出力はランダムなバリエーションではなく、調和の取れた代替案のように感じられます。
例 9 — キャラクターの一貫性を持つ多面パネルストーリー
GPT Image 2は1回の生成で複数パネルのストーリーテリングをサポートします:各パネルを明確な視覚的ビートとして定義すれば、モデルは1つの画像内のすべてのパネルでキャラクターの外観、衣装、ビジュアルスタイルを維持します。これは漫画のストリップ、ストーリーボード、シリーズ的なブランドキャンペーン、児童書のイラストに使えます。最初に主人公を1度だけ記述し、その後各パネルを番号付きビートとしてリストアップしてください。

プロンプト
A vertical comic-style image with 4 equal-sized panels. Same character throughout: Chef Milo, a cheerful stocky man in his 40s with a thick red-orange beard, round wire-rimmed glasses, white double-breasted chef coat with a small anchovy embroidered on the chest pocket. Panel 1: Milo plating a dish with tweezers in a busy open kitchen, intense concentration. Panel 2: Milo at a morning market selecting vegetables, smiling at a vendor. Panel 3: Milo eating a street taco by a food cart, genuine delight. Panel 4: Milo teaching a cooking class, holding a carbon steel wok, students visible in the background. Keep Milo's face, beard, glasses, and coat identical across all four panels. Cinematic photography style.
例 10 — 自然言語編集(背景の差し替え)
GPT Image 2はマスクなしの画像編集をサポートします。モデルに参照画像とテキスト指示を渡すと、フレームの残りをそのまま保ちながら変更を適用します。最も機能するパターン:何を変更し、何を保持するかを明示的に述べることです。"change only X" + "keep everything else the same" + 保持リストの繰り返し、というフレーズを使ってください。これにより初回試行時のドリフトが劇的に減少します。

プロンプト
Change only the background. Keep the perfume bottle, its label, its reflections, and its shadow exactly as they appear in the input image. New background: a warm rustic wooden table surface with soft dappled sunlight from the upper left, like a sunlit Parisian apartment. Match the lighting direction so the bottle shadow falls naturally on the new surface. Do not change the bottle, do not change saturation or contrast of the bottle, do not add any text or watermark.
例 11 — 参照画像からのスタイル転送
スタイル転送は、被写体を変えながら参照画像のビジュアル言語(パレット、筆致、フィルムグレイン、イラストスタイル)を保持します。参照画像をドロップし、何が一貫しなければならないか(スタイルの手がかり)と何を変更するか(新しいコンテンツ)を記述します。"no extra elements"のような厳しい制約を追加することで、モデルが周辺の詳細を発明するのを防ぎます。

プロンプト
Use the same illustration style as the input image — the same palette, brushwork, line weight, and texture. Generate a new subject: a man riding a motorcycle on a plain white background. Keep the visual style identical to the reference. Centered subject, generous padding, no extra elements, no text, no watermark.
例 12 — 既存画像内のテキストの翻訳
画像内翻訳は、GPT Image 2の最も実用的な本番パターンの1つです。完成したデザイン——広告、インフォグラフィック、UIスクリーンショット、パッケージモックアップ——をモデルに渡し、他は何も変えずにテキストの翻訳を依頼してください。重要な制約のフレーズ:"Translate the text to X. Do not change any other aspect of the image." これによりタイポグラフィ、配置、間隔、階層、周辺のイメージが保持されます。

プロンプト
Translate the text in the input image to Spanish. Do not change any other aspect of the image: keep the typography style, font size, placement, spacing, hierarchy, icons, illustrations, color palette, and all non-text elements exactly as they appear. Translate verbatim and accurately, no added words. No reflow unless absolutely necessary. No watermark.
このパターンは、以前はデザインツールが必要だったローカライゼーションワークフロー全体を解放します。1つのソースアセット → ターゲット言語ごとに1つのプロンプト → 配信準備の完了したローカライズドクリエイティブ。非常に小さなポイントサイズの密集した段落は確認してください——非常に小さい本文では精度がわずかに低下することがあります。
ユースケース別の品質とサイズの選択
GPT Image 2は3つの品質レベル——低、中、高——を公開しており、1024×1024の正方形から4Kヒーローまでの柔軟なサイズをサポートしています。低は最も高速で、サムネイル、ドラフト、ソーシャルプレビュー、または下流のレビューステップを通過する画像に対しては実際に十分です。忠実度がボトルネックになる場合にのみ中または高に手を伸ばしてください。以下の表は、推奨設定を一般的なユースケースにマッピングしています。
| ワークフロー | 推奨サイズ | 推奨品質 | 備考 |
|---|---|---|---|
| ソーシャルメディアドラフト/サムネイル | 1024×1024 | 低 | 最速。バッチ生成に向く。 |
| 製品写真(EC) | 1536×1024 | 高 | ラベルの可読性には高が必要。 |
| ポートレート/ファッションエディトリアル | 1024×1536 | 高 | 肌のテクスチャと照明には高が必要。 |
| 画像内テキスト付きマーケティング広告 | 1024×1024 または 1080×1350 | 中または高 | 見出し+CTA+本文が密集する場合は高。 |
| パッケージモックアップ | 1024×1536 | 高 | 3D表面の複数行テキストには高が必要。 |
| インフォグラフィック/教育用ダイアグラム | 1536×1024 | 高 | 密集したラベルや凡例には高が必要。 |
| UIモックアップ | 1024×1536 | 中 | レイアウト主導;中で十分。 |
| ロゴ(複数バリアント) | 1024×1024 | 中 | 同じプロンプトからのバリアント;中が速度とのバランスを取る。 |
| 多面パネル漫画/ストーリーボード | 1024×1536 | 中 | パネル間の一貫性;中で十分。 |
| 背景の差し替え/オブジェクトの編集 | 1024×1024 または入力サイズ | 中 | 編集は入力の忠実度を自動的に保持する。 |
| 画像内翻訳 | 入力に合わせる | 中 | レイアウトの保持が主目的。 |
| 4Kヒーローアセット | 3840×2160 | 高 | 実験的;変動が多くなる。 |
よくある落とし穴と回避方法
- 汎用的なスタイルブースター("8K, ultra-detailed, masterpiece, cinematic")はほぼ無視されます。これらは古い拡散モデルから残ったパターンです。そのプロンプト予算は、照明、構図、制約に振り向けてください。
- "完璧な肌"や"無欠点"を求めると、汎用的なAIポートレートの見た目になります——プラスチックっぽく、過度に滑らかで、アイデンティティが希薄になります。それらの言葉を、明示的な実写の手がかりに置き換えてください:"目に見える毛穴"、"細いしわ"、"非対称性"、"自然光"、"重いレタッチなし"。
- あいまいなレイアウト指示("見栄え良くして")は、再実行間で結果に一貫性をもたらしません。配置を予測可能にしたい場合は、必ずポジショニング("ロゴ右上、見出し中央、CTA左下")を綴ってください。
- 文字どおりのテキストを引用符で囲むのを忘れないでください。引用符がないと、モデルは言い換えます。引用符に加えて"EXACT, verbatim, no extra characters"を付ければ、モデルは書かれたとおりに単語をレンダリングします。
- 2K(2560×1440)を超えると、結果は実験的としてフラグが立てられます——テキストレンダリング、細部、プロンプトの追従性は変動が大きくなります。4Kヒーローが必要な場合は、まず2Kで生成し、別途スケーリングしてください。
- 1回の編集で画像の3つ以上の独立した部分を変更しようとすること。複数領域の編集はしばしば2〜3回の反復を必要とします。編集を順次の単一変更パスに分割してください——本番品質に早く到達できます。
- 透明背景は現在サポートされていません。不透明な背景で生成し、透明アセットが必要な場合は下流の背景除去パスを実行してください。
- 知識のカットオフは2025年12月です。その日以降に登場した被写体——新製品デザイン、2026年のイベント、最近リブランドした企業——では、モデルは不正確な出力を生成する可能性があります。正確性が重要な場合は参照画像を提供してください。
まとめ:デフォルトのプロンプトテンプレート
本ガイドから1つだけ持ち帰るなら、このプロンプトテンプレートを持ち帰ってください。上の例のほぼすべてのユースケースに対して機能します:
シーン → 被写体(スケールと視線を含む) → 素材とテクスチャ → 構図(フレーミング、視点、焦点距離) → 光(方向と質感) → 引用符で囲んだ画像内テキスト → 制約(保持/透かしなし/余分なテキストなし)。
中品質設定と1024×1024の正方形から始め、プロンプトを校正するために2回生成し、最終アセット用に高品質と非正方形のアスペクト比に移動してください。改良については、ゼロから再生成するのではなく、自然言語の指示で既存の画像を編集してください——後者は本番作業におけるブランドドリフトの最大の単一原因です。