ما هو GPT Image 2؟ أقوى نموذج لتوليد الصور من OpenAI موضح بالتفصيل

GPT Image 2
توليد الصور
OpenAI

GPT Image 2 هو أحدث وأقوى نماذج توليد الصور من OpenAI، أُطلق في 21 أبريل 2026 تحت اسم API الرسمي `gpt-image-2`. يُسوَّق أيضاً باسم ChatGPT Images 2.0، وهو الخلف المباشر لـ GPT Image 1.5 (ديسمبر 2025)، ويمثل أكبر قفزة للأمام في عائلة GPT Image حتى الآن.

القصة الرئيسية ليست جودة الصور فقط، بل القدرة على التفكير. GPT Image 2 هو أول نموذج صور من OpenAI يدمج قدرات "التفكير" الأصلية: يمكنه التخطيط للتكوين، والبحث على الويب، والتحقق من مخرجاته، وتوليد ما يصل إلى ثماني صور متسقة من طلب واحد مع الحفاظ على تناسق الشخصيات والعناصر. تصفه OpenAI بأنه ليس أداة ترفيهية، بل "شريك في التفكير البصري" مصمم لسير العمل الإنتاجية.

تاريخ الإطلاق والتوفر

أعلنت OpenAI عن إطلاق GPT Image 2 في 21 أبريل 2026. حصل جميع مستخدمي ChatGPT وCodex على الوصول في اليوم التالي، 22 أبريل. أصبح API (معرّف النموذج: `gpt-image-2`، اللقطة: `gpt-image-2-2026-04-21`) متاحاً للمطورين بُعيد الإطلاق.

يتزامن هذا الإطلاق مع التوقف المخطط لـ DALL-E 2 وDALL-E 3 في 12 مايو 2026، مما يجعل عائلة GPT Image —وبخاصة GPT Image 2— المنصة الوحيدة لتوليد الصور من OpenAI من الآن فصاعداً.

GPT Image 2 (ChatGPT Images 2.0) interface in ChatGPT
ChatGPT Images 2.0 — واجهة GPT Image 2 في ChatGPT المتاحة اعتباراً من 22 أبريل 2026

القدرات الأساسية

يأتي GPT Image 2 بمجموعة من القدرات التي تميزه جوهرياً عن جميع نماذج الصور السابقة من OpenAI. فيما يلي ما يجعله مختلفاً من حيث الفئة.

1. التفكير الأصلي (وضع Thinking)

أكثر ميزات GPT Image 2 تحولاً هي طبقة التفكير الأصلية. في وضع Thinking، لا ينتقل النموذج مباشرةً إلى توليد البكسلات؛ بل يخطط أولاً للتكوين، ويستدل على التخطيط، ويمكنه البحث على الويب لإيجاد مراجع بصرية حقيقية قبل إنتاج الصورة. بعد التوليد، يُجري فحصاً ذاتياً للتحقق من تطابق المخرج مع النية الأصلية.

هذا يجعل GPT Image 2 مختلفاً جوهرياً عن جميع النماذج السابقة القائمة على الانتشار. بالنسبة للطلبات المعقدة —شريط كوميكس متعدد اللوحات، ورسم بياني تفصيلي، ومواد تسويقية متوافقة بخمسة تنسيقات— يرفع وضع Thinking بشكل كبير من نسب النجاح في المحاولة الأولى.

وضع Thinking مقتصر على المشتركين المدفوعين في ChatGPT (Plus بـ20 دولار/شهر، Pro بـ200 دولار/شهر، Business وEnterprise). أما وضع Instant —الذي يتضمن تحسينات الجودة الأساسية— فمتاح لجميع المستخدمين بما فيهم المستوى المجاني.

GPT Image 2 Thinking mode showing the planning and reasoning process before image generation
GPT Image 2 وضع Thinking — يخطط النموذج للتخطيط ويستشير المراجع ويتحقق من المخرج قبل إنهاء الصورة

2. عرض النصوص

كان توليد نصوص مقروءة داخل الصور المولَّدة من أصعب التحديات التي تواجه نماذج الذكاء الاصطناعي تاريخياً. يحقق GPT Image 2 تحسناً حاسماً في هذا الشأن. تُبرز OpenAI تحديداً قدرته على التعامل مع "النصوص الصغيرة، والأيقونات، وعناصر واجهة المستخدم، والتكوينات الكثيفة" —وهي تماماً العناصر التي كانت النماذج السابقة تفشل فيها بانتظام.

بالنسبة للخطوط اللاتينية، يعرض النموذج خطوط العناوين والنصوص الأساسية والطباعة المصممة بدقة شبه مثالية في دقة 2K. أما الخطوط غير اللاتينية —اليابانية والكورية والصينية (CJK) والهندية والبنغالية والعربية— فيحقق دقة على مستوى الحرف لم تستطعها النماذج السابقة. أشارت TechCrunch إلى أن النموذج يستطيع إنتاج قائمة طعام إسبانية بحيث "لن يلاحظ العملاء أي خطأ".

هذا له انعكاسات مباشرة على فرق التسويق، والناشرين، واستوديوهات الألعاب، وماركات التجارة الإلكترونية التي كانت تحتاج سابقاً إلى معالجة يدوية لتصحيح النصوص المولَّدة بالذكاء الاصطناعي.

GPT Image 2 rendering a restaurant menu with accurate Japanese and English text
GPT Image 2 — قائمة طعام مطعم ثنائية اللغة تحتوي على نص ياباني وإنجليزي، معروضة بدقة 2K بدون أخطاء في الأحرف

موجه

A premium Japanese restaurant menu printed on dark washi paper. The restaurant name "黒松" (Kuromatsu) appears at the top in large calligraphic brushstroke lettering. Below it, a clean section titled "Omakase Course" lists five dishes with Japanese names on the left and English descriptions on the right — each with a price in yen on the far right. Small illustrated botanical motifs separate each section. A thin gold border frames the entire menu. Typography is elegant and legible. All text must be fully accurate.

3. دقة 2K ونسب عرض مرنة

يدعم GPT Image 2 بشكل أصلي دقات تصل إلى 2K (2048 بكسل). خلافاً لـGPT Image 1 و1.5 المقتصرَين على مجموعة ثابتة من الأحجام، يقبل GPT Image 2 أي دقة تستوفي قيود الأبعاد الخاصة به، إذ تُولَّد الصور المربعة بشكل أسرع.

يمتد دعم نسبة العرض إلى الارتفاع من 3:1 (عريض جداً سينمائياً) إلى 1:3 (طويل جداً رأسياً)، ليغطي جميع تنسيقات الإنتاج الحقيقية: منشورات وسائل التواصل الاجتماعي، ومجسمات اللافتات، وتخطيطات التحرير، وشاشات التطبيقات المحمولة وغيرها. يُزيل هذا خطوة التحجيم التي كانت تُدهور الجودة في سير العمل الاحترافية.

مثال عملي: توليد مواد حملة من طلب واحد واستلامها مربعة، و9:16 رأسية، و16:9 أفقية، و21:9 عريضة جداً — كل ذلك في دفعة واحدة بتكوين متطابق.

4. التوليد الدفعي للصور المتعددة مع استمرارية الشخصيات

في وضع Thinking، يستطيع GPT Image 2 توليد ما يصل إلى ثماني صور متسقة من طلب واحد، مع الحفاظ على مظهر الشخصيات وترتيب الأشياء والأسلوب البصري عبر الدفعة بأكملها. يُعدّ هذا عنصراً أساسياً جديداً لسير العمل الإنتاجي.

حالات الاستخدام الممكنة الآن في توليد واحد: كتاب مصور كامل للأطفال، وحملة منتج متعددة المشاهد، وشريط كوميكس من ست لوحات، وقصة مصورة لإنتاج مقاطع فيديو. تُفرض استمرارية الشخصيات بواسطة طبقة التفكير في النموذج، التي تتتبع سمات الهوية —المظهر، والملابس، والتناسبات— عبر مجموعة المخرجات بأكملها.

عبر Image API، يقبل المعامل `n` قيماً من 1 إلى 8.

GPT Image 2 generating a six-panel comic strip with consistent characters in a single prompt
GPT Image 2 — شريط كوميكس من ست لوحات مُولَّد من طلب واحد في وضع Thinking، مع مظهر متسق للشخصية في جميع اللوحات

موجه

A six-panel comic strip in a clean flat-color illustration style. The main character is a small orange robot with a round head and large blue eyes. Panel 1: The robot wakes up and sees it is raining outside. Panel 2: It puts on a tiny yellow raincoat. Panel 3: It steps outside and opens a matching yellow umbrella. Panel 4: It spots a large puddle and hesitates. Panel 5: It jumps into the puddle with both feet. Panel 6: It stands in the puddle, soaking wet but smiling widely. Each panel has a thin rounded border. The robot must look identical in all six panels.

5. التكامل مع البحث على الويب

عند تنشيط وضع Thinking، يستطيع GPT Image 2 البحث على الويب أثناء عملية التوليد. يُعدّ هذا الأمر أكثر فائدة للطلبات التي تتضمن موضوعات من العالم الحقيقي: مبنى معين، أو هوية بصرية لعلامة تجارية، أو رسم تخطيطي دقيق علمياً، أو رسم توضيحي مبني على أحداث إخبارية.

بدلاً من إنتاج تقريب منطقي، يسترجع النموذج أولاً مراجع بصرية حقيقية ثم يستخدم تلك المعلومات لتثبيت الصورة المولَّدة في الدقة الواقعية. بالنسبة للرسوم البيانية والرسوم التوضيحية التعليمية ومشاهد المواقع المحددة، يسد هذا الفجوة بين "يبدو صحيحاً" و"صحيح فعلاً".

وضع Instant مقابل وضع Thinking

يتضمن GPT Image 2 وضعَي وصول مختلفَين، يستهدف كل منهما حالات استخدام وفئات اشتراك مختلفة.

الميزةوضع Instantوضع Thinking
الوصولجميع المستخدمين (بما فيهم المجاني)Plus وPro وBusiness وEnterprise
سرعة التوليدسريعةأبطأ (التفكير يستغرق وقتاً)
البحث على الويب أثناء التوليدلانعم
دفعة متعددة الصور (حتى 8)لانعم
استمرارية الشخصيات في الدفعةلانعم
التحقق الذاتي من المخرجاتلانعم
تخطيط التكوين قبل التوليدلانعم
دقة 2Kنعمنعم
تحسين عرض النصوصنعمنعم
النص متعدد اللغاتنعمنعم
GPT Image 2 — مقارنة الميزات: وضع Instant مقابل وضع Thinking

تحسينات جودة GPT Image 2 —عرض النصوص، ودقة 2K، والدعم متعدد اللغات، والواقعية الفوتوغرافية— متاحة في كلا الوضعين. يفتح وضع Thinking الطبقة الفاعلة: البحث على الويب، والتوليد الدفعي للصور المتعددة مع الاستمرارية، والتحقق الذاتي. لتوليد صورة واحدة بسيطة، يكفي وضع Instant وهو أسرع.

ما الذي يمكن إنشاؤه باستخدام GPT Image 2؟

وضعت OpenAI GPT Image 2 صراحةً كأداة إنتاج، لا كأداة ترفيهية إبداعية. أبرز إعلان الإطلاق خمس فئات من المخرجات التي يتفوق فيها النموذج على أي نموذج صور سابق من OpenAI:

  • المواد التسويقية: صور الحملات، والجرافيك على وسائل التواصل الاجتماعي، ومجسمات المنتجات بأحجام متعددة من طلب واحد
  • الرسوم البيانية والمخططات: الأدلة المرئية خطوة بخطوة، وتصورات البيانات، والرسوم التعليمية مع تسميات نصية دقيقة
  • مجسمات واجهة المستخدم: شاشات التطبيقات، وأُطر واجهات الويب، ومكونات أنظمة التصميم بعناصر UI مقروءة
  • شرائط الكوميكس ولوحات القصص المصورة: روايات متعددة اللوحات مع شخصيات متسقة في جميع الإطارات
  • الشرائح والعروض التقديمية: مجموعات شرائح بتسلسل هرمي طباعي صحيح ورسوم بيانية ومرئيات تحمل الهوية البصرية للعلامة
GPT Image 2 generating a brand campaign in multiple formats — square, landscape, and portrait — from a single prompt
GPT Image 2 — حملة منتج بثلاثة تنسيقات مختلفة مُولَّدة من طلب واحد، مع تكوين واتساق هوية بصرية في جميع التنسيقات

موجه

A premium skincare product campaign for a brand called "LUNE." The hero visual shows a clean white serum bottle on a marble surface with soft golden-hour light, surrounded by dried botanicals. The brand name "LUNE" appears in a thin modern serif typeface at the top. A tagline "Refined by Nature" appears below the bottle in small caps. Generate this composition in three formats: 1:1 square, 16:9 landscape, and 4:5 portrait. Keep the product, lighting, text placement, and color palette identical across all three.

المواصفات التقنية

المواصفةالقيمة
معرّف نموذج APIgpt-image-2
لقطة النموذجgpt-image-2-2026-04-21
تاريخ الإطلاق21 أبريل 2026
الدقة القصوى2K (2048 بكسل على الضلع الأطول)
نطاق نسبة العرض3:1 (عريض جداً) إلى 1:3 (طويل جداً)
الصور لكل طلب (API)من 1 إلى 8 (المعامل n)
نقاط نهاية APIv1/images/generations, v1/images/edits
دقة الإدخالعالية الدقة دائماً (غير قابلة للتغيير)
الخلفية الشفافةغير مدعومة
تنسيقات المخرجاتJPEG وWebP (ضغط 0–100%) وPNG
حد المعرفةديسمبر 2025
بيانات C2PA الوصفيةمُدرجة في جميع المخرجات
GPT Image 2 — ملخص المواصفات التقنية

ملاحظة تقنية مهمة: يعالج `gpt-image-2` كل صورة مُدخَلة بدقة عالية تلقائياً — المعامل `input_fidelity` الموجود في النماذج السابقة غير مدعوم ولا يمكن تغييره. يعني هذا أن طلبات التحرير التي تتضمن صور مرجعية ستستهلك المزيد من رموز الإدخال، وهو ما يجب مراعاته عند تقدير التكاليف.

مقارنة GPT Image 2 بالنماذج السابقة

يتصدر GPT Image 2 سلسلة API من ثلاثة أجيال. كان DALL-E 3 نموذج انتشار مستقلاً متصلاً بـChatGPT كأداة خارجية. أدخل GPT Image 1 (أبريل 2025) التكامل متعدد الوسائط الأصلي: اتباع التعليمات بشكل أفضل، وعرض النص، والمعرفة بالعالم. أضاف GPT Image 1.5 (ديسمبر 2025) التحرير مع الحفاظ على الصورة وأوقات توليد أسرع.

يبني GPT Image 2 على GPT Image 1.5 بإضافة طبقة قدرات جديدة جوهرياً: التفكير الأصلي. يجلب هذا تحسينات شاملة، لا تعديلات نقطية. يلخص الجدول التالي الفوارق بين الأجيال.

الميزةDALL-E 3GPT Image 1GPT Image 1.5GPT Image 2
التكامل متعدد الوسائط الأصليلانعمنعمنعم
التفكير الأصلي / وضع Thinkingلالالانعم
الدقة القصوى1024px1536px1536px2048px (2K)
التوليد الدفعي للصور المتعددةلالالاحتى 8
البحث على الويب أثناء التوليدلالالانعم (Thinking)
نص CJK / الهندية / البنغاليةضعيفمتوسطجيددقيق
التحرير مع الحفاظ على الصورةلالانعمنعم
رموز المخرجات لكل مليون$40$32$30
أجيال نموذج الصور من OpenAI — مقارنة الميزات

القيود الحالية

  • عدم دعم الخلفية الشفافة: يُعيد استخدام background: transparent مع gpt-image-2 خطأً، مما يحول دون توليد أصول مقطوعة بدون معالجة لاحقة.
  • حد المعرفة ديسمبر 2025: لا يستطيع النموذج توليد مرئيات مرتبطة بأحداث أو منتجات أو شخصيات عامة ظهرت بعد هذا التاريخ بدقة. يمكن لوضع Thinking التعويض من خلال البحث الآني على الويب، لكن قاعدة المعرفة البصرية الأساسية تقف عند ديسمبر 2025.
  • وضع Thinking للمستخدمين المدفوعين فقط: تتطلب الميزات الأقوى —التوليد الدفعي للصور المتعددة مع الاستمرارية، والبحث على الويب، والتحقق الذاتي— اشتراكاً في ChatGPT Plus (20 دولار/شهر) أو أعلى.
  • لا وصول API للحسابات المجانية: عبر API، لا تملك الحسابات المجانية وصولاً إلى النموذج. يبدأ المستوى الأول بـ5 صور في الدقيقة.
  • التوليد عالي الجودة أبطأ: قد تستغرق الطلبات المعقدة في وضع Thinking عدة دقائق. هذه مقايضة مقصودة لصالح الدقة، وليست عيباً تقنياً.

يُعدّ قيد الخلفية الشفافة الأكثر تأثيراً على سير عمل التصميم والتجارة الإلكترونية. تصوير المنتجات على خلفية بيضاء، وتوليد الشعارات، وإنشاء ملصقات الأصول تتطلب كلها صور PNG شفافة — حالياً تدعم هذا التنسيق GPT Image 1 و1.5 وGPT Image 1 Mini فقط. لم تُعلن OpenAI عن جدول زمني لإضافة دعم الخلفية الشفافة إلى gpt-image-2.

الأمان وسياسة المحتوى

يحتفظ GPT Image 2 ببنية الأمان الخاصة بـGPT Image 1، بما في ذلك الضمانات المعيارية ضد توليد الصور الضارة، وبيانات C2PA (تحالف استناد المحتوى وأصالته) الوصفية المضمَّنة إلزامياً في جميع المخرجات. تتيح بيانات C2PA الوصفية التحقق آلياً من أن مخرجات GPT Image 2 محتوى مولَّد بالذكاء الاصطناعي، مما يُعدّ مهماً للمنصات التي تُطبّق متطلبات الإفصاح عن محتوى الذكاء الاصطناعي.

يستطيع المطورون الذين يصلون إلى النموذج عبر API التحكم في حساسية الإشراف من خلال المعامل `moderation`: يُطبّق `auto` الفلترة المعيارية، بينما يُقلل `low` من الفلترة للتطبيقات الأقل تقييداً. بشكل افتراضي، لا تستخدم OpenAI بيانات API العملاء للتدريب.

الخلاصة

يُمثّل GPT Image 2 تقدماً جيلياً لمنصة توليد الصور من OpenAI. إنه ليس DALL-E أسرع — بل هو نموذج يفكر قبل الرسم، ويتحقق من مخرجاته ذاتياً، ويبحث على الويب حين تقتضي الدقة ذلك، وبإمكانه توليد قصة مصورة من ثماني صور بشخصيات متسقة من طلب واحد.

بالنسبة لفرق الإنتاج، الميزات الثورية هي: عرض النصوص الذي لم يعد يحتاج تصحيحاً يدوياً، والدقة الأصلية 2K التي تُلغي التحجيم الخارجي، والتوليد الدفعي للصور المتعددة مع الاستمرارية. بالنسبة للمستخدمين العاديين، يجعل تحسين الجودة في وضع Instant وحده منه أقوى إصدار لتوليد الصور في ChatGPT.

الخاصيةالقيمة
الاسم الرسميChatGPT Images 2.0 / gpt-image-2
تاريخ الإطلاق21 أبريل 2026
أبرز ميزة جديدةالتفكير الأصلي (وضع Thinking)
الدقة القصوى2K (2048 بكسل)
الحد الأقصى للصور لكل طلب8 (في وضع Thinking)
أفضل عرض للنصوصاللاتينية، وCJK، والهندية، والبنغالية، والعربية
الخلفية الشفافةغير مدعومة
حد المعرفةديسمبر 2025
GPT Image 2 — البيانات الرئيسية في لمحة