ما هو GPT Image 2؟ أقوى نموذج لتوليد الصور من OpenAI موضح بالتفصيل
GPT Image 2 هو أحدث وأقوى نماذج توليد الصور من OpenAI، أُطلق في 21 أبريل 2026 تحت اسم API الرسمي `gpt-image-2`. يُسوَّق أيضاً باسم ChatGPT Images 2.0، وهو الخلف المباشر لـ GPT Image 1.5 (ديسمبر 2025)، ويمثل أكبر قفزة للأمام في عائلة GPT Image حتى الآن.
القصة الرئيسية ليست جودة الصور فقط، بل القدرة على التفكير. GPT Image 2 هو أول نموذج صور من OpenAI يدمج قدرات "التفكير" الأصلية: يمكنه التخطيط للتكوين، والبحث على الويب، والتحقق من مخرجاته، وتوليد ما يصل إلى ثماني صور متسقة من طلب واحد مع الحفاظ على تناسق الشخصيات والعناصر. تصفه OpenAI بأنه ليس أداة ترفيهية، بل "شريك في التفكير البصري" مصمم لسير العمل الإنتاجية.
تاريخ الإطلاق والتوفر
أعلنت OpenAI عن إطلاق GPT Image 2 في 21 أبريل 2026. حصل جميع مستخدمي ChatGPT وCodex على الوصول في اليوم التالي، 22 أبريل. أصبح API (معرّف النموذج: `gpt-image-2`، اللقطة: `gpt-image-2-2026-04-21`) متاحاً للمطورين بُعيد الإطلاق.
يتزامن هذا الإطلاق مع التوقف المخطط لـ DALL-E 2 وDALL-E 3 في 12 مايو 2026، مما يجعل عائلة GPT Image —وبخاصة GPT Image 2— المنصة الوحيدة لتوليد الصور من OpenAI من الآن فصاعداً.

القدرات الأساسية
يأتي GPT Image 2 بمجموعة من القدرات التي تميزه جوهرياً عن جميع نماذج الصور السابقة من OpenAI. فيما يلي ما يجعله مختلفاً من حيث الفئة.
1. التفكير الأصلي (وضع Thinking)
أكثر ميزات GPT Image 2 تحولاً هي طبقة التفكير الأصلية. في وضع Thinking، لا ينتقل النموذج مباشرةً إلى توليد البكسلات؛ بل يخطط أولاً للتكوين، ويستدل على التخطيط، ويمكنه البحث على الويب لإيجاد مراجع بصرية حقيقية قبل إنتاج الصورة. بعد التوليد، يُجري فحصاً ذاتياً للتحقق من تطابق المخرج مع النية الأصلية.
هذا يجعل GPT Image 2 مختلفاً جوهرياً عن جميع النماذج السابقة القائمة على الانتشار. بالنسبة للطلبات المعقدة —شريط كوميكس متعدد اللوحات، ورسم بياني تفصيلي، ومواد تسويقية متوافقة بخمسة تنسيقات— يرفع وضع Thinking بشكل كبير من نسب النجاح في المحاولة الأولى.
وضع Thinking مقتصر على المشتركين المدفوعين في ChatGPT (Plus بـ20 دولار/شهر، Pro بـ200 دولار/شهر، Business وEnterprise). أما وضع Instant —الذي يتضمن تحسينات الجودة الأساسية— فمتاح لجميع المستخدمين بما فيهم المستوى المجاني.

2. عرض النصوص
كان توليد نصوص مقروءة داخل الصور المولَّدة من أصعب التحديات التي تواجه نماذج الذكاء الاصطناعي تاريخياً. يحقق GPT Image 2 تحسناً حاسماً في هذا الشأن. تُبرز OpenAI تحديداً قدرته على التعامل مع "النصوص الصغيرة، والأيقونات، وعناصر واجهة المستخدم، والتكوينات الكثيفة" —وهي تماماً العناصر التي كانت النماذج السابقة تفشل فيها بانتظام.
بالنسبة للخطوط اللاتينية، يعرض النموذج خطوط العناوين والنصوص الأساسية والطباعة المصممة بدقة شبه مثالية في دقة 2K. أما الخطوط غير اللاتينية —اليابانية والكورية والصينية (CJK) والهندية والبنغالية والعربية— فيحقق دقة على مستوى الحرف لم تستطعها النماذج السابقة. أشارت TechCrunch إلى أن النموذج يستطيع إنتاج قائمة طعام إسبانية بحيث "لن يلاحظ العملاء أي خطأ".
هذا له انعكاسات مباشرة على فرق التسويق، والناشرين، واستوديوهات الألعاب، وماركات التجارة الإلكترونية التي كانت تحتاج سابقاً إلى معالجة يدوية لتصحيح النصوص المولَّدة بالذكاء الاصطناعي.

موجه
A premium Japanese restaurant menu printed on dark washi paper. The restaurant name "黒松" (Kuromatsu) appears at the top in large calligraphic brushstroke lettering. Below it, a clean section titled "Omakase Course" lists five dishes with Japanese names on the left and English descriptions on the right — each with a price in yen on the far right. Small illustrated botanical motifs separate each section. A thin gold border frames the entire menu. Typography is elegant and legible. All text must be fully accurate.
3. دقة 2K ونسب عرض مرنة
يدعم GPT Image 2 بشكل أصلي دقات تصل إلى 2K (2048 بكسل). خلافاً لـGPT Image 1 و1.5 المقتصرَين على مجموعة ثابتة من الأحجام، يقبل GPT Image 2 أي دقة تستوفي قيود الأبعاد الخاصة به، إذ تُولَّد الصور المربعة بشكل أسرع.
يمتد دعم نسبة العرض إلى الارتفاع من 3:1 (عريض جداً سينمائياً) إلى 1:3 (طويل جداً رأسياً)، ليغطي جميع تنسيقات الإنتاج الحقيقية: منشورات وسائل التواصل الاجتماعي، ومجسمات اللافتات، وتخطيطات التحرير، وشاشات التطبيقات المحمولة وغيرها. يُزيل هذا خطوة التحجيم التي كانت تُدهور الجودة في سير العمل الاحترافية.
مثال عملي: توليد مواد حملة من طلب واحد واستلامها مربعة، و9:16 رأسية، و16:9 أفقية، و21:9 عريضة جداً — كل ذلك في دفعة واحدة بتكوين متطابق.
4. التوليد الدفعي للصور المتعددة مع استمرارية الشخصيات
في وضع Thinking، يستطيع GPT Image 2 توليد ما يصل إلى ثماني صور متسقة من طلب واحد، مع الحفاظ على مظهر الشخصيات وترتيب الأشياء والأسلوب البصري عبر الدفعة بأكملها. يُعدّ هذا عنصراً أساسياً جديداً لسير العمل الإنتاجي.
حالات الاستخدام الممكنة الآن في توليد واحد: كتاب مصور كامل للأطفال، وحملة منتج متعددة المشاهد، وشريط كوميكس من ست لوحات، وقصة مصورة لإنتاج مقاطع فيديو. تُفرض استمرارية الشخصيات بواسطة طبقة التفكير في النموذج، التي تتتبع سمات الهوية —المظهر، والملابس، والتناسبات— عبر مجموعة المخرجات بأكملها.
عبر Image API، يقبل المعامل `n` قيماً من 1 إلى 8.

موجه
A six-panel comic strip in a clean flat-color illustration style. The main character is a small orange robot with a round head and large blue eyes. Panel 1: The robot wakes up and sees it is raining outside. Panel 2: It puts on a tiny yellow raincoat. Panel 3: It steps outside and opens a matching yellow umbrella. Panel 4: It spots a large puddle and hesitates. Panel 5: It jumps into the puddle with both feet. Panel 6: It stands in the puddle, soaking wet but smiling widely. Each panel has a thin rounded border. The robot must look identical in all six panels.
5. التكامل مع البحث على الويب
عند تنشيط وضع Thinking، يستطيع GPT Image 2 البحث على الويب أثناء عملية التوليد. يُعدّ هذا الأمر أكثر فائدة للطلبات التي تتضمن موضوعات من العالم الحقيقي: مبنى معين، أو هوية بصرية لعلامة تجارية، أو رسم تخطيطي دقيق علمياً، أو رسم توضيحي مبني على أحداث إخبارية.
بدلاً من إنتاج تقريب منطقي، يسترجع النموذج أولاً مراجع بصرية حقيقية ثم يستخدم تلك المعلومات لتثبيت الصورة المولَّدة في الدقة الواقعية. بالنسبة للرسوم البيانية والرسوم التوضيحية التعليمية ومشاهد المواقع المحددة، يسد هذا الفجوة بين "يبدو صحيحاً" و"صحيح فعلاً".
وضع Instant مقابل وضع Thinking
يتضمن GPT Image 2 وضعَي وصول مختلفَين، يستهدف كل منهما حالات استخدام وفئات اشتراك مختلفة.
| الميزة | وضع Instant | وضع Thinking |
|---|---|---|
| الوصول | جميع المستخدمين (بما فيهم المجاني) | Plus وPro وBusiness وEnterprise |
| سرعة التوليد | سريعة | أبطأ (التفكير يستغرق وقتاً) |
| البحث على الويب أثناء التوليد | لا | نعم |
| دفعة متعددة الصور (حتى 8) | لا | نعم |
| استمرارية الشخصيات في الدفعة | لا | نعم |
| التحقق الذاتي من المخرجات | لا | نعم |
| تخطيط التكوين قبل التوليد | لا | نعم |
| دقة 2K | نعم | نعم |
| تحسين عرض النصوص | نعم | نعم |
| النص متعدد اللغات | نعم | نعم |
تحسينات جودة GPT Image 2 —عرض النصوص، ودقة 2K، والدعم متعدد اللغات، والواقعية الفوتوغرافية— متاحة في كلا الوضعين. يفتح وضع Thinking الطبقة الفاعلة: البحث على الويب، والتوليد الدفعي للصور المتعددة مع الاستمرارية، والتحقق الذاتي. لتوليد صورة واحدة بسيطة، يكفي وضع Instant وهو أسرع.
ما الذي يمكن إنشاؤه باستخدام GPT Image 2؟
وضعت OpenAI GPT Image 2 صراحةً كأداة إنتاج، لا كأداة ترفيهية إبداعية. أبرز إعلان الإطلاق خمس فئات من المخرجات التي يتفوق فيها النموذج على أي نموذج صور سابق من OpenAI:
- المواد التسويقية: صور الحملات، والجرافيك على وسائل التواصل الاجتماعي، ومجسمات المنتجات بأحجام متعددة من طلب واحد
- الرسوم البيانية والمخططات: الأدلة المرئية خطوة بخطوة، وتصورات البيانات، والرسوم التعليمية مع تسميات نصية دقيقة
- مجسمات واجهة المستخدم: شاشات التطبيقات، وأُطر واجهات الويب، ومكونات أنظمة التصميم بعناصر UI مقروءة
- شرائط الكوميكس ولوحات القصص المصورة: روايات متعددة اللوحات مع شخصيات متسقة في جميع الإطارات
- الشرائح والعروض التقديمية: مجموعات شرائح بتسلسل هرمي طباعي صحيح ورسوم بيانية ومرئيات تحمل الهوية البصرية للعلامة

موجه
A premium skincare product campaign for a brand called "LUNE." The hero visual shows a clean white serum bottle on a marble surface with soft golden-hour light, surrounded by dried botanicals. The brand name "LUNE" appears in a thin modern serif typeface at the top. A tagline "Refined by Nature" appears below the bottle in small caps. Generate this composition in three formats: 1:1 square, 16:9 landscape, and 4:5 portrait. Keep the product, lighting, text placement, and color palette identical across all three.
المواصفات التقنية
| المواصفة | القيمة |
|---|---|
| معرّف نموذج API | gpt-image-2 |
| لقطة النموذج | gpt-image-2-2026-04-21 |
| تاريخ الإطلاق | 21 أبريل 2026 |
| الدقة القصوى | 2K (2048 بكسل على الضلع الأطول) |
| نطاق نسبة العرض | 3:1 (عريض جداً) إلى 1:3 (طويل جداً) |
| الصور لكل طلب (API) | من 1 إلى 8 (المعامل n) |
| نقاط نهاية API | v1/images/generations, v1/images/edits |
| دقة الإدخال | عالية الدقة دائماً (غير قابلة للتغيير) |
| الخلفية الشفافة | غير مدعومة |
| تنسيقات المخرجات | JPEG وWebP (ضغط 0–100%) وPNG |
| حد المعرفة | ديسمبر 2025 |
| بيانات C2PA الوصفية | مُدرجة في جميع المخرجات |
ملاحظة تقنية مهمة: يعالج `gpt-image-2` كل صورة مُدخَلة بدقة عالية تلقائياً — المعامل `input_fidelity` الموجود في النماذج السابقة غير مدعوم ولا يمكن تغييره. يعني هذا أن طلبات التحرير التي تتضمن صور مرجعية ستستهلك المزيد من رموز الإدخال، وهو ما يجب مراعاته عند تقدير التكاليف.
مقارنة GPT Image 2 بالنماذج السابقة
يتصدر GPT Image 2 سلسلة API من ثلاثة أجيال. كان DALL-E 3 نموذج انتشار مستقلاً متصلاً بـChatGPT كأداة خارجية. أدخل GPT Image 1 (أبريل 2025) التكامل متعدد الوسائط الأصلي: اتباع التعليمات بشكل أفضل، وعرض النص، والمعرفة بالعالم. أضاف GPT Image 1.5 (ديسمبر 2025) التحرير مع الحفاظ على الصورة وأوقات توليد أسرع.
يبني GPT Image 2 على GPT Image 1.5 بإضافة طبقة قدرات جديدة جوهرياً: التفكير الأصلي. يجلب هذا تحسينات شاملة، لا تعديلات نقطية. يلخص الجدول التالي الفوارق بين الأجيال.
| الميزة | DALL-E 3 | GPT Image 1 | GPT Image 1.5 | GPT Image 2 |
|---|---|---|---|---|
| التكامل متعدد الوسائط الأصلي | لا | نعم | نعم | نعم |
| التفكير الأصلي / وضع Thinking | لا | لا | لا | نعم |
| الدقة القصوى | 1024px | 1536px | 1536px | 2048px (2K) |
| التوليد الدفعي للصور المتعددة | لا | لا | لا | حتى 8 |
| البحث على الويب أثناء التوليد | لا | لا | لا | نعم (Thinking) |
| نص CJK / الهندية / البنغالية | ضعيف | متوسط | جيد | دقيق |
| التحرير مع الحفاظ على الصورة | لا | لا | نعم | نعم |
| رموز المخرجات لكل مليون | — | $40 | $32 | $30 |
القيود الحالية
- عدم دعم الخلفية الشفافة: يُعيد استخدام background: transparent مع gpt-image-2 خطأً، مما يحول دون توليد أصول مقطوعة بدون معالجة لاحقة.
- حد المعرفة ديسمبر 2025: لا يستطيع النموذج توليد مرئيات مرتبطة بأحداث أو منتجات أو شخصيات عامة ظهرت بعد هذا التاريخ بدقة. يمكن لوضع Thinking التعويض من خلال البحث الآني على الويب، لكن قاعدة المعرفة البصرية الأساسية تقف عند ديسمبر 2025.
- وضع Thinking للمستخدمين المدفوعين فقط: تتطلب الميزات الأقوى —التوليد الدفعي للصور المتعددة مع الاستمرارية، والبحث على الويب، والتحقق الذاتي— اشتراكاً في ChatGPT Plus (20 دولار/شهر) أو أعلى.
- لا وصول API للحسابات المجانية: عبر API، لا تملك الحسابات المجانية وصولاً إلى النموذج. يبدأ المستوى الأول بـ5 صور في الدقيقة.
- التوليد عالي الجودة أبطأ: قد تستغرق الطلبات المعقدة في وضع Thinking عدة دقائق. هذه مقايضة مقصودة لصالح الدقة، وليست عيباً تقنياً.
يُعدّ قيد الخلفية الشفافة الأكثر تأثيراً على سير عمل التصميم والتجارة الإلكترونية. تصوير المنتجات على خلفية بيضاء، وتوليد الشعارات، وإنشاء ملصقات الأصول تتطلب كلها صور PNG شفافة — حالياً تدعم هذا التنسيق GPT Image 1 و1.5 وGPT Image 1 Mini فقط. لم تُعلن OpenAI عن جدول زمني لإضافة دعم الخلفية الشفافة إلى gpt-image-2.
الأمان وسياسة المحتوى
يحتفظ GPT Image 2 ببنية الأمان الخاصة بـGPT Image 1، بما في ذلك الضمانات المعيارية ضد توليد الصور الضارة، وبيانات C2PA (تحالف استناد المحتوى وأصالته) الوصفية المضمَّنة إلزامياً في جميع المخرجات. تتيح بيانات C2PA الوصفية التحقق آلياً من أن مخرجات GPT Image 2 محتوى مولَّد بالذكاء الاصطناعي، مما يُعدّ مهماً للمنصات التي تُطبّق متطلبات الإفصاح عن محتوى الذكاء الاصطناعي.
يستطيع المطورون الذين يصلون إلى النموذج عبر API التحكم في حساسية الإشراف من خلال المعامل `moderation`: يُطبّق `auto` الفلترة المعيارية، بينما يُقلل `low` من الفلترة للتطبيقات الأقل تقييداً. بشكل افتراضي، لا تستخدم OpenAI بيانات API العملاء للتدريب.
الخلاصة
يُمثّل GPT Image 2 تقدماً جيلياً لمنصة توليد الصور من OpenAI. إنه ليس DALL-E أسرع — بل هو نموذج يفكر قبل الرسم، ويتحقق من مخرجاته ذاتياً، ويبحث على الويب حين تقتضي الدقة ذلك، وبإمكانه توليد قصة مصورة من ثماني صور بشخصيات متسقة من طلب واحد.
بالنسبة لفرق الإنتاج، الميزات الثورية هي: عرض النصوص الذي لم يعد يحتاج تصحيحاً يدوياً، والدقة الأصلية 2K التي تُلغي التحجيم الخارجي، والتوليد الدفعي للصور المتعددة مع الاستمرارية. بالنسبة للمستخدمين العاديين، يجعل تحسين الجودة في وضع Instant وحده منه أقوى إصدار لتوليد الصور في ChatGPT.
| الخاصية | القيمة |
|---|---|
| الاسم الرسمي | ChatGPT Images 2.0 / gpt-image-2 |
| تاريخ الإطلاق | 21 أبريل 2026 |
| أبرز ميزة جديدة | التفكير الأصلي (وضع Thinking) |
| الدقة القصوى | 2K (2048 بكسل) |
| الحد الأقصى للصور لكل طلب | 8 (في وضع Thinking) |
| أفضل عرض للنصوص | اللاتينية، وCJK، والهندية، والبنغالية، والعربية |
| الخلفية الشفافة | غير مدعومة |
| حد المعرفة | ديسمبر 2025 |