✅ النقاط الجوهرية
-
Mercury 2 يُحقق إنتاجية تبلغ 1,000 رمز في الثانية، مقارنةً بـ 89 رمزاً لـ Claude 4.5 Haiku و71 رمزاً لـ GPT-5 Mini — أي ما يزيد على عشرة أضعاف السرعة بجودة مماثلة.
-
النموذج سجّل 91.1 على معيار AIME 2025 الرياضي، و73.6 على معيار GPQA العلمي لمستوى الدراسات العليا، ليتموضع ضمن النطاق التنافسي لنماذج الصف الأول مع تكلفة أدنى بكثير.
-
السعر يبلغ 0.25 دولار لكل مليون رمز مُدخل و0.75 دولار للإخراج، أي أقل بنحو 6.5 أضعاف من Claude Haiku 4.5 وأقل بنحو 2.5 ضعف من GPT-5 Mini.
المقدمة
كل نموذج لغوي كبير في الإنتاج اليوم — GPT وClaude وGemini — يعتمد الآلية ذاتها: التوليد الانحداري التلقائي. يُنتج النص تسلسلياً. رمزٌ واحد في كل مرة. هذا القيد المعماري ليس اختياراً، بل حدٌّ هيكلي: السرعة مقيّدة بطبيعة التوليد التسلسلي، وكلما عمّق النموذج استدلاله ازدادت التكلفة وتضخّمت الكُمون.
بينما تضخّ الصناعة مليارات الدولارات في ضغط مكاسب تدريجية من نفس المكدّس الانحداري، اختارت Inception مساراً مختلفاً جذرياً: الانتشار (Diffusion)، الأسلوب التقني ذاته الذي يُشغّل أنظمة توليد الصور والفيديو الحديثة، مُطبَّقاً الآن على اللغة.
النتيجة: اختبارات مستقلة من Artificial Analysis رصدت Mercury 2 عند 1,196 رمزاً في الثانية، أي أسرع بأكثر من ثلاثة أضعاف من النموذج الأسرع التالي في نفس الفئة السعرية. هذا ليس تحسيناً تدريجياً، بل تحوّلٌ معماري يعيد رسم ما يمكن بناؤه.
كيف يعمل Mercury 2؟ الانتشار مقابل الانحدار التلقائي
النموذج الانحداري التقليدي: قيود هيكلية
النماذج اللغوية الكبرى اليوم — GPT-4 وClaude وLlama وGemini — تعتمد البنية الانحدارية. تُولّد النص رمزاً واحداً في كل مرة، إذ يعتمد كل رمز جديد على جميع الرموز السابقة. هذا يُشبه الكتابة على آلة طابعة: كل حرف يلي ما قبله حتماً، ولا يمكن للنموذج مراجعة ما كتبه إلا بعد إتمام الجملة بأكملها.
هذا النهج له سقف منخفض لأن السرعة مقيّدة في نهاية المطاف بالطابع التسلسلي للتوليد، والقيود تزداد سوءاً كلما عمُق الاستدلال، ما يرفع تكاليف الخدمة ويُقلّص الاستجابة.
نموذج الانتشار: تحرير من التسلسل
Mercury 2 لا يُولّد بالتسلسل. يُولّد الاستجابات عبر تنقية متوازية: يُنتج رموزاً متعددة في آنٍ واحد ويتقارب نحو النتيجة عبر عدد محدود من الخطوات. أقل كتابةً على آلة طابعة، وأقرب إلى محررٍ يراجع مسوّدة كاملة دفعةً واحدة.
بدلاً من توليد رمز واحد في كل مرة، يُنتج الإجابة الكاملة دفعةً واحدة ثم يُنقّحها. النتيجة: 1,000 رمز في الثانية على وحدات معالجة NVIDIA Blackwell، ما يعادل عشرة أضعاف إنتاجية Claude 4.5 Haiku وGPT 5.2 Mini بجودة مماثلة.
لأن نماذج الانتشار غير مقيّدة بالنظر في المخرجات السابقة فحسب، فهي أفضل في الاستدلال وتنظيم الاستجابات. ولأنها تستطيع تنقية مخرجاتها باستمرار، يمكنها تصحيح الأخطاء والهلوسات.
أداء Mercury 2: الأرقام كاملةً
على معايير الجودة، سجّل Mercury 2 النتائج التالية: 91.1 على AIME 2025، و73.6 على GPQA، و71.3 على IFBench، و67.3 على LiveCodeBench، و38.4 على SciCode، و52.9 على Tau2.
هذه النتائج تضعه ضمن النطاق التنافسي لـ Claude 4.5 Haiku وGPT 5.2 Mini على الجودة، مع تحقيق إنتاجية أعلى بعشرة أضعاف تقريباً.
وفقاً لـ Artificial Analysis، يُحقق Mercury 2 درجة 33 على مؤشر الذكاء، متجاوزاً المتوسط بشكل واضح بين نماذج الاستدلال في شريحته السعرية (وسيط: 20). يدعم النموذج نافذة سياق تبلغ 128,000 رمز، واستخدام الأدوات، والمخرجات المهيكلة.
حالات الاستخدام: أين يُحدث Mercury 2 فارقاً حقيقياً؟
حلقات الوكلاء (Agent Loops)
في الإنتاج، الذكاء الاصطناعي لم يعد مجرد موجّه وإجابة. إنه حلقات: وكلاء وخطوط استرجاع ووظائف استخراج تعمل في الخلفية بحجم ضخم. في الحلقات، لا يظهر التأخر مرةً واحدة — يتراكم في كل خطوة وكل مستخدم وكل إعادة محاولة.
في حلقات الوكلاء، يتضاعف التأخر في كل خطوة. نموذج أسرع عشر مرات لا يوفّر الوقت فحسب — بل يُغيّر ما يمكن بناؤه: مساعدون صوتيون يبدون طبيعيين، ووكلاء برمجيون يواكبون تفكيرك، وأتمتة خلفية تنتهي فعلاً قبل أن تنسى أنك بدأتها.
المساعدون الصوتيون في الوقت الفعلي
الواجهات الصوتية تمتلك أضيق ميزانية كُمون في الذكاء الاصطناعي. Mercury 2 يجعل جودة مستوى الاستدلال ممكنةً ضمن إيقاعات الكلام الطبيعي. هذه المعادلة كانت مستحيلة مع النماذج الانحدارية: الجودة الكافية للمحادثة الصوتية كانت تستلزم نماذج أبطأ مما تتحمله أي محادثة فعلية.
البحث والاسترجاع
الاسترجاع متعدد القفزات وإعادة الترتيب وكُمون التلخيص يتراكم بسرعة. Mercury 2 يُتيح إضافة الاستدلال إلى حلقة البحث دون استنزاف ميزانية الكُمون.
جدول المقارنة الشاملة
| المعيار | Mercury 2 | Claude 4.5 Haiku | GPT-5 Mini | النتيجة |
|---|---|---|---|---|
| السرعة (رمز/ثانية) | ~1,000–1,196 | ~89 | ~71–73 | Mercury 2 يتفوق بأكثر من 10× |
| AIME 2025 | 91.1 | منافس | منافس | متقارب |
| GPQA | 73.6 | منافس | منافس | متقارب |
| سعر الإدخال ($/مليون) | $0.25 | $1.00+ | $0.30+ | Mercury 2 الأرخص |
| سعر الإخراج ($/مليون) | $0.75 | $5.00+ | $1.20+ | Mercury 2 الأرخص |
| نافذة السياق | 128K | 200K | 128K | Claude يتفوق |
| البنية | انتشار (Diffusion) | انحدار تلقائي | انحدار تلقائي | Mercury 2 مختلف معمارياً |
| الاستخدام الأمثل | وكلاء، صوت، بحث | استدلال عميق | مهام متوازنة | حسب حالة الاستخدام |
| من يتجنبه | من يحتاج أطول سياق | من يحتاج سرعة فائقة | من يحتاج تكلفة متدنية جداً | — |
القيود الفعلية: ما لا تقوله الإعلانات
ثلاثة حدود موثّقة يجب أخذها بعين الاعتبار قبل التبني:
-
سقف الذكاء: Mercury 2 لا يسعى لإزاحة العمالقة الحدّية كـ GPT-5.2 أو Claude Opus. إنه نموذج صغير وسريع في حدود سعرية محددة، وليس بديلاً عن نماذج الاستدلال العميق للمهام الأكثر تعقيداً.
-
حداثة النموذج: صدر Mercury 2 في 20 فبراير 2026، ما يعني أن بيانات الأداء التشغيلي الفعلي على نطاق واسع لا تزال في مراحلها الأولى.
-
التوافق المعماري: Mercury 2 متوافق مع OpenAI API ويمكن دمجه في البنى التحتية الحالية دون إعادة كتابة، لكن خصائص الانتشار تستلزم فهم سلوك التوليد المختلف عند بناء تطبيقات متخصصة.
من وراء Mercury 2؟
Inception تأسست على يد باحثين من Stanford وUCLA وCornell ساهموا في أعمال تأسيسية في نماذج الانتشار وتقنيات أساسية في الذكاء الاصطناعي الإنشائي، تشمل Flash Attention وDecision Transformers وDirect Preference Optimization.
المؤسس Stefano Ermon طوّر هذا النهج بحثياً، وشركته Inception Labs طبّقته الآن تجارياً على نطاق واسع. المستثمر Andrej Karpathy — الباحث السابق في OpenAI وقائد الذكاء الاصطناعي في Tesla — أحد المستثمرين في Inception.
الخلاصة: تحوّل معماري أم مجرد أداء؟
بينما تضخّ صناعة الذكاء الاصطناعي مليارات الدولارات في استخراج مكاسب تدريجية من نماذج التوليد الانحداري رمزاً تلو رمز، فإن التوليد القائم على الانتشار لدى Inception يمثّل الاختراق المعماري الذي يجعل الاستدلال عالي الإنتاجية أمراً طبيعياً في صميم النموذج.
في الأفق القريب — 6 إلى 12 شهراً — السؤال الحقيقي ليس ما إذا كانت المختبرات الكبرى ستُلاحظ هذا التحوّل، بل كيف ستستجيب له. إذا استطاع الانتشار جعل النماذج الصغيرة بهذه السرعة دون التضحية بالاستدلال، فهل ستبني المختبرات الكبرى نسختها الخاصة؟ هذا التساؤل وحده يُعيد تعريف خريطة المنافسة لعام 2026.
المؤسسات التي تُشغّل أنظمة وكلاء أو مساعدين صوتيين أو خطوط استرجاع بحثي لا تستطيع تجاهل نموذج يُقدّم عشرة أضعاف السرعة بنصف التكلفة. التكلفة الحقيقية للتقاعس هنا ليست مالية فحسب، بل تشغيلية: كل ثانية كُمون يُضيفها النموذج البطيء في حلقة وكيل مكوّنة من عشر خطوات تُضاعف تجربة المستخدم سلباً بشكل لا يمكن تعويضه بجودة الاستدلال وحده.
الأسئلة الشائعة
ما الفرق الجوهري بين Mercury 2 والنماذج الانحدارية التقليدية؟
Mercury 2 لا يُولّد بالتسلسل رمزاً تلو الآخر، بل يُنتج مسوّدة كاملة ويُنقّحها بالتوازي عبر خطوات محدودة، ما يُتيح سرعة تتجاوز عشرة أضعاف دون تراجع في الجودة.
هل Mercury 2 مناسب لمهام الاستدلال العميق والمعقد؟
أداؤه تنافسي مع Claude 4.5 Haiku وGPT-5 Mini، لكنه لا يستهدف نماذج الصف الأول كـ Claude Opus أو GPT-5.2 في المهام الأكثر تعقيداً وعمقاً.
كيف أدمج Mercury 2 في تطبيقي الحالي؟
النموذج متوافق مع OpenAI API ويمكن تكامله في البنية التحتية الحالية دون إعادة كتابة الكود.
ما الفئات التي تستفيد أكثر من Mercury 2؟
المساعدون الصوتيون في الوقت الفعلي، وأنظمة البحث الذكي، وحلقات الوكلاء التي تتراكم فيها فترات الكُمون عبر خطوات متعددة هي الأكثر استفادةً من بنيته المعمارية.
هل Mercury 2 متاح للعموم الآن؟
نعم، Mercury 2 متاح الآن عبر Inception API، مع إمكانية التجربة في منصة الدردشة الخاصة بهم.
المصادر
- Inception Labs Official Blog: Introducing Mercury 2 (Feb 24, 2026) Launch announcement: Diffusion-based reasoning LLM; 1,009 tokens/sec on NVIDIA Blackwell; $0.25/M input, $0.75/M output; 128K context; tool use; quality competitive with speed-optimized models (Haiku/Mini). https://www.inceptionlabs.ai/blog/introducing-mercury-2
- Inception Labs Models Page Confirms pricing ($0.25 input / $0.75 output per 1M tokens); features (128K context, tunable reasoning, JSON output); positions as fastest reasoning dLLM. https://www.inceptionlabs.ai/models
- Artificial Analysis: Mercury 2 Model Card & Benchmarks Independent testing: ~1,196 tokens/sec output throughput; 91.1 on AIME 2025, 73.6 on GPQA; compares to Haiku (~89 t/s), GPT-5 Mini (~71 t/s); intelligence index 33 (above median). https://artificialanalysis.ai/models/mercury-2
- BusinessWire / Morningstar: Inception Launches Mercury 2 (Feb 24, 2026) 5x faster than leading speed-optimized LLMs; 1,000 tokens/sec; quality on par with Claude 4.5 Haiku/GPT-5 Mini; diffusion for parallel generation; pricing $0.25/$0.75. https://www.businesswire.com/news/home/20260224034496/en/Inception-Launches-Mercury-2-the-Fastest-Reasoning-LLM-5x-Faster-Than-Leading-Speed-Optimized-LLMs-with-Dramatically-Lower-Inference-Cost
- The Neuron Daily: Mercury 2 – 10x Faster Than ChatGPT & Claude (Feb 24, 2026) 1,000 tokens/sec on Blackwell; ~10x throughput vs Claude 4.5 Haiku/GPT-5 Mini; pricing $0.25 input/$0.75 output; diffusion for speed/efficiency. https://www.theneurondaily.com/p/mercury-2-ai-that-s-10x-faster-than-chatgpt-claude
- The Decoder: Inception Launches Mercury 2 – Diffusion-Based Reasoning Model First production reasoning dLLM via diffusion; 1,000+ tokens/sec; competitive quality; addresses autoregressive latency. https://the-decoder.com/inception-launches-mercury-2-the-first-diffusion-based-language-reasoning-model
- eWeek: Need for Speed – Mercury 2 13x Faster Than Claude Haiku 1,196 tokens/sec (Artificial Analysis); over 3x faster than next in price class; 10–13x vs Haiku/Mini; diffusion refines drafts in parallel. https://www.eweek.com/news/mercury-2-diffusion-llm-ai-agents-speed-neuron
- Analytics Vidhya: Mercury 2 – AI That Feels Instant Diffusion for 1,000+ tokens/sec; quality comparable to Haiku/Mini; low cost; reasoning capabilities. https://www.analyticsvidhya.com/blog/2026/02/mercury-2-the-ai-model-that-feels-instant
- Yahoo Finance / BusinessWire Mirror: Mercury 2 Launch 1,000 tokens/sec; 5x faster than speed-optimized LLMs; pricing $0.25/$0.75; diffusion for parallel refinement. https://finance.yahoo.com/news/inception-launches-mercury-2-fastest-160000133.html
- YouTube / The Neuron: Mercury 2 Demo & Benchmarks Video analysis: 1,000+ tokens/sec; ties GPT-5 Mini on AIME 2025 (~91.1); competitive GPQA/LiveCodeBench; agent loops/voice benefits from low latency. https://www.youtube.com/watch?v=quOe8V2n9rU
