معالج آي بي إم بلوجين (إل - بي)



نوع الآلة RISC-based distributed-memory multi-processor
النموذج (الموديل) IBM BlueGene/L&P
نظام التشغيل Linux
Connectionstructure(هيكل الاتصال) 3D Torus, Tree network
المترجم XL Fortran (Fortran 90),C++,XL C
سنة البداية 2004 for BlueGene/L, 2007 for BlueGene/P

مقارنة بين النوعين :

BlueGene/P BlueGene/L Model
850 MHz 700 MHz Clock cycle
Theor. peak performance
3.4 Gflop/s 2.8 Gflop/s (Per Proc. (64-bits
1.5/3 Pflop/s 367/183.5 Tflop/s Maximal
Main memory
≤ 2 GB ≤ 512 MB Memory/card
≤ 442 TB ≤ 16 TB Memory/maximal
≤ 4×221,184 ≤ 2×65,536 No. of processors
Communication bandwidth
350 MB/s 175 MB/s (Point-to-point (3-D Torus
700 MB/s 350 MB/s (Point-to-point (Tree network

The BlueGene/L :

كان في الجيل الأول من الأنظمة التي صنعت بواسطة شركة IBM من أجل الحوسبة المتوازية الواسعة، أصبحت سرعة المعالج تتداول من أجل عمليات التطريد الكثيفة وبسبب الطاقة المنخفضة للمعالج

مواصفاته :

يتشارك اثنان من هذه المعالجات موجودان على رقاقة معاًَ 4MB من L3 من ذاكرة cacheو 2KB من L2 من cache لكل من المعالجين، وتملك هذه المعالجات منفذين لتحميل ومنفذ واحد لتخزين من وإلى ذاكرة L2 caches وهذه المنافذ ذات 8bytes/cycle وهي نصف عرض الحزمة المطلوبة من وحدتي الفاصلة العائمة وتعد عالية جداً. وحدات المعالجة المركزية CPUs تمتلك 32KB من ذاكرة التعليمات وذاكرة المعطيات على كرت (لوحة). ملاحظة: تعد ذاكرة cache L2 أصغر من ذاكرة cache L1 والتي تتميز بأداء عالي لكن تلك تسمح بالوصول الأسرع.

عملية الطرود في النظام :

رقاقتين على كرت حاسوب وبذاكرة ذات سعة 512MB. 16 من هذه الكروت تقع على لوح العقدة الذي يدير 32 تذهب لنفس الحجرة من الذاكرة، لذا حجرة واحدة من الذاكرة تحتوي 1024 رقاقة بمعنى آخر 2048 CPUs. لذلك التشكيل الأعظم هو 64 حجرة عبارة عن أزواج لتشكيل نظام بـ(65,356 chips/130,712 CPUs). في وضع النظام الطبيعي واحد من هذه CPUs يكون مشغول بعملية الحساب computation بينما يكون الباقي مشغول بعمليات تبادل المعطيات، في هذا الوضع يكون كفاءة الذروة النظري في النظام 183.5 Tflop/s. وهو في كل الأحوال ممكن لأن متطلبات التبادل تكون منخفضة لاستعمال كلا CPUs للحساب computation. الـ 360 هي السرعة التي تستعملها IBM في مادة التسويق.

شبكات BlueGene/L :

لا تكون أقل من 5 شبكات، 2 من بينها يستفاد منها في معالجات الاتصال : وهي 3-D torus network and a tree network يستعمل torus network في نمط العام لتبادل المعطيات بينما يستعمل tree network في نمط تبادل المعطيات الجماعية مثل البث الإذاعي وعمليات التخفيض reduction operations.... الخ عرض حزمة العتاد في tree network مرتين ضعف عرضها في torus network : 350 MB/s against 175 MB/s per link

The BlueGene/P :

في الآونة الأخيرة في الجيل الثاني من أنظمة BlueGene تم إعلان The BlueGene/P النظام الأول الذي كان من المتوقع نزوله في هذا العام (2007)، إن الهندسة الشكلية لهذا المعالج تشبه لحد بعيد النموذج L فيما كل شي في النظام أسرع وأكبر. الرقاقة هي عبارة عن بديل عن PowerPC 450 family والتي سوف تعمل بتردد 850 MHz، بالمثل أربع تعليمات فاصلة عائمة يمكن أن تنفذ في الدورة، وتكون كفاءة الذروة النظرية 3.4 Gflop/s، أربع نوى لهذه المعالجات يمكن أن توضع على رقاقة (أي أكثر باثنين من النموذج L) الذاكرة cache L3 زاد حجمها من 4 وحتى 8 MB والذاكرة في الرقاقة تضاعفت أربع مرات لتصبح 2GB. بالإضافة عرض الحزمة في النموذج P قد تضاعف وأصبح 13.6 GB/s. بخلاف رقاقة dual-core BlueGene/L فإن رقاقة quad-core model P تستطيع العمل في وضع true SMP mode والذي يجعله عرضة للاستعمال من قبل OpenMP. لوح واحد في النظام يمكن أن يحمل عليه 32 quad-core رقاقة وتكرار 32 من هذا اللوح يمكن أن تجهز في مكان واحد مع 4,096 cores وتكون كفاءة ذروة هذا المكان 13.9 Tflop/s وأن صحافة الـIBM قد حررت بأن العدد الأعظم للـ cores في النظام هو 884,736 في 216 مكان، وتكون كفاءة الذروة النظرية 3 Pflop/s. أكبر عرض للحزمة في شبكات الاتصال الأساسية (Tree & Torus) قد ضرب بـ2 بينما فرق الكمون قد أصبح النصف. مثل النموذج L يعد النموذج P ذو طاقة فعالة : 1024-processor (4096-core) rack تصرف فقط 40 KW

قياس الأداء:

حتى الآن لا يوجد نتائج للـ BlueGene/P تكون فعالة ولكن السرعة 280.6 Tflop/s في HPC Linpack قد تم تسجيلها للنموذج L، حل البرامج الخطية من حجم N = 1,769,471 مع 131,072 processors ليرفع الكفاءة لـ 81%