تصديق متقاطع
هذه المقالة بحاجة إلى إعادة كتابة باستخدام التنسيق العام لويكيبيديا، مثل استخدام صيغ الويكي، وإضافة روابط. الرجاء إعادة صياغة المقالة بشكل يتماشى مع دليل تنسيق المقالات. بإمكانك إزالة هذه الرسالة بعد عمل التعديلات اللازمة. وسمت هذا المقالة منذ: يناير 2008 |
هي تقنية لتقدير مدى أداء نموذج معين لعينه من البيانات بالنسبة للبيانات المستقبلية، وذلك عن طريق تقسيم البيانات لمجموعتين: مجموعة التدريب (training set) حيث يتم عليها التطبيق، ومجموعة الاختبار (testing set) حيث يتم حساب نسبة الخطأ الناتج عليها.
تستخدم Cross-Validation عادة في الإحصاء لعمل ارتداد (Regression) لمجوعه من البيانات، وفي عملية اختيار أفضل نموذج لحل مشكله معينه (Model Selection)، وفي التصنيف (Classification)، وفي اختيار السمات (Feature Selection)
الارتداد (Regression)
هي طريقه احصائيه لفحص علاقة متغير اعتمادي بمتغيرات مستقله معينه، أحد تطبيقاتها يكمن في استخدام عدد قليل من العينات للتنبؤ بسلوك كمية كبيرة من العينات. لنفرض ان لدنيا العينات أو النقاط التالية : (كما في الشكل)
هذه البيانات تتبع لاقتران معين ق(س) غير معروف، يمكننا تقريب شكل الاقتران وذلك للتنبؤ بسلوك الاقتران، من خلال طرق الارتداد التاليه:
الارتداد الخطي (Linear Regression) ويتم باستخدام اقتران خطي للتنبؤ بسلوك الاقتران الأصلي
الارتداد التربيعي (Quadratic Regression) يتم باستخدام معادلة تربيعية
توصيل جميع النقاط (Piecewise Liner Regression) عن طريق توصيل النقاط ببعضها البعض كما في الشكل
لمعرفة اي من الطرق الثلاث السابقة هي الأفضل في هذه الحاله، نلجأ إلى تطبيق أحد طرق ال Cross-Validation الثلاث كما يلي
الطريقة الأولى : اختبار المجموعة (Test Set)
هذه الطريقة تقوم على اختيار 30% كعينة عشوائية من النقاط للاختبار وباقي العينات تستخدم في عملية التدريب
نطبق طريقة الارتداد على عينات التدريب :
نفحص مدى مطابقة الاقتران بناءا على مجموعة عينات الاختبار ونحسب مربع متوسط الخطأ (متوسط مربع الخطأ = 2.4)
متوسط مربع الخطأ = 0.9
متوسط مربع الخطأ = 2.2
محاسن هذه الطريقة :بسيطة جدا مأخذ هذه الطريقة :ضياع البيانات لاننا نستخدم 30% من العينات للاختبار
الطريقة الثانية : ترك عينة واحدة
نحذف عينه عشوائيه مؤقتا، ونستخدم باقي العينات في التدريب
حساب الخطا يعتمد على النقطة المحذوفة وسيتم حساب الخطا بالنسبة لجميع العينات المستخدمة في التدريب بعد الانتهاء من جميع النقاط (مربع متوسط الخطأ = 2.12)
وبالنسبة للارتداد التربيعي (مربع متوسط الخطأ = 9.62)
وبالنسبة لتوصيل جميع النقاط (مربع متوسط الخطأ = 3.33) ملف:Cv15.PNG
محاسن هذه الطريقة : عدم ضياع البيانات ماخذ الطريقة : مكلفة في عملية التنفيذ
الطريقة الثالثة : اخذ "ك" من الاقسام
قسم العينات إلى ك اقسام، قيمة ك تعتمد على عدد البيانات. في العاده يتم اخذ ك == 10 (في هذا المثال ك == 3)
بالنسبة لنقاط الحمراء : نستخدم العينات غير الحمراء للتدريب
نحسب مجموعة الاخطاء بالنسبة للعينات الحمراء.
نعيد هذه العملية على النقاط الخضراء والزرقاء ثم حسب متوسط مربع الخطأ للاجزاء الثلاثه (مربع متوسط الخطأ = 2.05)
نكرر العمليه على الطريقتين الاخريين للارتداد التربيعي (مربع متوسط الخطأ = 1.11)
توصيل جميع النقاط (مربع متوسط الخطأ = 2.93)
محاسن الطريقة : أفضل من طريقة اختبار المجموعة ماخذ الطريقة : نخسر (ك/عدد البيانات الكلي)% من البيانات مكلفة بـ "ك" ضعف من طريقة الاختبار
تصنيف البيانات (Classification)
لتصنيف البيانات إلى عدة اقسام (نسبة إلى عوامل مشتركه بينها)حيث يتم استخدام الطرق الثلاث سابقة الذكر، ولكن بدلا من حساب الخطأ، يتم حساب عدد البيانات غير المصنفه.
اختيار النموذج (Model Selection)
يتم تدريب النماذج باستخدام طريق معينه، وحساب الخطا، ثم يتم اختيار النموذج بناء على اقل خطأ. مثلا في مشكلة k-nearest neighbor يتم اختيار القيمه المناسبه ل k عن طريق تطبيق طريقة ترك عينه واحده لعدد معين من النماذج (حيث تختلف قيمة k في كل مره)، وحساب قيمة الخطا (متوسط مربع الخطأ) ويتم اختيار k بناء على النوذج ذو الخطأ الاقل.