Abstract
This paper aims to propose an approach to deal with the problem of Multi-Collinearity between the explanatory variables and outliers in the data by using the method of Principal Component Regression, and then using a robust weighting functions for the objective function has been used to deal with the presence of outliers in the data, and in order to verify the efficiency of the estimators, an experimental study was conducted through the simulation approach, and the methods were also applied to real data collected from the files of Badoush Cement Factory in Nineveh Governorate for the period from (2008-2014) with nine explanatory variables representing the chemical properties of cement and a dependent variable representing the physical properties of cement (hardness).
The data was tested whether it was suffer from multi-collinearity problem and then the least squares using principal components as an explanatory variables and the model was estimated, and it was found that the variables suffer from Multi-Collinearity problem, and the treatment was done by applying principal component regression weighed by robust weights due to the presence of outlying values in the data in addition to the collinearity problem.
Keywords
Main Subjects
Highlights
conclusions
The instability of the behavior of the proposed estimator LSPCRRobBisquare compared to the ordinary least squares method, which excelled in some cases, is due to the fact that the estimation process took place in two stages. The first was to overcome the problem of multi-collinearity by finding the principal components corresponding to the independent variables, and this is in favor of the method of least squares, and the second was to use robust M estimators method, whose robustness is limited to the presence of outliers in the dependent variable, and as a result, the estimators were the ordinary least squares using the principal components as independent variables instead of the original linearly correlated variables.
Full Text
1- المقدمةIntroduction
فی حالة وجود مشکلة تعدد العلاقة الخطیة فی البیانات فإن تحلیل الانحدار الخطی المتعدد یعطی مقدرات غیر موثوقة لمعلمات الانحدار وتباین تلک المعلمات یمکن أن یکون کبیراﹰ الأمر الذی یؤدی بنا إلى استخدام الطرق المتحیزة ومنها طریقة انحدار المکونات الرئیسیة فضلاﹰ عن بعض الحالات التی تنطوی على وجود القیم الشاذة والتی من الممکن معالجتها بإستخدام أوزان حصینة لکی تتم السیطرة على تأثیر تلک القیم على معلمات النموذج المقدر.
وتعتبر طریقة المکونات الرئیسیة أسلوب فعال فی التعامل مع مشکلة التداخل الخطی بین المتغیرات التفسیریة ومعالجتها، وذلک لان المکونات الرئیسیة دائماﹰ ما تکون متعامدة (مستقلة)، کما أن المکونات الرئیسیة قامت بدورها فی اختزال عدد المتغیرات التفسیریة وهناک عدة اختبارات ومعاییر معروفة تستخدم للکشف عن وجود مشکلة التداخل الخطی بین المتغیرات التفسیریة. ویجمع الاسلوب الکلاسیکی بین تحلیل المکونات الرئیسیة (PCA Principal Component Analysis) مع انحدار المربعات الصغرى. ومع ذلک، تعطی کلتا المرحلتین نتائج غیر موثوقة عندما تحتوی مجموعة البیانات على قیم شاذة. ولذلک تم فی هذا البحث اقتراح استخدام طریقة انحدار المکونات الرئیسیة الحصینة والتی تتم على مرحلتین، یتم فی الأولى تطبیق طریقة تحلیل المکونات الرئیسیة الاعتیادیة على البیانات، ثم نقوم بإعادة تطبیق انحدار المکونات بإستخدام طریقة انحدار حصینة (Huber & Verboven,2003)( .(Huber & Verboven, 2003
2- هدف البحث
یهدف هذا البحث إلى تناول مشکلتین فی نماذج الانحدار الأولى هی وجود مشکلة تعدد العلاقة الخطیة بین المتغیرات المستقلة والثانیة مشکلة وجود الشواذ فی البیانات سواءاً کانت فی المتغیر المعتمد أو فی المتغیرات المستقلة ، وعلیه هدف البحث إلى ایجاد طریقة تتعامل مع المشکلتین فی آنٍ واحد بحیث تقلل من تأثیر القیم الشاذة على النموذج وکذلک تزیل تأثیر مشکلة تعدد العلاقة الخطیة ، وعلیه تم اللجوء إلى استخدام انحدار المکونات الرئیسیة الذی یتم فیه تحویل المتغیرات إلى مرکبات أو مکونات رئیسیة لاتعانی من مشکلة تعدد العلاقة الخطیة وتکون مستقلة ثم استخدام أوزان حصینة لوزن النموذج واستخدام طریقة المربعات الصغرى الموزونة بمتغیرات هی عبارة عن المرکبات أو المکونات الرئیسیة للمتغیرات المستقلة وفی النهایة الوصول إلى نموذج نحصل من خلاله على مقدرات کفوءة تمتلک خاصیتی الکفاءة والحصانة.
3- الجانب النظری
1-3 طریقة انحدار المکونات الرئیسیة Principal Components Regression Method
تم اقتراح انحدار المکونات الرئیسیة لأول مرة بواسطة Kendall,1957)). حیث تم استخدام نتائج تحلیل المکونات الرئیسیة التی یتم إجراؤها على مقدرات نموذج الانحدار واستخدام المرکبات الناتجة کمتغیرات جدیدة . وبهذه الطریقة تکون المتغیرات المستقلة متعامدة وتضمن أن الحسابات أسهل وأکثر استقراراً (Jolliffe,1982). ویتم اللجوء إلى استخدام PCA فی الانحدار الخطی لخدمة هدفین أساسیین. یتم تنفیذ الأول على مجموعات البیانات حیث یکون عدد المتغیرات المستقلة کبیراً وترتبط مع بعضها. لقد کانت طریقة انحدار المکونات الرئیسیة اسلوباً لتقلیل الأبعاد جنباً إلى جنب مع انحدار المربعات الصغرى الجزئیة. أما الهدف الثانی من (PCR) فهو التخلص من تعدد العلاقة الخطیة المتداخلة بین المتغیرات. ونظراً لأن کل مکون رئیسی هو متعامد، فقد تم استخدام PCR لمنع الأخطاء التی تتسبب بها المشکلة بین المتغیرات المستقلة المفترضة فی الانحدار وعندما یتعلق الأمر باختیار عدد المکونات الرئیسیة المناسبة، فإن الباحثین لم یجمعوا على رأی واحد واقترحوا عدة أسالیب ومنها اختیار أفضل المکونات الرئیسیة کما لو کانت متغیرات منتظمة. وبین باحثون آخرون أنه من الأفضل اختیار أول عدد محدد من المکونات الرئیسیة التی تفسر أعلى التباین (Hadi&Ling,1998). وهذا یؤدی إلى رفض بعض المکونات الرئیسیة التی تکون مساهمتها فی تفسیر التباین منخفضة ومع ذلک ، فقد تم انتقاد هذا النهج حیث یمکن للمکونات الرئیسیة المرفوضة أن تکون فی الواقع هی تلک التی ترتبط بالمتغیر التابع وذلک إثر وجود مشکلة تعدد العلاقة الخطیة مع مشکلة أخرى کوجود قیم شاذة فی البیانات (Outliers) والتی تحرف النموذج عن مساره الطبیعی وهذا هو محور اهتمام هذا البحث.
تعتمد طریقة تحلیل المکونات الرئیسیة اسلوب تحویل المتغیرات التوضیحیة الأصلیة الى متغیرات جدیدة تسمى " بالمکونات أو المرکبات الرئیسیة". حیث ان کل مکون (مرکب) رئیسی هو عبارة عن ترکیبة خطیة فی المتغیرات التفسیریة الأصلیة.
ویتم تحویل المتغیرات التفسیریة الى المکونات الرئیسیة بالشکل الآتی:
…(1)
حیث أن :
a: عبارة عن مصفوفة المتجهات الممیزة المرافقة لمصفوفة الارتباط بین المتغیرات التوضیحیة، فإذا عوضنا عنXa بکمیة ثابتة (pc) والتی تمثل مصفوفة ذات بعد (n×p) أعمدتها عبارة عن معاملات انحدار النموذج المحور فإن النموذج الناتج یأخذ الشکل الآتی:
*= * *+ … (2)
وعند تطبیق اسلوب المکونات الرئیسیة یفضل تحویل المتغیرات الى متغیرات قیاسیة اذا کان هناک اختلاف فی وحدات القیاس ،حیث أن:
…(3)
حیث أن: : یمثل الوسط الحسابی للمتغیر
: یمثل الإنحراف المعیاری
ویعود تاریخ استخدام طریقة انحدار المکونات الرئیسیة إلى أعمال کل من Beltrami فی عام 1873 وJordan فی عام 1874 حیث قاما بشکل منفصل بوضع ما یسمى بــــ Singular Value Decompostiton (SVD) مما مهد إلى تعریف تحلیل المکونات الرئیسیة PCA من قبل کل منPearson فی عام 1901 و Hotelling فی عام 1933.
تعتبر طریقة المکونات الرئیسیة واحدة من النماذج الخطیة المتحیزة الواسعة الاستخدام لتخطی مشکلة تعدد العلاقة الخطیة التی کثیراً ما یعانی منها نموذج الانحدار الخطی المتعدد . وتقوم طریقة انحدار المکونات (المرکبات) الرئیسیة على تحویل المتغیرات التفسیریة الأصلیة المرتبطة دون حذف أی منها الى متغیرات جدیدة متعامدة (أی مستقلة) تسمى بالمکونات الرئیسیة ، وکل مرکب رئیسی عبارة عن ترکیب خطی فی المتغیرات التفسیریة الأصلیة(مستور وعبد الرحیم،2016). تقدم المکونات الرئیسیة قدر کبیر من المعلومات عن مشاهدات المتغیرات الأصلیة مثل أنماط تجمعاتها وعلاقتها بالمتغیرات الأصلیة ،وتقدم ایضاً معلومات عن الارتباطات بین المتغیرات الجدیدة والقدیمة والمجموعات أو التصنیفات التی تحتویها البیانات أو المتغیرات. وعادةً یتم ترتیب المکونات الرئیسیة وفقاً لمقدار التباین بحیث تکون المرکبة الأولى هی المرکبة ذات التباین الأکبر، ومن ثم یتم اعتماد عدد قلیل من المکونات التی یتوقع أن تفسر أکبر قدر ممکن من التباین ، ویتم اهمال المکونات ذات التأثیر الأقل. وتعتبر عملیة ایجاد المکونات الرئیسیة خطوة مهمة لإزالة أثر التعدد الخطی تمهیداً لاستخدام طریقة المربعات الصغرى الاعتیادیة لتقدیر معالم نموذج الانحدار الخطی الأصلیة للمتغیرات التفسیریة (جبریل،2014). فإذا کانت (X1,X2,…,Xp) متغیرات تفسیریة ، فیمکن تعریف تولیفة متعامدة منها وفقاً للمعادلة (4) التی تناظر المعادلة(1).
Z = XA … (4)
حیث تمثل Z مصفوفة المکونات الرئیسیة من الرتبة (n×p)، بینما مصفوفة A فهی عبارة عن مصفوفة متعامدة للمتجهات الممیزة المعیاریة المناظرة للجذور الممیزة لمصفوفة معلومات النظام ( ) ورتبتها (p×p)، عناصرها aij وأعمدتها Aj وهی تجعل المصفوفة ( ) مصفوفة قطریة ، وباعتبار λ1 λ2 … λp قیم ممیزة للمصفوفة ( ) فإن المتغیر Zj یتوزع بمتوسط یساوی الصفر وتباین λj.
وللتعبیر عن Y کدالة فی المکونات الرئیسیة بدلا̋ من المتغیرات المستقلة (X1,X2,…,Xp) المرتبطة فیما بینها ، وبما أن A مصفوفة متعامدة حیثI = فیمکن اعتبار X=Z بالنسبة الى معادلة نموذج الانحدار +Y=X فنحصل على نموذج الانحدار وفقا̋ للمعادلة التالیة:
Y=Z … (5)
وعلى افتراض أن فتصبح المعادلة لنموذج الانحدار وفقاً للمعادلة التالیة:
Y=Z … (6)
حیث تمثل متجه المعلمات ( المناظرة للمرکبات الرئیسیة (Z1,Z2,…,ZP) التی یمکن تقدیرها باستخدام طریقة المربعات الصغرى الاعتیادیة وفقاً للمعادلة التالیة:
… (7)
والمصفوفة ⋀ تعتبر مصفوفة قطریة من الرتبة (p×p) عناصرها عبارة عن الجذور الممیزة للمصفوفة ( ). والتوقع لهذه المعلمات هو = وتباینها Var( ، علیه یمکن القول إن متجه المعلمات له توزیع طبیعی بمتوسط وتباین . وبالتالی فإن تباین أی معلمة ضمن متجه المعلمات یحسب وفقاً للصیغة:
Var ( … (8)
مع الأخذ فی الاعتبار أن / i= ، ویتم التنبؤ بقیمة المتغیر التابع Y وفقاً للمعادلة (9):
j … (9)
ویکون التباین المخفض لتوفیق نموذج الانحدار باستخدام المرکب الرئیسی Zjیساوی المقدار λj ، علیه فإن نسبة التباین المفسر فی قیم متغیر الاستجابة Y بواسطة المرکب الرئیسی Zjهی:
̸ )*100 ...(10)
وتساوی هذه النسبة مربع معامل ارتباط متغیر الاستجابة والمرکب الرئیسی Zj مع ضرب الناتج فی مائة . وبناءاً علیه یکون مربع الخطأ لمعادلة الانحدار المقدرة هو:
MSE = … (11)
وللحصول على معلمات المتغیرات التفسیریة الأصلیة لنموذج الانحدار، یستفاد من العلاقة بین المعلمات الأصلیة ومعلمات نموذج الانحدار الخاصة بانحدار المتغیرY على المکونات الرئیسیة Z وفقاً لما یلی:
اذا کان
= … (12)
و
= I … (13)
فإن
= A … (14)
وبما أن المعلمات تتوزع طبیعیا̋ بمتوسط A . فإن القیمة المتوقعة للمعلمة تحسب وفقاً لما یلی:
Ε( i) = …(15)
وبما أن المعلمات لها التباین . فإن تباین المعلمة یحسب وفقاً للمعادلة التالیة:
Var( i) = …(16)
وعند استخدام الجذور الممیزة لمصفوفة معاملات الارتباط بدلاً من مصفوفة التباین والتغایر کمدخلات فی تحلیل انحدار المکونات الرئیسیة فإنه یجب استخدام n بدلاً من . وتوضح العلاقة أن تباین معلمات نموذج الانحدار المقدرة ایضا̋ تعتمد على الجذور الممیزة للمصفوفة ( ) وبناءاً على ذلک فهی تتأثر بوجود الجذور الممیزة الصغیرة التی ینتج عنها تضخم التباینات. ووفقاً لتعریف المکونات الرئیسیة فإن الجذور الممیزة الصغیرة التی تسهم فی تضخیم تباین معلمات نموذج الانحدار دائماً تقابل المکونات الرئیسیة الأخیرة للمصفوفة ( )،علیه یتطلب تخفیض التباین الکلی للمعلمات ، واستبعاد المکونات الرئیسیة المقابلة لأصغر الجذور الممیزة للمصفوفة ( ).
اقترح بعض الباحثین أمثال Chatterjee&Price,Jolliffee,Jeffers (جبریل،2014) أن یتم استبعاد المکونات الرئیسیة التی تقابل الجذور الممیزة التی تقل عن 70%. کما اقترح Morrison اختیار المکونات الرئیسیة التی تفسر على الأقل 75% من التباین فی قیم متغیر الاستجابة. وهذه النسبة یمکن الحصول علیها بقسمة مجموع الجذور الممیزة المقابلة لــ K من المکونات الرئیسیة على مجموع الجذور الممیزة عند استخدام مصفوفة التباینات والتغایرات للمتغیرات التفسیریة کمدخلات لتحلیل المکونات الرئیسیة وفقاً لـــــــــ:
( … (17)
اما عند استخدام مصفوفة معاملات الارتباط کمدخلات لتحلیل المکونات الرئیسیة فعندئذٍ یتم استخدام عدد المتغیرات التفسیریة P بدلاً من مجموع الجذور الممیزة. ویتم بناء نموذج الانحدار لمتغیر الاستجابة Y على المکونات الرئیسیة المتبقیة ، بعد استبعاد المرکبات التی لا تحقق المعاییر السابقة . بافتراض أن S من الجذور الممیزة لها قیم کبیرة من بین P من الجذور الممیزة للمصفوفة ( ) ، یکون هناک (P-S) من المکونات الرئیسیة Z، ومن ثم یجری توفیق نموذج انحدار Y على المکونات الرئیسیة المتبقیة وبذلک تکون المعادلة التنبؤیة کما یلی:
s = j … (18)
ویحسب مجموع مربعات الخطأ الخاص بنموذج الانحدار المقدر بعدد S من المکونات الرئیسیة وفقاً لما یلی:
= MSE = … (19)
ولحسن الحظ فإن خاصیة التعامد لمقدرات المربعات الصغرى لــ سوف لن تختلف فی حال استخدام جمیع المکونات الرئیسیة أو مجموعة جزئیة منها، وتأسیساً على ذلک یتم تقدیر معلمات نموذج الانحدار وفقاً لما یلی:
... (20)
حیث أن:
… (21)
ویتم الحصول على متجه المعلمات بتجزئة المصفوفة وفقاً لما یلی:
A=[As : Ap-s] … (22)
حیث أن:
As=[A1,A2,…,As] … (23)
A1= [ … (24)
ومصفوفة المکونات الرئیسیة هی:
Z=[Zs : Zp-s] … (25)
حیث أن:
Zs=[Z1,Z2,…,Zs] …(26)
ومتجه المعلمات هو:
… (27)
وعند الحصول على تقدیر متجه المعلمات یمکن استخدامه فی تقدیر متجه معلمات نموذج الانحدار الأصلی وتحسب وفقاً لما یلی:
= As … (28)
ویمکن الحصول على معلمات الانحدار للمتغیرات التفسیریة باستخدام معلمات الانحدار للمکونات الرئیسیة وفقاً للمعادلة التالیة:
=
وتباین i یقدر وفقاً لما یلی:
Var ( … (30)
ویعتبر المقدر مقدر متحیز ، ویحسب مقدار تحیزه وفقاً لما یلی:
Bias = E ( … (31)
= - … (32)
وبذلک فإن متوسط مربع الخطأ للمقدر یحسب وفقاً لما یلی:
MSE( = var ( + Bias of ( 2 … (33)
= + ( - 2 … (34)
2-3 طریقة مقدرات (M)
قام الباحث (Huber,1973) بتوسیع نتائجه للتقدیر الحصین من معلمة الموقع إلى حالة الانحدار الخطی باستخدام مقدرات M. وقد اکتسبت هذه التقدیرات شهرة أکثر من بقیة المقدرات الحصینة الأخرى لأنها أکثر مرونة وکذلک توفر إمکانیة تعمیمها مباشرة إلى الانحدار المتعدد .
حیث أن طریقة مقدرات (M) تهدف إلى تصغیر المقدار
Min … (35)
Min … (36)
إذ تمثل دالة بدلالة الأخطاء ولتصغیر المعادلة (36) نشتقها جزئیاﹰ بالنسبة للمتجه ومساواتها بالصفر وکما یلی:
… (37)
إذ تمثل المشتقة الجزئیة للدالة ( ) بالنسبة للمعلمات فی المعادلة (37) وتمثل منظومة مکونة من (P) من المعادلات وتحل باستخدام أحدى الطرق العددیة المعروفة أو طریقة المربعات الصغرى الموزونة (Weighted Least Squares Method) ولإیجاد مقدرات M التی تحقق المعادلة (36) وذلک باستخدام الصیغة التالیة:
… (38)
إذ تمثل (W) مصفوفة الأوزان وهی مصفوفة قطریة عناصرها القطریة معطاة بالصیغة الآتیة:
… (39)
… (40)
إذ تمثل القیم الابتدائیة لمتجه معلمات النموذج ویتم استخدامها لتحدید الأوزان ویمکن استخدام مقدرات المربعات الصغرى کقیم ابتدائیة ومن التکرار الأول نجد قیمة وفی التکرار الثانی نستخدم فی إیجاد الأوزان لإیجاد وهکذا تستمر عملیة التکرار حتى نحصل على مقیاس التقارب (Convergence) المعرف بالصیغة الآتیة:-
Max … (41)
إذ تمثل ᵹ قیمة صغیرة جداﹰ و(n) تمثل رقم التکرار أی أن الحل یتوقف عندما یصبح الفرق المطلق بین المعلمات المقدرة فی المرحلة الحالیة والمرحلة السابقة أصغر من القیمة المختارة (ᵹ) أو یساویها ولجعل مقدرات M تمتلک خاصیة (Scale Invariant) فان الدالة المطلوب تصغیرها هی :-
Min … (42)
ثم نشتقها بالنسبة للمتجه ومساواتها بالصفر
=0 … (43)
یمکن حل المعادلة أعلاه باستخدام المعادلة (38) حیث أن الأوزان یتم إیجادها وفق الصیغة الآتیة:-
… (44)
… (45)
ولإیجاد ( ) فی المعادلة اعلاه والتی تمثل قیمة المقدر المعیاری وان هذه القیمة تقدر مرة واحدة فقط باستخدام القیم الأولیة قبل البدء بالتکرار وهناک عدة صیغ لتقدیرها منها:
1)
2)
3)
4)
إذ تمثل ( ) البواقی (Residuals) وmed یشیر إلى الوسیط ولقد اقترح الباحثون عدداﹰ من الدوال أو مشتقاتها Ψ بحیث تجعل نتائج التقدیر جیدة ولا تتأثر بوجود الشواذ وفیما یلی بعض الدوال المهمة لهذا النوع من المقدرات والمعرفة بدلالة الدالة Ψ . وبإفتراض أن وسیط الأخطاء المطلقة (MAD) (Median Absolute Deviation) یأخذ الصیغة الآتیة (الراوی،2017):-
𝑀𝐴𝐷 = 𝑚𝑒𝑑𝑖𝑎𝑛|𝑒𝑖 − 𝑚𝑒𝑑𝑖𝑎𝑛 (𝑒𝑖)| / 0.6745 … (46)
وقد عمد الباحثون (Montgomery, et. Al., 2001) فی هذه الدراسة إلى عرض دوال الوزن الترجیحیة لمقدرات M بأسلوب سهل وبأستخدام رموز سهلة لم یعهد أستخدامها فی أدبیات الإحصاء الحصین لإشاعة إستخدامها من قبل الباحثین فی المستقبل. وبأخذ الصیغة القیاسیة للبواقی (Standardized Residuals) باستخدام المعادلة (47) وکما یلی:
… (47)
وبأفتراض ثابت القطع ((Tunning Constant (c) الذی یجعل التباین المقدر مقدر غیر متحیز تقریباً لـ عندما یکون حجم العینة کبیراً والخطأ یتوزع طبیعیاً (الطالب،2011).
… (48)
حیث أن القیم الأفتراضیة لثوابت القطع (Tuning Constatnts) تکون فی برنامج S-Plus:
وهناک بعض المصادر تفترض قیم أخرى لثوابت القطع (Montgomery, et. Al., 2001) مثل:
… (49)
حیث أن تأخذ القیمة الأفتراضیة
… (50)
حیث أن تأخذ القیمة الأفتراضیة
الشکل (1) یبین الأشکال البیانیةلدوال الوزن المشار إلیها فی أعلاه:
Huber |
Hampel |
Bisquare |
الشکل (1) : التمثیل البیانیلدوال الوزن لمقدرات M المستخدمة
وأخیراﹰ فإن ثابت القطع) (Tunning Constant (C) لکل دالة یستخدم لتعدیل کفاءة المقدرات الناتجة لتوزیعات محددة بکفاءة تقریبیة (95%) عندما تتبع الأخطاء التوزیع الطبیعی ، وان الاختبار الجید لقیمة ثابت القطع یؤدی إلى زیادة حصانة المقدرات لان له تأثیر کبیر على حصانة المقدرات وان قیمته تتراوح مابین انحراف معیاری واحد إلى انحرافین معیاریین لقیم المشاهدات أو الأخطاء أی مثلا (S<H<2S) من ما تقدم بأن ثابت القطع یعدل للحصول على مقدرات جیدة (الراوی،2017).
4- الجانب التجریبی
إن تحلیل المکونات أو المرکبات الرئیسیة هو الأساس فی أسلوب انحدار المکونات الرئیسیة حیث أنه فی تحلیل المکونات الرئیسیة الاعتیادی یتم ایجاد المکونات أو المرکبات ثم ایجاد قیم التحمیلات والجذور الممیزة أما انحدار المکونات الرئیسیة فتکون فیه المتغیرات المستقلة على شکل مکونات رئیسیة نقوم بدراسة تاثیرها على المتغیر المعتمد، وعلیه نحتاج إلى انحدار المکونات الرئیسیة عندما یکون لدینا مشکلة تعدد العلاقة الخطیة بین المتغیرات المستقلة ، وهنالک بعض الحالات یکون فیها المتغیر المعتمد أو المتغیرات المستقلة ملوثة بقیم شاذة فتسبب خفض فی کفاءة النموذج المقدر وعندها تتداخل أهمیة دمج انحدار المکونات الرئیسیة مع الاسالیب الحصینة للحصول على مقدرات کفوءة، وقد تم فی هذا البحث استخدام اوزان حصینة على نموذج مقدر بطریقة المربعات الصغرى متغیراتها المستقلة عبارة عن المکونات الرئیسیة للنموذج الاصلی. لمقارنة کفاءة الطرق تمت تجربة نماذج بثلاثة وخمسة وتسعة متغیرات على التوالی وبأحجام عینات 50 و 100 و 200 مشاهدة على التوالی فی حالة عدم وجود شواذ فی البیانات وایضاً فی حالات وجود 5% أو %6 و%10 و %20 و %30 و %40 شواذ فی البیانات فی المتغیر المعتمد Y وتم تطبیق إنحدار المربعات الصغرى الاعتیادیة بعد تحویل المتغیرات الى المرکبات الرئیسیة ومن ثم تطبیق المربعات الصغرى الموزونة بدوال أوزان من مقدرات M ومنها Huber و Hampel و Bisquare کون هذه المقدرات تکون حصینة ضد الشواذ فی قیم المتغیر المعتمد Y (Y-Outliers). ولکون القیم الجاذبة (X-leverage) أکثر خطورة على النموذج من القیم الشاذة فی المتغیر المعتمد ولهذا فإنه من المتوقع أن وجودها فی مشاهدات المتغیرات المستقلة سیؤثر على قیم حد الخطأ کونها قد تسحب الأنموذج بإتجاهها، وبناءاً على ذلک ولأجل تغطیة کل الإحتمالات قمنا بتجریب تطبیق النماذج المقترحة على بیانات تحتوی على قیم جاذبة کی نتمکن من تمییز الطریقة الأکثر کفاءة مقارنة ببقیة الطرق وذلک فی حالات وجود 5% أو %6 و%10 و %20 و %30 و %40 شواذ فی البیانات فی المتغیرات المستقلة وکما هو مبین من الجداول (4-1). ولأجل المقارنة بین أداء کل طریقة من الطرق المستخدمة فی حالات عدم وجود شواذ وحالتی وجود قیم شاذة فی المتغیرین المعتمد والمتغیرات المستقلة تم إستخدام العدید من معاییر المقارنة الشائعة ومنها الخطأ القیاسی لقیم البواقی Residual standard error، معامل التحدید R-Square، متوسط مربعات الخطأ MSE، جذر متوسط مربعات الخطأ RMSE، وسیط نسبة الأخطاء النسبیة Median Absolute Percentage Error MDAPE، ووسیط الأخطاء المطلقة MADE وهی من المعاییر المعروفة فی مقارنة الکفاءة ودقة التقدیر بین النماذج المختلفة(Memmedli and Ozdemir , 2009) , (Boiroju and Reddy, 2012), (Willmott and Matsuura, 2005), (Sarwar and Sharma, 2014), (Woschnagg and Cipan, 2004), (Makridakis and Hibon, 1995).
جدول (1) : مقارنة کفاءة الطرق لنتائج المحاکاة لثلاثة متغیرات ولعینة بحجم 50
عند وجود 20% شواذ فی المتغیر المعتمد وعینة بحجم n = 50 وثلاثة متغیرات مستقلة m =3 |
||||||
معیار المقارنة
الطریقة |
Residual standard error |
R-Square |
MSE |
RMSE |
MADE |
MDAPE |
Least Squares |
5.3680415 |
0.1382662 |
26.51060 |
5.148845 |
1.2111 |
104.3025 |
LSPCRRobHuber |
1.6737511 |
0.1057055 |
28.38303 |
5.327573 |
0.7146 |
92.8770 |
LSPCRRobHampel |
1.2462578 |
0.1313538 |
29.13013 |
5.397233 |
0.7567 |
97.5486 |
LSPCRRobBisquare |
0.9385016 |
0.2338350 |
28.21225 |
5.311521 |
0.7566 |
99.7569 |
التفسیر |
نلاحظ أنه وبوجود %20 شواذ فی المتغیر المعتمد أن مقدر LSPCRRobBisquare قد حقق أفضل إنجاز تلاه مقدر المربعات الصغرى Least Squares وذلک من خلال اعلى قیمة لمعامل التحدید واقلها لمقاییس الکفاءة |
جدول (2) : مقارنة کفاءة الطرق لنتائج المحاکاة لخمسة متغیرات ولعینة بحجم 100
عند وجود 40% شواذ فی المتغیر المعتمد وعینة بحجم n = 100 وخمسة متغیرات مستقلة m =5 |
||||||
معیار المقارنة
الطریقة |
Residual standard error |
R-Square |
MSE |
RMSE |
MADE |
MDAPE |
Least Squares |
10.7801703 |
0.03307137 |
109.2393 |
10.45176 |
2.0125 |
111.3814 |
LSPCRRobHuber |
2.9113579 |
0.04754012 |
110.2361 |
10.49934 |
1.4140 |
101.9624 |
LSPCRRobHampel |
1.3081563 |
0.11396729 |
111.0857 |
10.53972 |
1.1610 |
100.7380 |
LSPCRRobBisquare |
0.9820237 |
0.24543735 |
110.4490 |
10.50947 |
1.3831 |
100.1905 |
التفسیر |
نلاحظ أنه وبوجود %40 شواذ فی المتغیر المعتمد أن مقدر LSPCRRobBisquareقد حقق أفضل إنجاز تلاه مقدر المربعات الصغرى Least Squares من خلال اعلى قیمة لمعامل التحدید واقلها لمقاییس الکفاءة |
جدول (3) : مقارنة کفاءة الطرق لنتائج المحاکاة لتسعة متغیرات ولعینة بحجم 200
جدول (4) : تفسیر النتائج لکل تجربة المحاکاة التی بلغت 432 محاولة
نسب التلویث N |
0% |
5% or 6% |
10% |
20% |
30% |
40% |
الخلاصة (الغالبیة) |
||||
|
عندما یوجد فی النموذج ثلاثة متغیرات مستقلةm = 3 |
|
|||||||||
Contamination with Outliers and Leverage Points |
Y-outliers |
50 |
لنموذج بثلاثة متغیرات توضیحیة ولکل أحجام العینات وکل نسب التلویث للمتغیر المعتمد وکذلک للنموذج بدون شواذ کانت طریقة المربعات الصغرى الاعتیادیة للمرکبات الرئیسیة والموزونة بدالة Bisquare قد حققت أفضل النتائج مقارنة بالطرق الاخرى |
LSPCRRobBisquare |
|||||||
100 |
|||||||||||
200 |
|||||||||||
X-leverage Points |
50 |
لنموذج بثلاثة متغیرات توضیحیة ولکل أحجام العینات وکل نسب التلویث للمتغیرات المستقلة أن طریقة المربعات الصغرى الاعتیادیة للمرکبات الرئیسیة قد حققت أفضل النتائج مقارنة بالطرق الأخرى وتلیها طریقة المربعات الصغرى الاعتیادیة للمرکبات الرئیسیة والموزونة بدالة Bisquare |
Least Squares |
||||||||
100 |
|||||||||||
200 |
LSPCRRobBisquare |
||||||||||
|
عندما یوجد فی النموذج خمسة متغیرات مستقلة m = 5 |
|
|||||||||
Contamination with Outliers and Leverage Points |
Y-outliers |
50 |
نموذج بخمسة متغیرات توضیحیة ولکل أحجام العینات وکل نسب التلویث للمتغیر المعتمد وکذلک للنموذج بدون شواذ أن طریقة المربعات الصغرى الاعتیادیة للمرکبات الرئیسیة والموزونة بدالة Bisquare قد حققت أفضل النتائج مقارنة بالطرق الاخرى |
LSPCRRobBisquare |
|||||||
100 |
|||||||||||
200 |
|||||||||||
X-leverage Points |
50 |
لنموذج بخمسة متغیرات توضیحیة ولکل أحجام العینات وکل نسب التلویث للمتغیرات المستقلة أن طریقة المربعات الصغرى الاعتیادیة للمرکبات الرئیسیة قد حققت أفضل النتائج مقارنة بالطرق الأخرى وتلیها طریقة المربعات الصغرى الاعتیادیة للمرکبات الرئیسیة والموزونة بدالة Bisquare |
Least Squares |
||||||||
100 |
LSPCRRobBisquare |
||||||||||
200 |
Least Squares |
||||||||||
|
عندما یوجد فی النموذج تسعة متغیرات مستقلة m = 9 |
|
|||||||||
Contamination with Outliers and Leverage Points |
Y-outliers |
50 |
لنموذج بتسعة متغیرات توضیحیة ولکل أحجام العینات وکل نسب التلویث للمتغیر المعتمد وکذلک للنموذج بدون شواذ أن طریقة المربعات الصغرى للمرکبات الرئیسیة والموزونة بدالة Bisquare قد حققت أفضل النتائج مقارنة بالطرق الاخرى |
LSPCRRobBisquare |
|||||||
100 |
|||||||||||
200 |
|||||||||||
X-leverage Points |
50 |
لنموذج بتسعة متغیرات توضیحیة ولکل أحجام العینات وکل نسب التلویث للمتغیرات المستقلة أن طریقة المربعات الصغرى الاعتیادیة للمرکبات الرئیسیة والموزونة بدالة Bisquare قد حققت أفضل النتائج مقارنة بالطرق الأخرى وتلیها طریقة المربعات الصغرى الاعتیادیة للمرکبات الرئیسیة |
LSPCRRobBisquare
|
||||||||
100 |
Least Squares |
||||||||||
200 |
LSPCRRobBisquare |
||||||||||
5- الجانب التطبیقی Application Part
لتطبیق الطرق المقترحة تم جمع بیانات من معمل اسمنت بادوش للفترة من 2008- 2014، مع استبعاد أشهر الصیانة التی توقف المعمل فیها عن الانتاج. یتکون الاسمنت من بعض المواد الأساسیة المتوافرة بصورة طبیعیة من الحجر والرمل والحصى وبعض الإضافات الاخرى أثناء عملیة التصنیع والتی تتضمن مواد تعمل على التغلب على بعض المشاکل الفنیة ومواد لزیادة بیاض الاسمنت. وقد تم تحدید المتغیرات الآتیة :-
X1: تمثل أوکسید المغنیسیوم Mgo، X2: تمثل أوکسید الکالسیوم Cao، X3 : تمثل أوکسید الحدیدیک Fe2o3، X4 : تمثل أوکسید الالمنیوم Al2o3، X5 : تمثل ثنائی أوکسید السیلیکون Sio2، X6: تمثل معامل الإشباع الجیری L.S.F، X7 : تمثل مواد غیر قابلة للذوبان In.R، X8: تمثل الفقدان بالحرق L.O.، X9: تمثل ثالث أوکسید الکبریت Sio3 ، Y: تمثل تمدد الإسمنت Autoclave
1-5 إختبار وجود مشکلة تعدد العلاقة الخطیة
تم فی البدأ التأکد من وجود مشکلة تعدد العلاقة الخطیة بین المتغیرات المستقلة لبیانات معمل السمنت، وتم البدأ بمصفوفة الارتباط ورسوم الانتشار بین المتغیرات المستقلة.
الشکل (3): شکل یمثل مصفوفة الارتباط
نلاحظ من الشکل (3) أعلاه الذی یبین رسم مصفوفة الارتباط أن هنالک علاقة قویة للمتغیر X2(أوکسید الکالسیوم Cao) مع المتغیرین X6(معامل الإشباع الجیری L.S.F) و X8(الفقدان بالحرق L.O.)، وکذلک بینX5 (ثنائی أوکسید السیلیکون Sio2) و X6وربما ینتج عن ذلک حصول مشکلة تعدد العلاقةالخطیة.
جدول (5): المؤشرات العامة لوجود مشکلة تعدد العلاقة الخطیة
|
MC Results |
Detection |
Determinant |X'X|: |
0.0014 |
1 |
Farrar Chi-Square: |
1204.2115 |
1 |
Red Indicator: |
0.3350 |
0 |
Sum of Lambda Inverse: |
82.8835 |
1 |
Theil's Method: |
5.2734 |
1 |
Condition Number: |
1721.5960 |
1 |
1 --> COLLINEARITY is detected
0 --> COLLINEARITY in not detected by the test
Eigenvalues with INTERCEPT
Intercept israa.x1 israa.x2 israa.x3 israa.x4
israa.x5 israa.x6 israa.x7 israa.x8 israa.x9
Eigenvalues: 9.5689 0.3026 0.1056 0.0142 0.0062
0.0013 0.0008 0.0005 0.000 0.000
Condition Indeces: 1.0000 5.6232 9.5199 25.9951 39.2908
86.1575 109.7136 143.0268 1175.945 1721.596
ونلاحظ من الجدول (5) أعلاه أن قیمة محدد مصفوفة المعلومات صغیر جداً، وقریب من الصفر (0.0014) وکذلک فإن قیمة إحصاءة مربع کای لفارار(Farrar and Glauber) کبیرة جداً، کما أن قیمة العدد الشرطی Condition Number کبیرة جدا، کذلک فإن معیار Red Indicator غیر مساویة للصفر، وأخیراً فإن قیمة مؤشر Theil أکبر من الواحد الصحیح بکثیر. کل هذه الأمور تدل على وجود مشکلة تعدد العلاقة الخطیة. وللتأکد من وجود المشکلة تم إجراء إختبار فارار – کلاوبر لمعرفة مصدر المشکلة.
جدول (6): المؤشرات الفردیة لوجود مشکلة تعدد العلاقة الخطیة
|
VIF |
TOL |
Wi |
Fi |
Leamer |
CVIF |
X1 : یمثل أوکسید المغنیسیوم Mgo |
2.6350 |
0.3795 |
36.3781 |
41.8085 |
0.6160 |
2.6188 |
X2 : یمثل أوکسید الکالسیوم Cao |
20.8781 |
0.0479 |
442.2871 |
508.3107 |
0.2189 |
20.7502 |
X3 : یمثل أوکسید الحدیدیک Fe2o3 |
1.7740 |
0.5637 |
17.2204 |
19.7910 |
0.7508 |
1.7631 |
X4 : یمثل أوکسید الالمنیوم Al2o3 |
3.3940 |
0.2946 |
53.2676 |
61.2192 |
0.5428 |
3.3733 |
X5 : یمثل ثنائی أوکسید السیلیکون Sio2 |
14.4822 |
0.0691 |
299.9799 |
344.7602 |
0.2628 |
14.3936 |
X6 : یمثل معامل الإشباع الجیری L.S.F |
31.7765 |
0.0315 |
684.7761 |
786.9979 |
0.1774 |
31.5819 |
X7 : یمثل مواد غیر قابلة للذوبان In.R |
1.2002 |
0.8332 |
4.4552 |
5.1202 |
0.9128 |
1.1929 |
X8 : یمثل الفقدان بالحرق L.O. |
5.2600 |
0.1901 |
94.7848 |
108.9340 |
0.4360 |
5.2278 |
X9 : یمثل ثالث أوکسید الکبریت Sio3 |
1.4836 |
0.6740 |
10.7594 |
12.3656 |
0.8210 |
1.4745 |
ونلاحظ من الجدول (6) أعلاه وکما بین الشکل (3) أن هنالک علاقة قویة للمتغیر X2(أوکسید الکالسیوم Cao) مع المتغیرین X6(معامل الإشباع الجیری L.S.F) و X8(الفقدان بالحرق L.O.)، وکذلک بین X5 (ثنائی أوکسید السیلیکون Sio2) و X6 . هذا یظهر من خلال قیم معامل تضخم التباین التی زادت عن 10 وبالمقابل قیم ال TOL الصغیرة وکبر قیم Wi و Fi الکبیرة وکذلک قیم إحصاءة Leamer الصغیرة وکذا قیم CVIF والتی زادت عن العشرة وکل هذه أدلة على وجود مشکلة تعدد العلاقةالخطیة، وقد تناوزل العدید من الباحثین مؤشرات الکشف عن وجود مشکلة تعدد العلاقة الخطیة منهم (Asteriou and Hall, 2007), (Gujarati and Porter, 2008), (Farrar and Glauber, 1967), (Belsley et. al., 2004), (Chatterjee and Hadi, 2012), (Maddala, 1992), (Kovács et. al., 2005), (Kutner et. al., 2004), (Marquardt, 1970), (Curto and Pinto, 2011), (Greene, 2003), (Imdadullah et. al., 2016).
الشکل (4): شکل یبین رسم معامل تضخم التباین والجذور الممیزة
والشکل (4) أعلاه یبین ما أکدته المؤشرات العددیة ویتضح من رسمی VIF ورسم الجدور الممیزة بان هنالک ثلاثة متغیرات تعانی من مشکلة تعدد العلاقة الخطیة.
2-5 إنحدار المکونات الرئیسیة
بعد التأکد من وجود مشکلة تعدد العلاقة الخطیة تمت مقارنة أداء الطرق المقترحة على بیانات معمل الأسمنت بعد تحویل المتغیرات الى الصیغة القیاسیة (لإختلاف وحدات قیاسها) ومن ثم مقارنة کفاءة الطرق المقترحة فی تقدیر نموذج الانحدار لتمدد الأسمنت على متغیرات الدراسة التسعة. وقد کانت مقاییس الکفاءة کما هو مبین فی الجدول أدناه والتی یتضح منها تفوق طریقة المربعات الصغرى الموزونة بأوزان Bisquare من مقدرات M:
MADE |
RMSE |
MSE |
Adjusted R-Square |
R-Square |
Residual standard error |
|
0.04302 |
0.103428 |
0.010697 |
0.03361182 |
0.08037254 |
0.1063100 |
Least Squares |
0.04302 |
0.103428 |
0.010697 |
0.03361182 |
0.08037254 |
0.1063100 |
LSPCRRobHuber |
0.04302 |
0.103428 |
0.010697 |
0.03361182 |
0.08037254 |
0.1063100 |
LSPCRRobHampel |
0.04272 |
0.103429 |
0.010698 |
0.03426230 |
0.08099154 |
0.1055723 |
LSPCRRobBisquare |
ونلاحظ من رسم البواقی ضد القیم المقدرة فی الشکل (2) أدناه لنموذج انحدار المتغیر المعتمد y (تمدد الإسمنت) الموزون بدالة وزن Bisquare من مقدرات M (الرسوم للدوال الأخرى مطابقة لها) ضد المکونات الرئیسیة المقابلة للمتغیرات المستقلة أنه لاتوجد علامة لوجود ارتباط بین البواقی والقیم المقدرة ولا یوحی الشکل بوجود علاقة غیر خطیة. أما بالنسبة لرسم QQ-Plot نلاحظ وجود حوالی ثلاثة قیم شاذة (20, 23, 181) حیث نلاحظ إنحراف النموذج عن التوزیع الطبیعی کما هو واضح فی أطراف الرسم. وبالنظر إلى رسم جذر الاخطاء القیاسیة ضد القیم المقدرة أن النقاط متوزعة حول الخط بشکل منتظم الامر الذی یدل على عدم وجود مشکلة عدم تجانس التباین بین الأخطاء. وأخیراً وبالنظر الى رسم قیم الجذب Leverage (مسافات کوک Cook’s Distance) ضد الأخطاء القیاسیة نجد أن الرسم قد أفرز قیمتین شاذتین فی المتغیر المعتمد (20, 23) وهما نفس القیمتین اللتان تم تشخیصهما فی رسم QQ-Plot، ولایبدو من الرسم وجود أیة قیم جاذبة Leverage Points)) فی البیانات.
الشکل (2): الرسوم التشخیصیة لمشاکل نموذج الانحدار الخطی LSPCRRobBisquare
6-الاستنتاجات