نوع مقاله : مقاله پژوهشی- فارسی
نویسندگان
1 کارشناس ارشد گروه مهندسی صنایع، دانشکده فنی و مهندسی، دانشگاه شاهد، تهران، ایران
2 استادیار گروه مهندسی صنایع، دانشکده فنی و مهندسی، دانشگاه شاهد، تهران، ایران
3 دانشجوی دکتری گروه مهندسی صنایع، دانشکده فنی و مهندسی، دانشگاه شاهد، تهران، ایران
چکیده
کلیدواژهها
عنوان مقاله [English]
نویسندگان [English]
In this paper, a new robust method based on weighted maximum likelihood estimation (WMLE) is proposed to estimate the regression parameters in logistic profiles in Phase I. This approach reduces the outlier’s effects on the statistical performance of T2 control chart in terms of probability of Type I error. A numerical example is used to evaluate the performance of the proposed method. The results show the better performance of the proposed estimator compared to the maximum likelihood estimation method in terms of power in T2 control chart.
Introduction: Yeh et al. (2009) proposed five based T2 statistics to monitor the binary logistic regression profile in Phase I. Different approaches are proposed to monitor logistic regression profiles in Phase II. So far, few researches have been done on monitoring the profile with the presence of contaminated data. In this area, Ebadi and Shahriari (2014) proposed robust estimation approach to monitor the simple linear profile based on two classic and robust methods (M-estimator) with two functions including Huber weighted and double square functions. The aim of this paper is to monitor the logistic regression profiles with the presence of outliers in Phase I based on weighted maximum likelihood robust estimator and T2 control chart. The main questions of this papers are as follows: a) Evaluating the effect of outliers on the mean and standard deviation of the proposed and classic estimators of the logistic regression profile parameters and probability of Type I error in common T2 control chart, b) Comparing performance of the proposed and classic estimators on the T2 control chart power for different shifts in logistic regression profile parameters under outliers in Phase I.
Materials and Methods: Sometimes, there are outliers in the gathered data which lead to incorrect estimation of the profile parameters. Hence, to decrease or remove the effect of outlier(s), robust estimation methods are applied. In this paper, a robust approach called weighted maximum likelihood estimator (WMLE) is applied to estimate the parameters of the logistic regression profiles as follows (Maronna et al., 2006):
(1)
where, is the probability of response variable in each level of logistic regression profile using the estimated parameters. A robust estimate for obtaining parameters is achieved by minimizing the above function. However, in order to give less weight to outliers, we can consider the following relationship and minimize it.
(2)
where is the weight of the ith observation which is calculated as Equation (3)
(3)
in which W is a non-ascending function and computed based on Carroll and Pederson (1993) as follows:
(4)
Results and Discussion
The Type I error probability of T2 control chart considering the outlier using MLE and WMLE methods is summarized in Table 1.
Table 1- Type I error probability of T2 control chart considering MLE and WMLE methods
WMLE
MLE
Estimation Method
0.0718
0.1242
Type I error probability
In this section, r percentage of the total data is contaminated with an increase in the variance of the errors. For r equal to 0.07 and 0.15, the variance error is changed from 1 to 4 and Type I error probability of the T2 control chart with both classic and proposed estimators are calculated and reported in Table 2.
Table 2- Type I error probability of the T2 control chart with both classic and proposed estimators under different r
Type I error probability
Estimation methods
r=0.07
Type I error probability
Estimation methods
r=0.15
0.1801
MLE
0.2779
MLE
0.1021
WMLE
0.1541
WMLE
Based on Table 2, Type I error probability of the T2 control chart under the classic method is more than the robust one and this result shows the better performance of the proposed method rather than the classic one.
Conclusion
In this paper, a robust approach was developed to estimate the logistic regression profiles with the presence of outliers in Phase I. The performance of the proposed robust estimator was compared with the classic method (MLE) based on Type I error probability and power of T2 control chart in Phase I. Results showed that the WMLE method outperforms the MLE in estimating the logistic regression profile parameter under outliers.
References
Ebadi, M., & Shahriari, H., (2014), "Robust Estimation of Parameters in Simple Linear Profiles Using M-Estimators", Communications in Statistics - Theory and Methods, 43(20), 4308-4323.
Maronna, AR., Martin, R.D., & Yohai, V.J., (2006), Robust Statistics Theory and Methods, John Wiley, New York.
Yeh A.B., Huwang L., & Li Y.M., (2009), "Profile Monitoring for a Binary Response", IIE Transactions, 41(13), 931-941.
کلیدواژهها [English]
مقدمه
معمولاً در کنترل فرآیند آماری، کیفیت محصول یا فرآیند بهوسیلۀ مشخصۀ کیفی تک یا چندمتغیره توصیف میشود؛ ولی گاهی کیفیت محصول یا فرآیند بهوسیلۀ رابطۀ بین یک متغیر پاسخ و یک یا چند متغیر مستقل توصیف میشود که به این رابطه پروفایل گفته میشود. این رابطه میتواند خطی ساده، چندجملهای، غیرخطی، لجستیک و یا پیچیدهتر باشد. پایش پروفایلها در دو فاز 1 و 2 انجام میشود. هدف اصلی در فاز 1 تخمین پارامترهای پروفایل و در فاز 2 کشف تغییرات در زودترین زمان ممکن است.
در پروفایلهای خطی رابطۀ بین متغیر پاسخ و متغیر(های) مستقل بهصورت خطی است. کنگ و آلباین[i] (2000) در فاز 2 پایش پروفایلهای خطی ساده را توصیف کردهاند. آنها روش تخمین پارامترهای پروفایل را تشریح و با استفاده از نمودار کنترل T2پارامترهای پروفایل را پایش کردند. آنها همچنین در روشی دیگر با استفاده از نمودار کنترل EWMA-R باقیماندههای مدل برازششده را پایش کردند.
پس از این مقاله، پژوهشهای بسیاری در زمینۀ پایش انواع پروفایلها صورت گرفت که فهرست نسبتاً کاملی از پژوهشهای انجامشده در این حوزه در مقالات مروری محمود و وودال[ii] (2004) ، وودال (2007)، همچنین کتاب نورالسناء و همکاران (2011) وجود دارد. سقایی و همکاران (2009) روشی مبتنی بر آمارۀ CUSUM را برای پایش پروفایلهای خطی ساده ارائه کرده است. ژیانگ و همکاران[iii] (2009) با استفاده از آزمون نسبت درستنمایی روشی را برای پایش پروفایلهای خطی مطرح کردند. ژو و لین[iv] (2010) بر پایش شیب پروفایل خطی در هر دو فاز 1 و 2 تمرکز کردهاند. در فاز 2 آنها نشان دادند متوسط طول دنباله در نمودار کنترل پیشنهادی تنها به شیب وابسته است؛ درحالیکه متوسط طول دنباله در نمودار کنترل T2 به شیب، عرض از مبدأ و همبستگی بین این دو وابسته است.
باتوجهبه اینکه پروفایلهای غیرخطی پیچیدگی بیشتری نسبت به پروفایلهای خطی دارند، پژوهشهای کمتری نسبت به پروفایلهای خطی روی آنها صورت گرفته است. بهطور موردی در حوزۀ پروفایلهای غیرخطی و خطیِ تعمیمیافته نیز پژوهشهایی انجام شده است؛ برای مثال ویلیامز و همکاران[v] (2003) روشهایی را برای پایش پروفایلهای غیرخطی در فاز 1 ارائه کردهاند. ویلیامز و همکاران (2007) روشهایی را مبتنی بر نمودار کنترل T2برای پایش پروفایلهای غیرخطی پیشنهاد دادهاند. زو و همکاران[vi] (2008) روشهایی را برای پایش پروفایلهای غیرخطی با استفاده از آمارۀ EWMA و آزمون نسبت درستنمایی تعمیمیافته ارائه کردهاند. واقفی و همکاران[vii] (2009) روشهای ارائهشده در فاز 1 بهوسیلۀ ویلیامز (2003) را به فاز 2 توسعه دادهاند. در این مقاله از سه رویکرد پارامتری، ناپارامتری و هوش مصنوعی مبتنی بر شبکههای عصبی برای پایش پروفایلهای غیرخطی در فاز 2 استفاده و کارایی آنها با استفاده از شبیهسازی بررسی شده است.
در زمینۀ پایش پروفایلهای مبتنی بر الگوهای خطی تعمیمیافته[viii] (GLM)، یه و همکاران[ix] (2009) پنج روش مبتنی بر آمارۀ T2 را برای پایش پروفایلهای لجستیک در فاز ۱ ارائه دادند. سقایی و همکاران[x] (2012) نیز پایش پروفایلهای لجستیک در فاز 2 را بررسی کردند. نورالسناء و ایزدبخش (1391) برای پایش پروفایلهای لجستیک رستهای از نمودار کنترل T2 و آزمون نسبت درستنمایی استفاده کردهاند.
در پایش پارامترهای پروفایل در فاز 1 ابتدا با نمونهگیری از فرآیند تحت کنترل و با استفاده از روشهای کلاسیک حداقل مربعات[xi] یا حداکثر درستنمایی[xii] پارامترهای مدل برآورد میشوند. نکتۀ درخور توجه این است که در زمان نمونهگیری برای برآورد پارامترهای فرآیند ممکن است در برخی از زیرگروهها دادههای بسیار بزرگ و بسیار کوچک نسبت به بقیۀ دادهها وجود داشته باشند. این دادهها که با عنوان دادههای پرت[xiii] شناخته میشوند برآورد روش کلاسیک را بهشدت تحت تأثیر قرار میدهند. این تأثیر باعث میشود نمودار کنترلی رسمشده بازتر شود و احتمال خطای نوع 1 افزایش یابد و عملکرد مناسبی در تشخیص و شناسایی انحرافات با دلیل در فاز 2 نداشته باشد. این امر باعث ظهور تخمینزنندههایی شد تا نسبت به دادههای پرت حساسیت کمتری داشته باشند و پارامترهای پروفایل را بهطریق مناسبتری برآورد کنند (مونتگومری و همکاران[xiv]، 2015؛ هابر[xv]، 1981).
تاکنون پژوهشهای محدودی در زمینۀ پایش پروفایل با حضور دادههای آلوده انجام شده است؛ از جملۀ این پژوهشها، پژوهش عبادی و شهریاری[xvi] (2014) است که در آن از روشهای تخمین استوار برای پایش پروفایلهای خطی ساده استفاده کردهاند. در این پژوهش پارامترهای پروفایل با دو روش کلاسیک و استوار (M-estimator) با دو تابع وزنی هابر و دومربعی با حضور دادههای پرت و بدون آن تخمین زده شده است. نتایج این پژوهش نشان میدهد وقتی آلودگی وجود ندارد، بین روشهای تخمین تفاوت زیادی وجود ندارد؛ ولی با وجود دادههای آلوده تخمین روش استوار دقیقتر است و تابع وزنی دومربعی جواب بهتری نشان میدهد.
هدف از این مقاله تخمین پارامتر در پروفایلهای لجستیک با حضور دادۀ پرت در مشاهدات با استفاده از روش استوار و بررسی اثر تخمین روی احتمال خطای نوع 1 و توان نمودار کنترل T2 است. سوالهای اصلی این پژوهش عبارتند از: 1- بررسی اثر دادۀ پرت روی میانگین و انحراف استاندارد تخمینزنندۀ پیشنهادی و کلاسیک پارامترهای رگرسیون لجستیک و احتمال خطای نوع 1 نمودار کنترل T2 ؛ 2- بررسی اثر تخمینزنندۀ پیشنهادی در مقایسه با تخمینزنندۀ کلاسیک در توان نمودار کنترل T2 تحت شیفتهای مختلف در پارامترهای رگرسیون لجستیک در حضور دادههای پرت.
ساختار مقاله بدین صورت است که در بخش 2 روش حداکثر درستنمایی برای تخمین پارامترهای پروفایل لجستیک بیان میشود. بخش 3 مسئله را تعریف و سپس روش پیشنهادی را ارائه میکند. در بخش 4 با ارائۀ مثال عددی، عملکرد روش پیشنهادی با روش کلاسیک حداکثر درستنمایی مقایسه میشود.
روش حداکثر درستنمایی برای برآورد پارامترهای پروفایل لجستیک
الگوی رگرسیون لجستیک در عمل بیشتر از سایر انواع رگرسیون خطی تعمیمیافته استفاده میشود. این نوع رگرسیون برای مواردی بهکار میرود که مقادیر متغیر پاسخ بهصورت 0 یا 1 باشند؛ به عبارت دیگر مقادیر متغیر پاسخ دارای توزیع برنولی هستند. در رگرسیون لجستیک احتمال موفقیت در هر آزمایش مستقل برنولی با رابطۀ (1) به دست میآید:
(1) |
در رابطۀ فوق احتمال موفقیت توزیع برنولی با πi نشان داده شده است و xi بردار متغیرهای مستقل و β بردار پارامترهای مدل هستند.
مفروضات و مدل مسئله
فرض کنید n مجموعه آزمایش مستقل وجود دارد و در هر مجموعه بردار متغیرهای پیشبینی p بهصورت است بهنحویکه متغیر پاسخ بهصورت تعریف میشود. zi دارای توزیع برنولی با احتمال موفقیت πiاست. احتمال πiتابعی از xi بوده و در مدل رگرسیون لجستیک بهوسیلۀ تابع ارتباطی مطابق رابطۀ (2) مشخص شده است.
(2) |
بردار بردار پارامتر مدل است. بهطوریکه β1 مقدار ثابت مدل است. باتوجهبه این تعاریف مقدار احتمال برای هر مجموعه از مشاهدات طبق رابطۀ (3) تعیین میشود.
(3) |
در رابطۀ (3)، است. فرض میشود دادهها گروهی بوده طوریکه برای مجموعۀ iام متغیرهای کنترلی، mi مشاهده وجود دارد. بیانگر تعداد کل مشاهدات است. بدیهی است که ، دارای توزیع دوجملهای با پارامترهای (mi, πi) با میانگین و واریانس است.
فرض کنید مشاهدات بینم در سطوح مختلف از یکدیگر مستقل هستند؛ بنابراین تابع درستنمایی توأم بهصورت رابطۀ (4) تعریف میشود.
(4) |
|
طوریکه و است. از رابطۀ (4) لگاریتم گرفته و با در نظر گرفتن ، تابع لگاریتم درستنمایی طبق رابطۀ (5) تعریف میشود.
(5) |
با مشتقگرفتن از رابطۀ (5) نسبت به β، رابطۀ (6) برقرار است.
(6) |
که و ماتریس n×p است. طبق رابطۀ (6) است که بردار صفر pبعدی است. در عمل MLE را میتوان با تکرار تخمینهای روش حداقل مربعات وزنی نیز تقریب زد. بیانگر تخمینهای بردار پارامترهای β است بهنحویکه و .
ماتریس وزن ماتریس قطری n×n است که دارای قطر اصلی و سایر عناصر صفر است. q بردار متغیرهای وابستۀ تعدیلشده بهصورت است؛ جاییکه برقرار است؛ بنابراین مطابق تعاریف بیانشده رابطۀ (7) حاصل میشود.
(7) |
در رابطۀ (7)، است. هر دو سمت رابطۀ (6) را در ضرب کرده، رابطۀ (8) به دست میآید.
(8) |
طبق فرض رابطۀ (8) به معادلۀ تخمینβ تبدیل میشود؛ بنابراین رابطۀ (9) برای تخمین پارامتر به کار گرفته میشود.
(9) |
مقادیر β پس از چند تکرار و باتوجهبه شرط توقف مطابق گامهای زیر تخمین زده میشود.
گامهای تخمین پارامتر
1) تخمین اولیهای از β را به دست آورده و بنامید. توجه کنید این مقدار اولیه براساس تخمین حداقل مربعات معمولی به دست میآید؛ یعنی
(10) |
قرار دهید i=0.
2) براساس ، مقادیر ، و را محاسبه کنید.
3) را به دست آورید.
4) تخمین β را با استفاده از رابطۀ بههنگام کرده و قرار دهید i=i+1.
5) گام 2 تا 4 را تکرار کنید. تا زمانیکه شود. نرم اقلیدسی بردار v و ε مقدار ثابت کوچک (مثلا =10-5ε) است؛ آنگاه تخمینی مطلوب برای β است.
تعریف مسئله و رویکرد پیشنهادی
در جمعآوری داده ممکن است داده(های) پرتی درون دادهها وجود داشته باشند که باعث تخمین نادرست پارامترهای پروفایلها شوند. برای اینکه تأثیر این نوع دادهها حذف یا کمتر شود از روشهایی با نام استوار استفاده میشود. این روشها در مدلهای رگرسیونی استفاده شدهاند و عملکرد مناسب خود را در حالتی که دادۀ آلوده وجود دارد نشان دادهاند؛ اما در حوزۀ کنترل فرآیند آماری و بهطور خاص پروفایلها، پژوهشهای اندکی انجام شده است. در این مقاله رویکردی جدید برای مقاومسازی پروفایل لجستیک مبتنی بر روش حداکثر درستنمایی وزنی[xvii] (WMLE) ارائه شده است. این روش یکی از روشهای استوار برای تخمین پارامترهای رگرسیون لجستیک است که مارونا و همکاران[xviii] (2006) آن را ارائه دادهاند. این روش درواقع توسعهیافتۀ روش حداکثر درستنمایی است و بهگونهای به دادههای پرت موجود وزن کمتری اختصاص میدهد.
معرفی روش حداکثر درستنمایی وزنی
کارول و پدرسون (1993) روش سادهای مبتنی بر روش حداکثر تابع درستنمایی برای تخمین پارامترها پیشنهاد کردهاند. در این روش به دادههای دورافتاده بهصورت کاهشی وزن تخصیص داده میشود. یک مقیاس برای اندازهگیری مشاهدات بهصورت زیر تعریف میشود که این مقیاس شبیه به فاصلۀ ماهالانوبیس[xix] است. مارونا و همکاران (2006) این فاصله برای حالتی محاسبه میشود که متغیر x ثابت نبوده و فرآیند استوارسازی روی آن انجام شود.
(11) |
بهطوریکه بردار میانگین مقادیر x و ماتریس واریانس-کوواریانس این مقادیر است و nتعداد مشاهدات را نشان میدهد. در کتاب مذکور، روش برمبنای توزیع برنولی توسعه داده شده است؛ ولی در این مقاله روش پیشنهادی برمبنای توزیع بینم است که در قسمت زیر تشریح میشود.
روش پیشنهادی
در پروفایلها چون مقادیر x ثابت فرض میشوند و قصد بر این است که مشاهدات (y) نسبت به میانگین آنها استوار شود، فاصلۀ آماری بهصورت زیر محاسبه میشود.
(12) |
در رابطۀ فوق و است. درواقع این فاصله میخواهد مقیاسی استانداردشده از فاصلۀ مشاهدات از میانگین را نشان دهد. به این فاصله، باقیماندۀ پیرسون[xx] نیز اطلاق میشود. حال با استفاده از تابع توزیع دوجملهای رابطهای برای تخمین استوار پارامترها ارائه میشود. تابع چگالی احتمال متغیر تصادفی دوجملهای برابر است با:
(13) |
تابع درستنمایی برای پارامتر در رابطۀ بالا بهصورت زیر نوشته میشود.
(14) |
اگر از طرفین لگاریتم گرفته شود و عباراتی حذف شوند که به پارامتر بستگی ندارند، رابطۀ (15) به دست میآید.
(15) |
تخمین استوار برای به دست آوردن پارامترها از حداقلکردن تابع فوق حاصل میشود؛ ولی برای اینکه به مشاهدات پرت وزن کمتری داده شود میتوان رابطه زیر را در نظر گرفت و آن را حداقل کرد.
(16) |
بهصورت رابطۀ (17) محاسبه میشود.
(17) |
در رابطۀ فوق W تابعی غیرصعودی است. کارول و پدرسون (1993) تابع زیر را برای محاسبۀ W پیشنهاد دادند. (c>0)
(18) |
در رابطۀ فوق c مقداری دلخواه است و اگر باشد، مقدار تابع I برابر با یک است؛ در غیر این صورت صفر خواهد شد. الگوریتم محاسبۀ پارامتر بهصورت زیر است:
1- ابتدا مقدار اولیه برای در نظر گرفته میشود؛ مثلاً مقداری که بهوسیلۀ روش MLE به دست آمده است.
2- با قراردادن مقدار اولیه در رابطۀ (16) یک عدد حاصل و ثبت میشود.
3- سپس با تغییر پارامتر تعیین میشود که تغییر رابطۀ (16) افزایشی یا کاهشی است (مقدار کمتر برای این رابطه دنبال میشود).
4- پس از یافتن جهت حرکت، مقادیر تا آنجایی تغییر داده میشود که دیگر رابطۀ (16) تغییر محسوسی نداشته باشد؛ درواقع اختلاف دو جواب کمتر از ε شود (در اینجا ε برابر 10-4فرض شده است).
در این بخش از روش حداکثر درستنمایی وزنی برای تخمین استوار پارامترهای مدل استفاده شد. در ادامه برای ارزیابی عملکرد روش پیشنهادی نتایج که شامل برآرود پارامترهای مدل و احتمال خطای نوع 1 و توان آزمون است با نتایج حاصل از روش حداکثر درستنمایی مقایسه میشود.
پایش پروفایل لجستیک
برای پایش پروفایلها در فاز 1 روشهای متداولی وجود دارد که از مهمترین آنها روش T2 است. در مقالۀ یه و همکاران (2009) نیز از این روش استفاده شده است. در مقالۀ مذکور با 5 روش T2 محاسبه شد که بهترین آنها از لحاظ کشف شیفتها است. این روش مبتنی بر میانگین نمونه و ادغام بین پروفایلها[xxi] است.
در این روش پس از تخمین پارامترها، آماره T2 بهصورت زیر محاسبه میشود.
(19) |
, |
در این رابطه، SI از طریق رابطۀ زیر محاسبه میشود.
(20) |
, |
در رابطۀ فوق W از رابطهای که در بخش 2-1 ذکر شد به دست میآید.
مثال عددی
مثال منتخب برای این مقاله مثال موجود در یه و همکاران (2009) است. در این مثال x یا بردار متغیرهای مستقل دارای 9 سطح است و بهصورت زیر محاسبه میشود.
در این مثال هر متغیر پاسخ برابر با مجموع 30 m= متغیر برنولی است؛ درنتیجه دارای توزیع دوجملهای (بینم) با 30 آزمایش است و در هربار شبیهسازی 30 k= پروفایل تولید میشود. برای تولید این دادهها از تابع رابط لجیت بهصورت زیر استفاده میشود.
(21) |
در این مثال است که 3 و 2 است. احتمال خطای نوع 1 روی مقدار 05/0 ثابت شده است. برای ایجاد دادههای پرت از رابطۀ (22) استفاده میشود.
(22) |
در این رابطه ها دارای توزیع نرمال با میانگین صفر و واریانسσ2 هستند. در اینصورت مقادیر بهدستآمده احتمال خطای نوع 1 برای حد بالای کنترل تغییر مییابد. اگر واریانس خطاها (σ2) یک در نظر گرفته شود، تغییر احتمال خطای نوع 1 برای هر دو روشِ برآورد در جدول شماره 1 نشان داده شده است.
3
جدول1- مقادیر احتمال خطای نوع 1 پس از افزودن
WMLE |
MLE |
روش تخمین |
0718/0 |
1242/0 |
احتمال خطای نوع 1 |
پس از به دست آوردن حد بالای کنترل برای هریک از روشها برای رابطۀ (22)، اثر دادههای پرت بهوسیلۀ افزایش واریانس خطاها بررسی میشود. اگر برای پروفایلهای 5، 10، 15، 20، 25 و 30 از 9 سطح موجود برای x که سه سطح آن بهتصادف انتخاب شده است، واریانس خطاها از 1 به 4 افزایش یابد، مقادیر برآورد پارامترهای مدل برای 10000 بار شبیهسازی در جداول (2) تا (5) نشان داده شده است.
در جدول 2 مقادیر میانگین و در جدول 3 مقادیر انحراف استاندارد برای برآورد پارامتر برای حالتی که به شیفت کرده است، تحت مقادیر مختلف با روش پیشنهادی و روش حداکثر درستنمایی نشان داده شده است.
جدول 2- مقادیر میانگین برآورد پارامتر درحالت افزایش واریانس خطاها
5/2 |
2 |
5/1 |
1 |
5/0 |
0 |
|
6112/4 |
3019/4 |
1127/4 |
9982/3 |
8945/3 |
6142/3 |
MLE |
8016/3 |
6102/3 |
4720/3 |
2018/3 |
1889/3 |
1749/3 |
WMLE |
جدول 3- مقادیر انحراف استاندارد برآورد پارامتر در حالت افزایش واریانس خطاها
5/2 |
2 |
5/1 |
1 |
5/0 |
0 |
|
7120/2 |
2034/2 |
0145/2 |
7211/1 |
4780/1 |
1245/1 |
MLE |
0010/1 |
9942/0 |
8012/0 |
6275/0 |
5079/0 |
4899/0 |
WMLE |
حال مقادیر میانگین و انحراف استاندارد برآورد پارامتر درحالتیکه این پارامتر به شیفت کرده است، برای مقادیر مختلف با دو روش برآوردِ ذکرشده محاسبه و در جداول 4 و 5 آورده شده است.
جدول 4- مقادیر میانگین برآورد پارامتر در حالت افزایش واریانس خطاها
5/1 |
2/1 |
9/0 |
6/0 |
3/0 |
0 |
|
4255/3 |
2017/3 |
9925/2 |
8018/2 |
6117/2 |
4120/2 |
MLE |
5779/2 |
4459/2 |
3118/2 |
2017/2 |
1179/2 |
1005/2 |
WMLE |
جدول 5- مقادیر انحراف استاندارد برآورد پارامتر در حالت افزایش واریانس خطاها
5/1 |
2/1 |
9/0 |
6/0 |
3/0 |
0 |
|
7785/2 |
3179/2 |
9128/1 |
5235/1 |
1205/1 |
9971/0 |
MLE |
0127/1 |
7112/0 |
6775/0 |
5892/0 |
4479/0 |
3027/0 |
WMLE |
همانطورکه مشاهده میشود درحالتیکه واریانس خطاها افزایش مییابد، میانگین و انحراف استاندارد تخمین پارامترها بهشدت تحت تأثیر قرار میگیرد. این تغییرات بسیار محسوستر از حالتی است که فقط در پروفایلها شیفت باشد؛ زیرا با تغییر واریانس خطاها، دادههای پرتی درون پروفایلها ایجاد میشود که روش کلاسیک MLE از آنها تأثیر زیادی میپذیرد و روی تخمین پارامترها اثر منفی میگذارد. از سوی دیگر همانگونه در جداول بالا مشخص است روش پیشنهادی بهمراتب تأثیرپذیری کمتری از دادههای پرت دارد و با وزندادن به دادههایی که دورافتاده هستند تخمین بهتری از پارامترها به دست میآید.
حال احتمال خطای نوع 1 نمودار کنترل در حضور دادههای پرت در سطوح مشخص از طریق افزایش واریانس خطاها محاسبه و نتایج در جدول 6 نشان داده شده است.
جدول 6- مقادیر احتمال خطای نوع 1 پس از افزایش واریانس خطاها
WMLE |
MLE |
روش تخمین |
1251/0 |
2543/0 |
احتمال خطای نوع 1 |
همانگونهکه از جدول 6 مشخص است درصورت وجود دادههای آلوده که از طریق افزایش واریانس خطاها به دست میآید، روش استوار بهمراتب عملکرد بهتری از خود نشان میدهد.
حال برای مقایسۀ توان نمودار کنترل زمانیکه پارامترهای پروفایل با روش پیشنهادی و روش کلاسیک تخمین زده میشوند، حد کنترل بالا بهگونهای تنظیم میشود که احتمال خطای نوع 1 برابر 05/0 برای نمودار کنترل برمبنای هر دو روش تخمین به دست آید. سپس با شیفتدادن در پارامترهای رگرسیون لجستیک توان نمودار کنترل تحت شیفتهای مختلف در پارامترهای و محاسبه میشود.
جدول 7- مقادیر احتمال خطای نوع 1 و توان آزمون برای شیفت در پارامتر
5/2 |
2 |
5/1 |
1 |
5/0 |
0 |
|
1005/0 |
0891/0 |
0761/0 |
0661/0 |
0562/0 |
0500/0 |
MLE |
1275/0 |
1098/0 |
0901/0 |
0757/0 |
0589/0 |
0499/0 |
WMLE |
جدول 8- مقادیر احتمال خطای نوع 1 و توان آزمون برای شیفت در پارامتر
5/1 |
2/1 |
9/0 |
6/0 |
3/0 |
0 |
|
0957/0 |
0865/0 |
0755/0 |
0653/0 |
0569/0 |
0500/0 |
MLE |
1098/0 |
0997/0 |
0881/0 |
0762/0 |
0591/0 |
0502/0 |
WMLE |
باتوجهبه جداول 7 و 8 نتیجه میشود که با ایجاد شیفت در پارامترهای رگرسیون لجستیک، توان نمودار کنترل برمبنای روش پیشنهادی از روش کلاسیک حداکثر درستنمایی بالاتر است. این مطلب نشاندهندۀ عملکرد بهتر روش پیشنهادی است.
در این بخش نحوۀ آلودهکردن دادهها تغییر داده میشود؛ به این صورت که درصدی ((r از کل دادههای موجود با افزایش واریانس خطاها آلوده میشود. در جدول 9 برای r برابر با 07/0 و 15/0 واریانس خطاها از 1 به 4 تغییر داده شده و احتمال خطای نوع 1 نمودار کنترل تحت هر دو روش پیشنهادی و کلاسیک تخمین محاسبه و گزارش شده است.
جدول 9- احتمال خطای نوع 1 در حالت خطای کلی
احتمال خطای نوع 1 |
روش برآورد |
|
1801/0 |
MLE |
07/0r= |
1021/0 |
WMLE |
|
2779/0 |
MLE |
15/0r= |
1541/0 |
WMLE |
همانطورکه مشخص است در روش کلاسیک احتمال خطای نوع 1 بهشدت تحت تأثیر دادههای پرت قرار میگیرد؛ ولی روش پیشنهادی بهمراتب عملکرد بهتری نسبت به روش معمول دارد.
نتیجهگیری
در این مقاله از روش استوار برای تخمین پارامترهای پروفایل لجستیک استفاده و با روش کلاسیکِ حداکثر درستنمایی مقایسه شد. این دو روش در حالتی که دادههای پرت درون دادهها وجود دارند از لحاظ تخمین پارامترها و احتمال خطای نوع 1 و توان نمودار کنترل با هم مقایسه شدند. البته در این مقاله دو نوع آلودگی بهصورت جداگانه در نظر گرفته شد. با مقایسۀ نتایج مشخص میشود هرگاه دادۀ پرت در مشاهدات وجود داشته باشد، روش کلاسیکِ حداکثر درستنمایی کارایی خود را بهطور کامل از دست میدهد. در مقابل روش پیشنهادی حداکثر درستنمایی وزنی بهمراتب عملکرد مناسبتری نسبت به روش کلاسیک دارد. این نتیجه از تخمینهای پارامترها، احتمال خطای نوع 1 و توان نمودار کنترل برای پایش پروفایلهای لجستیک در فاز 1 مشاهده میشود؛ به عبارت دیگر هدف از این پژوهش نشاندادن عملکرد روش WMLE نسبت به روش MLE برای تخمین پارامترهای پروفایل رگرسیون لجستیک با حضور دادههای پرت بوده که بدینمنظور از مثال شبیهسازی استفاده و برمبنای تخمین پارامترها، معیارهای هشدار اشتباهی و توان نمودار کنترل تحلیل شده است. نتایج حاصل از شبیهسازی نشان داد روش WMLE بهدلیل تخصیص وزن کمتر به دادههای پرت و کاهش اثر این دادهها، عملکرد بهتری را در تخمین پارامتر از خود نشان داده است. بسیاری از پژوهشگران نیز برای نشاندادن و ارزیابی عملکرد روشهای پیشنهادی خود از مثال شبیهسازی استفاده کردهاند؛ برای مثال میتوان به پژوهشهای اسدزاده و همکاران[xxii] (2009)، شهریاری و همکاران[xxiii](2009)، و عبادی و شهریاری (2014) اشاره کرد.
[i] Kang and Albin
[ii] Mahmoud and Woodall
[iii] Zhang et al.
[iv] Zhu and Lin
[v] Williams et al.
[vi] Zou et al.
[vii] Vaghefi et al.
[viii] Generalized Linear Model
[ix] Yeh et al.
[x] Saghaei et al.
[xi] Mean Square
[xii] Maximum Likelihood
[xiii] Outlier
[xiv] Montgomery et al.
[xv] Huber
[xvi] Ebadi and Shahriari
[xvii] Weighted Maximum Likelihood Method
[xviii] Maronna et al.
[xix] Mahalanobis
[xx] Pearson Residual
[xxi] T2 based on sample average and intra profile pooling
[xxii] Asadzadeh et al.
[xxiii] Shahriari et al.