توسعۀ روشی استوار برای پایش پروفایل‌های لجستیک در فاز 1

نوع مقاله: مقاله پژوهشی

نویسندگان

1 کارشناس ارشد گروه مهندسی صنایع، دانشکده فنی و مهندسی، دانشگاه شاهد، تهران، ایران

2 استادیار گروه مهندسی صنایع، دانشکده فنی و مهندسی، دانشگاه شاهد، تهران، ایران

3 دانشجوی دکتری گروه مهندسی صنایع، دانشکده فنی و مهندسی، دانشگاه شاهد، تهران، ایران

چکیده

در برخی از فرآیندها، کیفیت محصولات یا عملکرد فرآیند به‌وسیلۀ رابطۀ بین دو یا چند متغیر توصیف می‌شود. این رابطه می‌تواند خطی ساده، خطی چندگانه، چندمتغیره، غیرخطی و لجستیک باشد که به اصطلاح به آن پروفایل گفته می‌شود. برخی از روش‌های توسعه داده‌شده در پایش پروفایل مرتبط با پایش پروفایل‌های لجستیک هستند. همچنین حضور داده‌های پرت درون داده‌ها سبب می‌شود تا پارامترهای پروفایل به‌درستی تخمین زده نشوند. در این مقاله روش جدید حداکثر درست‌نماییِ وزنی مبتنی بر رویکرد استوار برای تخمین پارامترهای پروفایل‌های لجستیک در فاز 1 ارائه شده است تا اثر داده‌های پرت روی عملکرد آماری نمودار کنترلT2 برمبنای احتمال خطای نوع 1 برای پایش پروفایل‌های لجستیک کاهش یابد. عملکرد روش پیشنهادی با استفاده از مثال عددی بررسی و نتایج آن با روش حداکثر درست‌نمایی مقایسه شده است. نتایج نشان می‌دهد روش پیشنهادی بهتر از روش حداکثر درست‌نمایی براساس توان نمودار کنترل T2 عمل می‌کند.

کلیدواژه‌ها


عنوان مقاله [English]

Robust Method for Logistic Profiles Monitoring in Phase I

نویسندگان [English]

  • Ahmad Hakimi 1
  • Amirhossein Amiri 2
  • Reza Kamranrad 3
1 MA, Department of Industrial Engineering, Faculty of Engineering, Shahed University, Tehran, Iran
2 Assistant professor, Department of Industrial Engineering, Shahed University, Tehran, Iran
3 PhD student, Department of Industrial Engineering, Shahed University, Tehran, Iran
چکیده [English]

In this paper, a new robust method based on weighted maximum likelihood estimation (WMLE) is proposed to estimate the regression parameters in logistic profiles in Phase I. This approach reduces the outlier’s effects on the statistical performance of T2 control chart in terms of probability of Type I error. A numerical example is used to evaluate the performance of the proposed method. The results show the better performance of the proposed estimator compared to the maximum likelihood estimation method in terms of power in T2 control chart.
 Introduction: Yeh et al. (2009) proposed five based T2 statistics to monitor the binary logistic regression profile in Phase I. Different approaches are proposed to monitor logistic regression profiles in Phase II. So far, few researches have been done on monitoring the profile with the presence of contaminated data. In this area, Ebadi and Shahriari (2014) proposed robust estimation approach to monitor the simple linear profile based on two classic and robust methods (M-estimator) with two functions including Huber weighted and double square functions. The aim of this paper is to monitor the logistic regression profiles with the presence of outliers in Phase I based on weighted maximum likelihood robust estimator and T2 control chart. The main questions of this papers are as follows: a) Evaluating the effect of outliers on the mean and standard deviation of the proposed and classic estimators of the logistic regression profile parameters and probability of Type I error in common T2 control chart, b) Comparing performance of the proposed and classic estimators on the T2 control chart power for different shifts in logistic regression profile parameters under outliers in Phase I.
 
Materials and Methods: Sometimes, there are outliers in the gathered data which lead to incorrect estimation of the profile parameters. Hence, to decrease or remove the effect of outlier(s), robust estimation methods are applied. In this paper, a robust approach called weighted maximum likelihood estimator (WMLE) is applied to estimate the parameters of the logistic regression profiles as follows (Maronna et al., 2006):




 

(1)





 




 


 




where,  is the probability of response variable in each level of logistic regression profile using the estimated parameters. A robust estimate for obtaining parameters is achieved by minimizing the above function. However, in order to give less weight to outliers, we can consider the following relationship and minimize it.
 




 

(2)





 
where  is the weight of the ith observation which is calculated as Equation (3)




 

(3)





in which W is a non-ascending function and computed based on Carroll and Pederson (1993) as follows:
 




 

(4)





Results and Discussion
The Type I error probability of T2 control chart considering the outlier using MLE and WMLE methods is summarized in Table 1.
 
Table 1- Type I error probability of T2 control chart considering MLE and WMLE methods





WMLE


MLE


Estimation Method




0.0718


0.1242


Type I error probability





 
In this section, r percentage of the total data is contaminated with an increase in the variance of the errors.  For r equal to 0.07 and 0.15, the variance error is changed from 1 to 4 and Type I error probability of the T2 control chart with both classic and proposed estimators are calculated and reported in Table 2.
 
Table 2- Type I error probability of the T2 control chart with both classic and proposed estimators under different r





Type I error probability


Estimation methods


r=0.07


Type I error probability


Estimation methods


r=0.15




0.1801


MLE


0.2779


MLE




0.1021


WMLE


0.1541


WMLE





 
Based on Table 2, Type I error probability of the T2 control chart under the classic method is more than the robust one and this result shows the better performance of the proposed method rather than the classic one.
 
Conclusion
In this paper, a robust approach was developed to estimate the logistic regression profiles with the presence of outliers in Phase I. The performance of the proposed robust estimator was compared with the classic method (MLE) based on Type I error probability and power of T2 control chart in Phase I. Results showed that the WMLE method outperforms the MLE in estimating the logistic regression profile parameter under outliers.
 
References
Ebadi, M., & Shahriari, H., (2014), "Robust Estimation of Parameters in Simple Linear Profiles Using M-Estimators", Communications in Statistics - Theory and Methods, 43(20), 4308-4323.
Maronna, AR., Martin, R.D., & Yohai, V.J., (2006), Robust Statistics Theory and Methods, John Wiley, New York.
Yeh A.B., Huwang L., & Li Y.M., (2009), "Profile Monitoring for a Binary Response", IIE Transactions, 41(13), 931-941.

کلیدواژه‌ها [English]

  • Logistic Profile
  • Outlier
  • Robust Method
  • Weighted Maximum Likelihood Estimation
  • Phase I

مقدمه

معمولاً در کنترل فرآیند آماری، کیفیت محصول یا فرآیند به‌وسیلۀ مشخصۀ کیفی تک یا چندمتغیره توصیف می‌شود؛ ولی گاهی کیفیت محصول یا فرآیند به‌وسیلۀ رابطۀ بین یک متغیر پاسخ و یک یا چند متغیر مستقل توصیف می‌شود که به این رابطه پروفایل گفته می‌شود. این رابطه می‌تواند خطی ساده، چندجمله‌ای، غیرخطی، لجستیک و یا پیچیده‌تر باشد. پایش پروفایل‌ها در دو فاز 1 و 2 انجام می‌شود. هدف اصلی در فاز 1 تخمین پارامترهای پروفایل و در فاز 2 کشف تغییرات در زودترین زمان ممکن است.

در پروفایل‌های خطی رابطۀ بین متغیر پاسخ و متغیر(های) مستقل به‌صورت خطی است. کنگ و آلباین[i] (2000) در فاز 2 پایش پروفایل‌های خطی ساده را توصیف کرده‌اند. آنها روش تخمین پارامترهای پروفایل را تشریح و با استفاده از نمودار کنترل T2پارامترهای پروفایل را پایش کردند. آنها همچنین در روشی دیگر با استفاده از نمودار کنترل EWMA-R باقیمانده‌های مدل برازش‌شده را پایش کردند.

پس از این مقاله، پژوهش‌های بسیاری در زمینۀ پایش انواع پروفایل‌ها صورت گرفت که فهرست نسبتاً کاملی از پژوهش‌های انجام‌شده در این حوزه در مقالات مروری محمود و وودال[ii] (2004) ، وودال (2007)، همچنین کتاب نورالسناء و همکاران (2011) وجود دارد. سقایی و همکاران (2009) روشی مبتنی بر آمارۀ CUSUM را برای پایش پروفایل‌های خطی ساده ارائه کرده است. ژیانگ و همکاران[iii] (2009) با استفاده از آزمون نسبت درست‌نمایی روشی را برای پایش پروفایل‌های خطی مطرح کردند. ژو و لین[iv] (2010) بر پایش شیب پروفایل خطی در هر دو فاز 1 و 2 تمرکز کرده‌اند. در فاز 2 آن‌ها نشان دادند متوسط طول دنباله در نمودار کنترل پیشنهادی تنها به شیب وابسته است؛ درحالی‌که متوسط طول دنباله در نمودار کنترل T2 به شیب، عرض از مبدأ و همبستگی بین این دو وابسته است.

باتوجه‌به اینکه پروفایل‌های غیرخطی پیچیدگی بیشتری نسبت به پروفایل‌های خطی دارند، پژوهش‌های کمتری نسبت به پروفایل‌های خطی روی آنها صورت گرفته است. به‌طور موردی در حوزۀ پروفایل‌های غیرخطی و خطیِ تعمیم‌یافته نیز پژوهش‌هایی انجام شده است؛ برای مثال ویلیامز و همکاران[v] (2003) روش‌هایی را برای پایش پروفایل‌های غیرخطی در فاز 1 ارائه کرده‌اند. ویلیامز و همکاران (2007) روش‌هایی را مبتنی بر نمودار کنترل T2برای پایش پروفایل‌های غیرخطی پیشنهاد داده‌اند. زو و همکاران[vi] (2008) روش‌هایی را برای پایش پروفایل‌های غیرخطی با استفاده از آمارۀ EWMA و آزمون نسبت درست‌نمایی تعمیم‌یافته ارائه کرده‌اند. واقفی و همکاران[vii] (2009) روش‌های ارائه‌شده در فاز 1 به‌وسیلۀ ویلیامز (2003) را به فاز 2 توسعه داده‌اند. در این مقاله از سه رویکرد پارامتری، ناپارامتری و هوش مصنوعی مبتنی بر شبکه‌های عصبی برای پایش پروفایل‌های غیرخطی در فاز 2 استفاده و کارایی آن‌ها با استفاده از شبیه‌سازی بررسی شده است.

در زمینۀ پایش پروفایل‌های مبتنی بر الگوهای خطی تعمیم‌یافته[viii] (GLM)، یه و همکاران[ix] (2009) پنج روش مبتنی بر آمارۀ T2 را برای پایش پروفایل‌های لجستیک در فاز ۱ ارائه دادند. سقایی و همکاران[x] (2012) نیز پایش پروفایل‌های لجستیک در فاز 2 را بررسی کردند. نورالسناء و ایزدبخش (1391) برای پایش پروفایل‌های لجستیک رسته‌ای از نمودار کنترل T2 و آزمون نسبت درست‌نمایی استفاده کرده‌اند.

در پایش پارامترهای پروفایل در فاز 1 ابتدا با نمونه‌گیری از فرآیند تحت کنترل و با استفاده از روش‌های کلاسیک حداقل مربعات[xi] یا حداکثر درست‌نمایی[xii] پارامترهای مدل برآورد می‌شوند. نکتۀ درخور توجه این است که در زمان نمونه‌گیری برای برآورد پارامترهای فرآیند ممکن است در برخی از زیر‌گروه‌ها داده‌های بسیار بزرگ و بسیار کوچک نسبت به بقیۀ داده‌ها وجود داشته باشند. این داده‌ها که با عنوان داده‌های پرت[xiii] شناخته می‌شوند برآورد روش کلاسیک را به‌شدت تحت تأثیر قرار می‌دهند. این تأثیر باعث می‌شود نمودار کنترلی رسم‌شده بازتر شود و احتمال خطای نوع 1 افزایش یابد و عملکرد مناسبی در تشخیص و شناسایی انحرافات با دلیل در فاز 2 نداشته باشد. این امر باعث ظهور تخمین‌زننده‌هایی شد تا نسبت به داده‌های پرت حساسیت کمتری داشته باشند و پارامترهای پروفایل را به‌طریق مناسب‌تری برآورد کنند (مونتگومری و همکاران[xiv]، 2015؛ هابر[xv]، 1981).

تاکنون پژوهش‌های محدودی در زمینۀ پایش پروفایل با حضور داده‌های آلوده انجام شده است؛ از جملۀ این پژوهش‌ها، پژوهش عبادی و شهریاری[xvi] (2014) است که در آن از روش‌های تخمین استوار برای پایش پروفایل‌های خطی ساده استفاده کرده‌اند. در این پژوهش پارامترهای پروفایل با دو روش کلاسیک و استوار (M-estimator) با دو تابع وزنی هابر و دومربعی با حضور داده‌های پرت و بدون آن تخمین زده شده است. نتایج این پژوهش نشان می‌دهد وقتی آلودگی وجود ندارد، بین روش‌های تخمین تفاوت زیادی وجود ندارد؛ ولی با وجود داده‌های آلوده تخمین روش استوار دقیق‌تر است و تابع وزنی دومربعی جواب بهتری نشان می‌دهد.

هدف از این مقاله تخمین پارامتر در پروفایل‌های لجستیک با حضور دادۀ پرت در مشاهدات با استفاده از روش استوار و بررسی اثر تخمین روی احتمال خطای نوع 1 و توان نمودار کنترل T2 است. سوال‌های اصلی این پژوهش عبارتند از: 1- بررسی اثر دادۀ پرت روی میانگین و انحراف استاندارد تخمین‌زنندۀ پیشنهادی و کلاسیک پارامترهای رگرسیون لجستیک و احتمال خطای نوع 1 نمودار کنترل T2 ؛ 2- بررسی اثر تخمین‌زنندۀ پیشنهادی در مقایسه با تخمین‌زنندۀ کلاسیک در توان نمودار کنترل T2 تحت شیفت‌های مختلف در پارامترهای رگرسیون لجستیک در حضور داده‌های پرت.

ساختار مقاله بدین صورت است که در بخش 2 روش حداکثر درست‌نمایی برای تخمین پارامترهای پروفایل لجستیک بیان می‌شود. بخش 3 مسئله را تعریف و سپس روش پیشنهادی را ارائه می‌کند. در بخش 4 با ارائۀ مثال عددی، عملکرد روش پیشنهادی با روش کلاسیک حداکثر درست‌نمایی مقایسه می‌شود.

روش حداکثر درست‌نمایی برای برآورد پارامترهای پروفایل لجستیک

الگوی رگرسیون لجستیک در عمل بیشتر از سایر انواع رگرسیون خطی تعمیم‌یافته استفاده می‌شود. این نوع رگرسیون برای مواردی به‌کار می‌رود که مقادیر متغیر پاسخ به‌صورت 0 یا 1 باشند؛ به ‌عبارت ‌دیگر مقادیر متغیر پاسخ دارای توزیع برنولی هستند. در رگرسیون لجستیک احتمال موفقیت در هر آزمایش مستقل برنولی با رابطۀ (1) به ‌دست می‌آید:

(1)

 

در رابطۀ فوق احتمال موفقیت توزیع برنولی با πi نشان داده شده است و xi بردار متغیرهای مستقل و β بردار پارامترهای مدل هستند.

 

مفروضات و مدل مسئله

فرض کنید n مجموعه آزمایش مستقل وجود دارد و در هر مجموعه بردار متغیرهای پیش‌بینی p به‌صورت  است به‌نحوی‌که متغیر پاسخ به‌صورت  تعریف می‌شود. zi دارای توزیع برنولی با احتمال موفقیت πiاست. احتمال πiتابعی از xi بوده و در مدل رگرسیون لجستیک به‌وسیلۀ تابع ارتباطی  مطابق رابطۀ (2) مشخص شده است.

(2)

 

بردار  بردار پارامتر مدل است.  به‌طوری‌که β1 مقدار ثابت مدل است. با‌توجه‌به این تعاریف مقدار احتمال برای هر مجموعه از مشاهدات طبق رابطۀ (3) تعیین می‌شود.

(3)

 

 در رابطۀ (3)،  است. فرض می‌شود داده‌ها گروهی بوده طوری‌که برای مجموعۀ iام متغیرهای کنترلی، mi مشاهده وجود دارد.  بیانگر تعداد کل مشاهدات است. بدیهی است که ، دارای توزیع دوجمله‌ای با پارامترهای (mi, πi) با میانگین  و واریانس  است.

فرض کنید مشاهدات بینم در سطوح مختلف از یکدیگر مستقل هستند؛ بنابراین تابع درست‌نمایی توأم  به‌صورت رابطۀ (4) تعریف می‌شود.

(4)

 

 

طوری‌که  و  است. از رابطۀ (4) لگاریتم گرفته و با در نظر گرفتن ، تابع لگاریتم درست‌نمایی طبق رابطۀ (5) تعریف می‌شود.

(5)

 

با مشتق‌گرفتن از رابطۀ (5) نسبت به β، رابطۀ (6) برقرار است.

(6)

 

که  و  ماتریس n×p است. طبق رابطۀ (6)  است که  بردار صفر pبعدی است. در عمل MLE را می‌توان با تکرار تخمین‌های روش حداقل مربعات وزنی نیز تقریب زد.  بیانگر تخمین‌های بردار پارامترهای β است به‌نحوی‌که  و .

ماتریس وزن  ماتریس قطری n×n است که دارای قطر اصلی و سایر عناصر صفر است. q بردار متغیرهای وابستۀ تعدیل‌شده به‌صورت است؛ جایی‌که  برقرار است؛ بنابراین مطابق تعاریف بیان‌شده رابطۀ (7) حاصل می‌شود.

(7)

 

در رابطۀ (7)،  است. هر دو سمت رابطۀ (6) را در  ضرب کرده، رابطۀ (8) به دست می‌آید.

(8)

 

طبق فرض  رابطۀ (8) به معادلۀ تخمینβ تبدیل می‌شود؛ بنابراین رابطۀ (9) برای تخمین پارامتر به کار گرفته می‌شود.

(9)

 

مقادیر β پس از چند تکرار و با‌توجه‌به شرط توقف مطابق گام‌های زیر تخمین زده می‌شود.

گام‌های تخمین پارامتر

1) تخمین اولیه‌ای از β را به دست آورده و  بنامید. توجه کنید این مقدار اولیه براساس تخمین حداقل مربعات معمولی به ‌دست می‌آید؛ یعنی

(10)

 

قرار دهید i=0.

2) براساس ، مقادیر ،  و را محاسبه کنید.

3)  را به دست آورید.

4) تخمین β را با استفاده از رابطۀ  به‌هنگام کرده و قرار دهید i=i+1.

5) گام 2 تا 4 را تکرار کنید. تا زمانی‌که  شود.  نرم اقلیدسی بردار v و ε مقدار ثابت کوچک (مثلا =10-5ε) است؛ آنگاه  تخمینی مطلوب برای β است.

تعریف مسئله و رویکرد پیشنهادی

در جمع‌آوری داده ممکن است داده(های) پرتی درون داده‌ها وجود داشته باشند که باعث تخمین نادرست پارامترهای پروفایل‌ها ‌شوند. برای اینکه تأثیر این نوع داده‌ها حذف یا کمتر شود از روش‌هایی با نام استوار استفاده می‌شود. این روش‌ها در مدل‌های رگرسیونی استفاده شده‌اند و عملکرد مناسب خود را در حالتی که دادۀ آلوده وجود دارد نشان داده‌اند؛ اما در حوزۀ کنترل فرآیند آماری و به‌طور خاص پروفایل‌ها، پژوهش‌های اندکی انجام شده است. در این مقاله رویکردی جدید برای مقاوم‌سازی پروفایل لجستیک مبتنی بر روش حداکثر درست‌نمایی وزنی[xvii] (WMLE) ارائه شده است. این روش یکی از روش‌های استوار برای تخمین پارامترهای رگرسیون لجستیک است که مارونا و همکاران[xviii] (2006) آن را ارائه داده‌اند. این روش در‌واقع توسعه‌یافتۀ روش حداکثر درست‌نمایی است و به‌گونه‌ای به داده‌های پرت موجود وزن کمتری اختصاص می‌دهد.

معرفی روش حداکثر د‌رست‌نمایی وزنی

کارول و پدرسون (1993) روش ساده‌ای مبتنی بر روش حداکثر تابع درست‌نمایی برای تخمین پارامترها پیشنهاد کرده‌اند. در این روش به داده‌های دور‌افتاده به‌صورت کاهشی وزن تخصیص داده می‌شود. یک مقیاس برای اندازه‌گیری مشاهدات به‌صورت زیر تعریف می‌شود که این مقیاس شبیه به فاصلۀ ماهالانوبیس[xix] است. مارونا و همکاران (2006) این فاصله برای حالتی محاسبه می‌شود که متغیر x ثابت نبوده و فرآیند استوارسازی روی آن انجام شود.

(11)

 

به‌طوری‌که  بردار میانگین مقادیر x و  ماتریس واریانس-کوواریانس این مقادیر است و nتعداد مشاهدات را نشان می‌دهد. در کتاب مذکور، روش بر‌مبنای توزیع برنولی توسعه داده شده است؛ ولی در این مقاله روش پیشنهادی بر‌مبنای توزیع بینم است که در قسمت زیر تشریح می‌شود.

روش پیشنهادی

در پروفایل‌ها چون مقادیر x ثابت فرض می‌شوند و قصد بر این است که مشاهدات (y) نسبت به میانگین آنها استوار شود، فاصلۀ آماری به‌صورت زیر محاسبه می‌شود.

(12)

 

 در رابطۀ فوق و  است. درواقع این فاصله می‌خواهد مقیاسی استاندارد‌شده از فاصلۀ مشاهدات از میانگین را نشان دهد. به این فاصله، باقیماندۀ پیرسون[xx] نیز اطلاق می‌شود. حال با استفاده از تابع توزیع دوجمله‌ای رابطه‌ای برای تخمین استوار پارامترها ارائه می‌شود. تابع چگالی احتمال متغیر تصادفی دوجمله‌ای برابر است با:

(13)

 

 تابع درست‌نمایی برای پارامتر  در رابطۀ بالا به‌صورت زیر نوشته می‌شود.

(14)

 

اگر از طرفین لگاریتم گرفته شود و عباراتی حذف شوند که به پارامتر  بستگی ندارند، رابطۀ (15) به ‌دست می‌آید.

(15)

 

تخمین استوار برای به ‌دست ‌آوردن پارامترها از حداقل‌کردن تابع فوق حاصل می‌شود؛ ولی برای اینکه به مشاهدات پرت وزن کمتری داده شود می‌توان رابطه زیر را در نظر گرفت و آن را حداقل کرد.

(16)

 

 به‌صورت رابطۀ (17) محاسبه می‌شود.

(17)

 

در رابطۀ فوق W تابعی غیر‌صعودی است. کارول و پدرسون (1993) تابع زیر را برای محاسبۀ W پیشنهاد دادند. (c>0)

(18)

 

در رابطۀ فوق c مقداری دلخواه است و اگر  باشد، مقدار تابع I برابر با یک است؛ در غیر‌ این‌ صورت صفر خواهد شد. الگوریتم محاسبۀ پارامتر  به‌صورت زیر است:

1-       ابتدا مقدار اولیه برای  در نظر گرفته می‌شود؛ مثلاً مقداری که به‌وسیلۀ روش MLE به دست آمده است.

2-       با قرار‌دادن مقدار اولیه در رابطۀ (16) یک عدد حاصل و ثبت می‌شود.

3-       سپس با تغییر پارامتر  تعیین می‌شود که تغییر رابطۀ (16) افزایشی یا کاهشی است (مقدار کمتر برای این رابطه دنبال می‌شود).

4-    پس از یافتن جهت حرکت، مقادیر  تا آنجایی تغییر داده می‌شود که دیگر رابطۀ (16) تغییر محسوسی نداشته باشد؛ درواقع اختلاف دو جواب کمتر از ε شود (در اینجا ε برابر 10-4فرض شده است).

در این بخش از روش حداکثر درست‌نمایی وزنی برای تخمین استوار پارامترهای مدل استفاده شد. در‌ ادامه برای ارزیابی عملکرد روش پیشنهادی نتایج که شامل برآرود پارامترهای مدل و احتمال خطای نوع 1 و توان آزمون است با نتایج حاصل از روش حداکثر درست‌نمایی مقایسه می‌شود.

پایش پروفایل لجستیک

برای پایش پروفایل‌ها در فاز 1 روش‌های متداولی وجود دارد که از مهم‌ترین آنها روش T2 است. در مقالۀ یه و همکاران (2009) نیز از این روش استفاده شده است. در مقالۀ مذکور با 5 روش T2 محاسبه شد که بهترین آنها از لحاظ کشف شیفت‌ها  است. این روش مبتنی بر میانگین نمونه و ادغام بین پروفایل‌ها[xxi] است.

در این روش پس از تخمین پارامترها، آماره T2 به‌صورت زیر محاسبه می‌شود.

(19)

,

در این رابطه، SI از طریق رابطۀ زیر محاسبه می‌شود.

(20)

,

در رابطۀ فوق W از رابطه‌ای که در بخش 2-1 ذکر شد به دست می‌آید.

مثال عددی

مثال منتخب برای این مقاله مثال موجود در یه و همکاران (2009) است. در این مثال x یا بردار متغیرهای مستقل دارای 9 سطح است و به‌صورت زیر محاسبه می‌شود.

 

در این مثال هر متغیر پاسخ برابر با مجموع 30 m= متغیر برنولی است؛ در‌نتیجه دارای توزیع دوجمله‌ای (بینم) با 30 آزمایش است و در هر‌بار شبیه‌سازی 30 k= پروفایل تولید می‌شود. برای تولید این داده‌ها از تابع رابط لجیت به‌صورت زیر استفاده می‌شود.

(21)

 

 در این مثال  است که 3  و 2  است. احتمال خطای نوع 1 روی مقدار 05/0 ثابت شده است. برای ایجاد داده‌های پرت از رابطۀ (22) استفاده می‌شود.

(22)

 

 در این رابطه ها دارای توزیع نرمال با میانگین صفر و واریانسσ2 هستند. در این‌صورت مقادیر به‌دست‌آمده احتمال خطای نوع 1 برای حد بالای کنترل  تغییر می‌یابد. اگر واریانس خطاها (σ2) یک در نظر گرفته شود، تغییر احتمال خطای نوع 1 برای هر دو روشِ برآورد در جدول شماره 1 نشان داده شده است.

3

جدول1- مقادیر احتمال خطای نوع 1 پس از افزودن

WMLE

MLE

روش تخمین

0718/0

1242/0

احتمال خطای نوع 1

 

پس از به دست آوردن حد بالای کنترل برای هریک از روش‌ها برای رابطۀ (22)، اثر داده‌های پرت به‌وسیلۀ افزایش واریانس خطاها بررسی می‌شود. اگر برای پروفایل‌های 5، 10، 15، 20، 25 و 30 از 9 سطح موجود برای x که سه سطح آن به‌تصادف انتخاب شده است، واریانس خطاها از 1 به 4 افزایش یابد، مقادیر برآورد پارامترهای مدل برای 10000 بار شبیه‌سازی در جداول (2) تا (5) نشان داده شده است.

در جدول 2 مقادیر میانگین و در جدول 3 مقادیر انحراف استاندارد برای برآورد پارامتر  برای حالتی که به شیفت کرده است، تحت مقادیر مختلف  با روش پیشنهادی و روش حداکثر درست‌نمایی نشان داده شده است.

 

جدول 2- مقادیر میانگین برآورد پارامتر  درحالت افزایش واریانس خطاها

5/2

2

5/1

1

5/0

0

 

6112/4

3019/4

1127/4

9982/3

8945/3

6142/3

MLE

8016/3

6102/3

4720/3

2018/3

1889/3

1749/3

WMLE

 

جدول 3- مقادیر انحراف استاندارد برآورد پارامتر  در حالت افزایش واریانس خطاها

5/2

2

5/1

1

5/0

0

 

7120/2

2034/2

0145/2

7211/1

4780/1

1245/1

MLE

0010/1

9942/0

8012/0

6275/0

5079/0

4899/0

WMLE

 

حال مقادیر میانگین و انحراف استاندارد برآورد پارامتر  درحالتی‌که این پارامتر به  شیفت کرده است، برای مقادیر مختلف  با دو روش برآوردِ ذکر‌شده محاسبه و در جداول 4 و 5 آورده شده است.

 

جدول 4- مقادیر میانگین برآورد پارامتر  در حالت افزایش واریانس خطاها

5/1

2/1

9/0

6/0

3/0

0

 

4255/3

2017/3

9925/2

8018/2

6117/2

4120/2

MLE

5779/2

4459/2

3118/2

2017/2

1179/2

1005/2

WMLE

 

جدول 5- مقادیر انحراف استاندارد برآورد پارامتر  در حالت افزایش واریانس خطاها

5/1

2/1

9/0

6/0

3/0

0

 

7785/2

3179/2

9128/1

5235/1

1205/1

9971/0

MLE

0127/1

7112/0

6775/0

5892/0

4479/0

3027/0

WMLE

 

همان‌طور‌که مشاهده می‌شود در‌حالتی‌که واریانس خطاها افزایش می‌یابد، میانگین و انحراف استاندارد تخمین پارامترها به‌شدت تحت تأثیر قرار می‌گیرد. این تغییرات بسیار محسوس‌تر از حالتی است که فقط در پروفایل‌ها شیفت باشد؛ زیرا با تغییر واریانس خطاها، داده‌های پرتی درون پروفایل‌ها ایجاد می‌شود که روش کلاسیک MLE از آن‌ها تأثیر زیادی می‌پذیرد و روی تخمین پارامترها اثر منفی می‌گذارد. از سوی دیگر همان‌گونه در جداول بالا مشخص است روش پیشنهادی به‌مراتب تأثیرپذیری کمتری از داده‌های پرت دارد و با وزن‌دادن به داده‌هایی که دور‌افتاده هستند تخمین بهتری از پارامترها به دست می‌آید.

حال احتمال خطای نوع 1 نمودار کنترل  در حضور داده‌های پرت در سطوح مشخص از طریق افزایش واریانس خطاها محاسبه و نتایج در جدول 6 نشان داده شده است.

 

جدول 6- مقادیر احتمال خطای نوع 1 پس از افزایش واریانس خطاها

WMLE

MLE

روش تخمین

1251/0

2543/0

احتمال خطای نوع 1

 

همان‌گونه‌که از جدول 6 مشخص است در‌صورت وجود داده‌های آلوده که از طریق افزایش واریانس خطاها به دست می‌آید، روش استوار به‌مراتب عملکرد بهتری از خود نشان می‌دهد.

حال برای مقایسۀ توان نمودار کنترل  زمانی‌که پارامترهای پروفایل با روش پیشنهادی و روش کلاسیک تخمین زده می‌شوند، حد کنترل بالا به‌گونه‌ای تنظیم می‌شود که احتمال خطای نوع 1 برابر 05/0 برای نمودار کنترل برمبنای هر دو روش تخمین به دست آید. سپس با شیفت‌دادن در پارامترهای رگرسیون لجستیک توان نمودار کنترل تحت شیفت‌های مختلف در پارامترهای و  محاسبه می‌شود.

 

جدول 7- مقادیر احتمال خطای نوع 1 و توان آزمون برای شیفت در پارامتر

5/2

2

5/1

1

5/0

0

 

1005/0

0891/0

0761/0

0661/0

0562/0

0500/0

MLE

1275/0

1098/0

0901/0

0757/0

0589/0

0499/0

WMLE

 

جدول 8- مقادیر احتمال خطای نوع 1 و توان آزمون برای شیفت در پارامتر

5/1

2/1

9/0

6/0

3/0

0

 

0957/0

0865/0

0755/0

0653/0

0569/0

0500/0

MLE

1098/0

0997/0

0881/0

0762/0

0591/0

0502/0

WMLE

 

با‌توجه‌به جداول 7 و 8 نتیجه می‌شود که با ایجاد شیفت در پارامترهای رگرسیون لجستیک، توان نمودار کنترل برمبنای روش پیشنهادی از روش کلاسیک حداکثر درست‌نمایی بالاتر است. این مطلب نشان‌دهندۀ عملکرد بهتر روش پیشنهادی است.

در این بخش نحوۀ آلوده‌کردن داده‌ها تغییر داده می‌شود؛ به این صورت که درصدی ((r از کل داده‌های موجود با افزایش واریانس خطاها آلوده می‌شود. در جدول 9 برای r برابر با 07/0 و 15/0 واریانس خطاها از 1 به 4 تغییر داده شده و احتمال خطای نوع 1 نمودار کنترل  تحت هر دو روش پیشنهادی و کلاسیک تخمین محاسبه و گزارش شده است.

جدول 9- احتمال خطای نوع 1 در حالت خطای کلی

احتمال خطای نوع 1

روش برآورد

 

1801/0

MLE

07/0r=

1021/0

WMLE

2779/0

MLE

15/0r=

1541/0

WMLE

 

همان‌طورکه مشخص است در روش کلاسیک احتمال خطای نوع 1 به‌شدت تحت تأثیر داده‌های پرت قرار می‌گیرد؛ ولی روش پیشنهادی به‌مراتب عملکرد بهتری نسبت به روش معمول دارد.

 

نتیجه‌گیری

در این مقاله از روش استوار برای تخمین پارامترهای پروفایل لجستیک استفاده و با روش کلاسیکِ حداکثر درست‌نمایی مقایسه شد. این دو روش در حالتی که داده‌های پرت درون داده‌ها وجود دارند از لحاظ تخمین پارامترها و احتمال خطای نوع 1 و توان نمودار کنترل با هم مقایسه شدند. البته در این مقاله دو نوع آلودگی به‌صورت جداگانه در نظر گرفته شد. با مقایسۀ نتایج مشخص می‌شود هرگاه دادۀ پرت در مشاهدات وجود داشته باشد، روش کلاسیکِ حداکثر درست‌نمایی کارایی خود را به‌طور کامل از دست می‌دهد. در مقابل روش پیشنهادی حداکثر درست‌نمایی وزنی به‌مراتب عملکرد مناسب‌تری نسبت به روش کلاسیک دارد. این نتیجه از تخمین‌های پارامترها، احتمال خطای نوع 1 و توان نمودار کنترل برای پایش پروفایل‌های لجستیک در فاز 1 مشاهده می‌شود؛ به عبارت دیگر هدف از این پژوهش نشان‌دادن عملکرد روش WMLE نسبت به روش MLE برای تخمین پارامترهای پروفایل رگرسیون لجستیک با حضور داده‌های پرت بوده که بدین‌منظور از مثال شبیه‌سازی استفاده و برمبنای تخمین پارامترها، معیارهای هشدار اشتباهی و توان نمودار کنترل تحلیل شده است. نتایج حاصل از شبیه‌سازی نشان داد روش WMLE به‌دلیل تخصیص وزن کمتر به داده‌های پرت و کاهش اثر این داده‌ها، عملکرد بهتری را در تخمین پارامتر از خود نشان داده است. بسیاری از پژوهشگران نیز برای نشان‌دادن و ارزیابی عملکرد روش‌های پیشنهادی خود از مثال شبیه‌سازی استفاده کرده‌اند؛ برای مثال می‌توان به پژوهش‌های اسدزاده و همکاران[xxii] (2009)، شهریاری و همکاران[xxiii](2009)، و عبادی و شهریاری (2014) اشاره کرد.



[i] Kang and Albin

[ii] Mahmoud and Woodall

[iii] Zhang et al.

[iv] Zhu and Lin

[v] Williams et al.

[vi] Zou et al.

[vii] Vaghefi et al.

[viii] Generalized Linear Model

[ix] Yeh et al.

[x] Saghaei et al.

[xi] Mean Square

[xii] Maximum Likelihood

[xiii] Outlier

[xiv] Montgomery et al.

[xv] Huber

[xvi] Ebadi and Shahriari

[xvii] Weighted Maximum Likelihood Method

[xviii] Maronna et al.

[xix] Mahalanobis

[xx] Pearson Residual

[xxi] T2 based on sample average and intra profile pooling

[xxii] Asadzadeh et al.

[xxiii] Shahriari et al.

Noorossana, R., &  Izadbakhsh, H.R., (2013), “Profile Monitoring for Multinomial Responses” International Journal of Industrial Engineering & Production Managemen, 23) 4), 417-429.

Asadzadeh, S. Aghaie, A, Shahriari, H. (2009), “Monitoring Dependent Process Steps Using Robust Cause-selecting Control Charts”, Quality and Reliability Engineering International, 25(2), 851–874.

Carroll, R.J., & Pederson, S., (1993), "On robustness in the logistic regression model", Journal of the Royal Statistical Society (B), 2(55), 693–706.

Ebadi, M., & Shahriari, H., (2014), "سادهRobust Estimation of Parameters in Simple Linear Profiles Using M-Estimators", Communications in Statistics - Theory and Methods, 43(20), 4308-4323.

Huber, P. J., (1981), "Robust Statistics", John Wiley & Sons, New York.

Kang, L., & Albin, S.L., (2000), "On-Line Monitoring When the Process Yields a Linear Profile", Journal of Quality Technology, 32(4), 418-426.

Mahmoud, M.A., & Woodall, W.H., (2004), "Phase I Analysis of Linear Profiles with Calibration Applications", Technometrics, 3(46), 380-391.

Maronna, AR., Martin, R.D., & Yohai, V.J., (2006), Robust Statistics Theory and Methods, John Wiley, New York.

Montgomery, D.C., Peck, & E.A., Vining, G., (2015), Introduction to linear regression analysis (4th ed.), John Wiley & Sons, New York.

Noorossana, R., Saghaei, A., & Amiri, A., (2011), "Statistical Analysis of Profile Monitoring", John Wiley & Sons, Inc.

Saghaei, A., Mehrjoo, M., & Amiri, A., (2009), "A CUSUM-based Method for Monitoring Simple Linear Profiles". International Journal of Advanced Manufacturing Technology, 45(10), 1252-1260.

Saghaei, A., Rezazadeh-Saghaei, M,. Noorossana, R., & Dorri, M., (2012),"Phase II Logistic Profile Monitoring",International Journal of Industrial Engineering & Production Research, 23(4), 291-299.

Shahriari, H., Maddahi, A., Shokouhi, A.H. (2009), “A Robust Dispersion Control Chart Based on M-estimate”, Journal of Industrial and System Engineering, 2(4), 297-307.

Vaghefi, A., Tajbakhsh S.D., & Noorossana, R., (2009), "Phase II Monitoring of Nonlinear Profiles", Communications in Statistics-Theory and Methods, 21(38), 1834-1851.

Williams, J. D., Woodall, W. H., & Birch, J. B., (2003), "Phase I Monitoring of Nonlinear Profiles"., paper presented at the 2003 Quality and Productivity Research Conference, Yorktown Heights, New York.

Williams J.D., Woodall W.H., & Birch, J.B, (2007), "Statistical Monitoring of Nonlinear Product and Process Quality Profiles", Quality and Reliability Engineering International, 23(2), 925-941.

Woodall, W.H., (2007), "Current Research on Profile Monitoring", Revista Producão, 12(17), 420-436.

Yeh A.B., Huwang L., & Li Y.M., (2009), "Profile Monitoring for a Binary Response", IIE Transactions, 41(13), 931-941.

Zhang J., Li Z. H., & Wang Z. H, (2009), "Control Chart Based on Likelihood Ratio for Monitoring Linear Profiles". Computational Statistics and Data Analysis, 53(7), 1440-1448.

Zhu J., & Lin D.K., (2010), "Monitoring the Slopes of Linear Profiles". Quality Engineering, 33(1), 1-12.

Zou, C., Tsung, F., & Wang, Z., (2008), "Monitoring Profiles Based on Nonparametric Regression Methods", Technometrics, 21(50), 512-526.