بکارگیری تخیمن پارامتر برای بهبود شاخص های ارتباطی در رگرسیون لجستیک باینری

نوع مقاله: مقاله پژوهشی

نویسندگان

1 استادیار دانشکده مهندسی صنایع دانشگاه شاهد

2 دانشجوی کارشناسی ارشد مهندسی صنایع دانشگاه شاهد

چکیده

هدف از این مقاله، تخمین پارامترهای مدل رگرسیون لجستیک باینری به منظور بیشینه سازی تابع لگاریتم درست‌نمایی با شاخص‌های ارتباطی بهبود یافته است. رگرسیون لجستیک نیز، مانند سایر روش‌های تخمین پارامتر نیاز به یک معیار برای مناسب بودن تخمین پارامترهای آن دارد که از جمله آنها، می‌توان به شاخص‌های ارتباطی اشاره نمود. شاخص‌های ارتباطی، شاخص‌هایی هستند که تعداد وقوع پاسخ موفقیت در مقابل پاسخ شکست را برای تعداد مشخصی آزمایش مستقل برنولی نشان می‌دهد. در تخمین پارامتر، مقادیر شاخص‌ها با تغییر مقادیر پارامتر تغییری نمی‌کنند، در حالی­که شاخص‌های پیشنهادی با تغییر در پارامترهای برآورد شده در مراحل تکرار روش حل، تغییر می‌کنند. بنابراین، جنبه نوآوری این تحقیق در ارایه یک شاخص ارتباطی جدید برای رگرسیون لجستیک باینری است که نسبت به تغییرات پارامترهای برآوردشده در بیشینه سازی تابع لگاریتم درست-نمایی مراحل تکرار روش حل، حساسیت بیشتری دارد. نتایج تحلیل یک مثال و مقایسه آنها با شاخص‌های ارتباطی نشان‌دهنده دقت بالاتر و مناسب بودن شاخص‌های پیشنهادی است.

کلیدواژه‌ها


عنوان مقاله [English]

Parameter Estimation for Improving Association Indicators in Binary Logistic Regression

نویسندگان [English]

  • Mahdi Bashiri 1
  • Reza Kamranrad 2
1 Assistant Professor, Faculty of Industrial Engineering, Shahed University
2 M.Sc. Student in Industrial Engineering, Shahed University.
چکیده [English]

The aim of this paper is to estimate the parameters of Binary Logistic Regression model for maximizing the log-likelihood function with improved association indicators. Logistic regression, similar to other parameter estimation approaches, requires an indicator for the estimation appropriateness of its parameters, one of which is the association indicator. The association indicators demonstrate the frequency of success responses occurred against failure in certain number of Bernoulli independent experiments. In parameter estimation, existing indicators' values are not sensitive to the parameter values, whereas the proposed indicators are sensitive to the estimated parameters during the iterative procedure. Therefore, the innovation of this study is in proposing a new association indicator of Binary Logistic Regression with more sensitivity to the estimated parameters in maximizing the log-likelihood in iterative procedure.Findings of an example analysis and their comparison with association indicators imply higher accuracy and appropriateness of the proposed indicators.

کلیدواژه‌ها [English]

  • Parameter Estimation
  • Binary Logistic Regression
  • Association indicator
  • Concordant number
  • Membership degree

1- مقدمه

رگرسیون لجستیک یکی از تکنیک­های کاربردی برای تحلیل داده­های طبقه­بندی شده است. بعنوان نمونه اگر نتیجه آزمایشی را بصورت برد/ باخت تعریف کنیم، در این حالت متغیر پاسخ دیگر پیوسته نبوده، بلکه بصورت طبقه­بندی شده خواهد بود. یکی از اقسام رگرسیون لجستیک، مدل رگرسیون لجستیک باینری بوده که تعداد طبقه­بندی­های متغیر پاسخ در این مدل دوتاست. اگر این تعداد طبقه­بندی­ها بیش از دو تا باشد، آنگاه با توجه به جنس متغیر پاسخ (یعنی اسمی و ترتیبی) مدل‌ها‏ی رگرسیون لجستیک اسمی و ترتیبی حاصل می­شود. مثال ارائه شده در این پژوهش به صورت یک آزمایشی درشش تیمار (وضعیت) با سه متغیر کنترلی بوده و متغیر پاسخ نیز به صورت صفر و یک بوده (جدول 3)، لذا مدل مورد استفاده، مدل رگرسیون لجستیک باینری خواهد بود.

 همانگونه که از عنوان این پژوهش مشخص است، مسأله مورد نظر در سیستم‌های غیرخطی مانند سیستم باینری بررسی شده که با استفاده از تخمین پارامتر برای مدل رگرسیون لجستیک باینری، می‌خواهیم شاخص‌های ارتباطی که نشان­دهنده وضعیت سیستم است را بهبود دهیم، اما در عمل مقادیر پارامترها برای یک معادله رگرسیونی نامشخص است (بشیری و همکاران، 1389). برای ایجاد این معادله، باید ضرایب متغیرها یا همان پارامترهای مسأله را بطور تخمینی به‌دست آورد. روش‌های مختلفی برای تخمین پارامتر وجود دارد؛ یکی از روش‌های رایج، روش حداقل مربعات خطاست[1] که در این روش هدف، یافتن مقادیر ضرایب رگرسیونی به منظور حداقل کردن میانگین مربعات خطاست. روش دیگر مورد استفاده، روش حداکثر درست نمایی[2] بوده، که با هدف ماکزیمم­سازی درست­نمایی مدل به تخمین پارامترهای مدل می­پردازد. در واقع، روش تخمین حداقل مربعات خطا، حالت خاصی از روش حداکثر درست­نمایی است زمانی که خطای مشاهده شده و داده­ها از توزیع نرمال یا گوسین پیروی نمایند. زیبندگی به‌دست آمده که با یافتن مقادیر پارامتر مدل، بهترین تناسب برای داده را ایجاد می­کند، تخمین پارامتر و همچنین گاهی بهینه­سازی نیز گفته می­شود (آگرستی، 2007). با توجه به آنکه مدل بکار رفته در این مسأله، به صورت غیرخطی است، لذا مقادیر پارامتر با استفاده از روش لگاریتم حداکثر درست­نمایی تخمین زده می‌شود؛ دلیل استفاده از لگاریتم بخاطر خطی کردن تابع درست­نمایی و آسان شدن عملیات ریاضی برای رسیدن به رابطه مورد نظر است که گام‌های آن برای مدل رگرسیون لجستیک باینری در این مقاله ارائه شده است. همچنین علاوه بر تعیین مقادیر درست­نمایی، مقادیر شاخص‌های اندازه­گیری بنحو جدیدی محاسبه می­شود. ساختار این مقاله بدین صورت است که در بخش بعد به مطالعاتی که در زمینه تخمین پارامتر شورت گرفته اشاره شده است. در بخش سوم چگونگی و گامهای تخمین پارامتر در مدل رگرسیون لجستیک باینری بیان می­شود. در بخش چهارم و پنجم به تعریف متغیرهای مسأله و تبیین شاخص‌های مورد استفاده برای تحلیل مدل و روش پیشنهادی تحقیق می­پردازیم. در ادامه مثالی برای توضیح و روشن شدن روش پیشنهادی ارائه خواهد شد و نهایتاً در بخش هفتم به تحلیل نتایج آزمایش خواهیم پرداخت.

 

2- مروری بر مطالعات پیشین

اهمیت ضرایب متغیرها در مدل رگرسیون که نشان­دهنده میزان تاثیر هر متغیر کنترلی بر متغیر پاسخ است، موجب شده تا روش‌هایی برای تعیین یا تخمین آنها ایجاد و بهبود داده شود. در این بخش مطالعاتی که در زمینه تخمین پارامتر و کاربردهای رگرسیون لجستیک انجام شده، اشاره خواهد شد. در دو دهه اخیر تخمین پارامترهای غیرخطی به کمک کامپیوتر به همراه روش‌های آماری، روش استانداردی برای تحلیل داده­های کاربردی را ایجاد نمودند(بارد و همکاران، 1974). روش بیان شده توسط بارد[3] (1974) برای محاسبه پارامترهای نامعین مدل براساس حداقل کردن تابع هدف و سپس تعیین پارامتر کافی نبوده و دقت تخمین‌ها باید براساس استنباط آماری و روش تخمین صورت گیرد. مایرز و همکاران[4] (1937) در کتاب الگوهای خطی تعمیم­یافته روش‌های مختلف برآورد پارامتر را معرفی نمودند. در این کتاب، الگوهای مختلف برآورد پارامتر در سیستم‌های خطی و غیر خطی شامل رگرسیون لجستیک و پوآسن ارائه شده است. پویتون و همکاران[5](2006). به بررسی تخمین پارامتر در مدل‌ها‏ی پویا با زمان پیوسته با استفاده از تحلیل تفاضلی اصلی پرداختند. تحلیل تفاضلی اصلی یکی از تکنیک­های تخمین پارامتر برای مدل‌ها‏ی معادله دیفرانسیلی است که در آن توابع پایه برای داده­های پویا مناسب هستند. مزیت این تحلیل کم بودن محاسبات نسبت به رگرسیون غیر خطی بوده و دارای این عیب است که پارامترهای تخمینی دارای دقت کمتری هستند. کاسکر و همکاران[6] (2010) بهبود تخمین پارامتر را در قلمرو زمانی بررسی نمودند. تخمین پارامتر می­تواند، بطور مستقیم در قلمرو زمانی با ایزوله کردن نواحی که در آن خطای پیش­بینی بعنوان خطای پارامترهای مدل پویا در نظر گرفته می‌شوند، انجام شود. بر پایه معادلات تک پارامتری خطای پیش­بینی، پارامترهای مدل تکی خطا را
می توان بصورت تکراری تخمین زد. داچین[7](2003) نحوه تخمین پارامتر را در فرایندهای شیمی و بیوشیمی ارائه نمود. وان یانگ و همکاران[8](2010) به معرفی روش مقیاسی ابتکاری برای تخمین پارامتر کارا پرداختند. در تخمین پارامتر، ترتیب بزرگی اختلاف بین مقادیر پارامتر برای یافتن بهینگی دشوار است، چون مسأله تخمین پارامتر با اختلاف می­تواند بد حالت باشد که برای اجتناب از سختی باید فاکتور مقیاسی مناسب پارامتر برای تخمین پارامتر تعریف شود. از آنجایی که روش مناسبی برای تعیین مجموعه فاکتور مقیاسی وجود ندارد لذا در این مقاله روش ابتکاری جدیدی برای تعیین فاکتور مقیاسی که مسأله تخمین پارامتر را خوش حالت می­کند ارائه شده است. لیندنر و همکاران[9](2006) طراحی آزمایشات را برای تخمین پارامتر بهینه فرایند جنبشی آنزیم براساس تحلیل ماتریس اطلاعات فیشر انجام دادند. چو و همکاران[10](2009) توسعه­های اخیر در تخمین پارامتر و ساختارشناسی سیستم‌های بیوشیمی و زیست‌شناسی ارائه کردند. لو و همکاران[11](2008) الگوریتمی برای تخمین پارامترها در مدل‌ها‏ی معادلات دیفرانسیل احتمالی ارائه نمودند. این الگوریتم بر پایه رابطه حداقل مربعات وزنی غیرخطی است که در آن تابع هدف براساس میانگین مقادیر متغیرهای پیش­بینی است. یه و همکاران[12] (2009) به بررسی ارتباط بین تابع پروفایل با متغیرهای کنترلی و پاسخ با استفاده از رگرسیون لجستیک پرداختند. در این مقاله ابتدا با بکارگیری روش حداکثر درست نمایی، ضرایب رگرسیونی برای مدل رگرسیون لجستیک باینری تخمین زده شده و سپس با تشکیل مدل رگرسیونی به بررسی هدف مورد نظر می­پردازد. پس از بیان تحقیقات انجام شده در زمینه تخمین پارامتر، لازم است انواع روش‌ها و کاربردهای رگرسیون لجستیک نیز اشاره شود. رگرسیون لجستیک تا اواسط دهه 40 میلادی توسعه نیافته بود و تا دهه 70 میلادی نیز کمتر استفاده می‌شد، اما هم اکنون کاربردهای فراوانی از آن دیده می­شود (آگرستی، 2007). رگرسیون لجستیک یکی از تکنیک‌های کاربردی جهت تحلیل داده­های طبقه­بندی شده است. این تکنیک با توجه به نوع و تعداد طبقه‌بندی­های متغیر پاسخ به سه دسته باینری، اسمی و ترتیبی تقسیم می­شود. مطالعات اولیه در رابطه با این تکنیک در راستای ارائه مدل‌ها‏ و روابط آماری بوده در حالی­که مطالعات بعدی شامل به­کارگیری و استفاده از روابط در مسائل ذکر شده است.

والکر[13] و همکاران (1967) مدل لجیت تجمعی را پیشنهاد دادند که بعدها توسط کولاژ[14] (1980) توسعه یافت و این مدل، به مدل نسبی احتمالات شهرت پیدا کرد. فینبرگ[15](1980) یک مدل جایگزین برای مدل نسبی احتمالات ارائه کرد که به مدل نسبت تجمعات نام گذاری شد. کاکس[16] و همکاران (1984) برای تاثیر میزان دز چهار دارو بر روی سلامتی افراد از مدل رگرسیون لجستیک ترتیبی استفاده کردند. پیترسون[17] و همکاران (1990) مدل احتمالات جزئی نسبی را برای رگرسیون لجستیک ترتیبی ارائه دادند. این مدل به دو زیر مدل با محدودیت و بی محدودیت تقسیم می­شود؛ مدل ارائه شده توسط پیترسون و همکاران، توانست محاسبه مقادیر احتمال را ساده­تر کند. که مدل مورد استفاده در محاسبه احتمالات جزیی در بخش تخمین پارامتر، همان مدل احتمالات جزیی نسبی پترسون است. یکی از کاربردهای رگرسیون لجستیک در امور بهداشت و درمان است در این زمینه کارهای فراوانی انجام شده که برخی از آنها عبارتست از، بریزر[18] و همکاران (1991) از رگرسیون لجستیک ترتیبی در پیش بینی تومور روده استفاده کرده­اند. آنها برای این کار از 461 بیمار استفاده کردند و اذعان داشتند که روش آنها بدرستی توانسته است تومور بیماران انتخابی را پیش­بینی کند، اما آنها دلیلی برای عمومیت این روش بیان نکردند پس لزومی برای درست بودن این روش بر اساس متغیرهای کنترلی تعیین شده برای بیماران دیگر وجود ندارد. نپ[19] (1999) از نسبت­های ترتیبی برای ارزیابی شدت بیماری با مقیاس طبقه­بندی شده از قبیل ضعیف، متوسط و شدید استفاده کرد. بدین منظور هریک از متغیرهای پاسخ نامبرده شده را بترتیب با اعداد 1 و2 و 3 نمایش می­دهد. عدد 3 بیانگر وضعیت بحرانی­تر نسبت به عدد2 بوده و عدد 2 نیز نشان­دهنده حالت بحرانی­تر از وضعیت 1 است. با این تعاریف از مدل رگرسیون لجستیک ترتییی برای محاسبه احتمال وقوع هریک از پاسخ­ها که نشان­دهنده وضعیت و نوع بیماری هستند را محاسبه می­کند. هوانگ[20] و همکاران (2009) روش جدیدی با استفاده از مدلسازی آماری برای تعیین ارتباط بین ارزیابی بلوغ و پارامتر زمان توسط رگرسیون لجستیک ترتیبی ارائه کردند.  از دیگر کاربردهای رگرسیون لجستیک در امور بازاریابی و فروش و صنعت است.  لوسونل[21] و همکاران (2006 )، تجزیه و تحلیلی برای رضایت مشتریان توسط رگرسیون لجستیک باینری و اسمی و ترتیبی انجام داده­اند. آنها پس از به­دست آوردن رابطه رگرسیون، توانستند عامل اثرگذار رضایت مشتری را بیابند. ژو[22] و همکاران (2008)،از رگرسیون لجستیک ترتیبی برای بررسی نقش احساسات مشتریان در طراحی محصول استفاده کردند، بدین­صورت که ابتدا نیازمندی­ها و احساسات مشتریان را در مورد محصولی خاص(مطالعه موردی :اتاق کامیون ولوو) بررسی کرده و سپس این نظرات را به طراح، برای برقراری ارتباط منطقی بین طراحی محصول و نیازهای مشتریان منتقل کردند. همچنین مهدی بشیری و همکاران (1389) در مقاله­ای با "عنوان بهینه­سازی متغیرهای پاسخ در مدل رگرسیون لجستیک ترتیبی با استفاده از روش‌های ابتکاری و فرا ابتکاری" به تعیین و بهبود متغیرهای کنترلی تاثیرگذار بر رضایت­مندی دانشجویان از عملکرد سایت کامپیوتر به‌منظور بهینه­کردن متغیر پاسخ با استفاده از مدل رگرسیون لجستیک ترتیبی پرداختند (بشیری و همکاران، 1389). جداول (1) خلاصه­ای از مطالعات انجام شده در زمینه تخمین پارامتر و کاربردهای رگرسیون لجستیک را بتریتب سال پژوهش نشان می­دهد.

 

 

 

 

 

 

 

 

 

 

جدول 1- بررسی مطالعات پیشین در زمینه تخمین پارامتر

محققان

سال

مطالعات انجام شده و کاربردهای تخمین پارامتر

مایرز و همکاران

1937

ارائه الگوهای مختلف برآورد پارامتر در سیستم‌های خطی و غیر خطی

بارد و همکاران

1974

تخمین پارامترهای غیرخطی به کمک کامپیوتر به همراه روش‌های آماری

داچین

2003

ارائه روش تخمین پارامتر در فرایندهای شیمی و بیوشیمی

پویتون و همکاران

2006

بررسی تخمین پارامتر در مدل‌ها‏ی پویا با زمان پیوسته با استفاده از تحلیل تفاضلی اصلی

لیندنر و همکاران

2006

انجام طراحی آزمایشات برای تخمین پارامتر بهینه فرایند جنبشی آنزیم

لو و همکاران

2008

ارائه الگوریتمی برای تخمین پارامترها در مدل‌ها‏ی معادلات دیفرانسیل احتمالی

چو و همکاران

2009

ارائه توسعه­های اخیر در تخمین پارامتر و ساختارشناسی سیستم‌های بیوشیمی و زیست­شناسی

یه و همکاران

2009

ارائه روش تخمین پارامتر در سیستم‌های غیرخطی باینری به‌منظور تعیین ارتباط بین تابع پروفایل و متغیرهای کنترلی در مدل رگرسیون لجستیک

کاسکر و همکاران

2010

بررسی بهبود تخمین پارامتر را در قلمرو زمانی

وان یانگ و همکاران

2010

معرفی روش مقیاسی ابتکاری برای تخمین پارامتر کارا

 

جدول 2- بررسی مطالعات پیشین در زمینه رگرسیون لجستیک

محققان

سال

مطالعات انجام شده و کاربردهای رگرسیون لجستیک

بررسی شاخص‌های ارتباطی

والکر و همکاران

1967

ارائه مدل لجیت تجمعی

-

کولاژ

1980

ارائه مدل نسبی احتمالات

-

فینبرگ

1980

ارائه مدل نسبت تجمعات

-

کاکس و همکاران

1984

بررسی تاثیر میزان دز چهار دارو بر سلامتی افراد با استفاده از مدل‌ها‏ی رگرسیون لجستیک ترتیبی

-

پیترسون و همکاران

1990

مدل احتمالات جزئی نسبی

-

بریزر و همکاران

1991

یش بینی بروز تومور روده با به­کارگیری رگرسیون لجستیک

-

نپ

1999

استفاده از نسبت­های ترتیبی برای ارزیابی شدت بیماری با مقیاس طبقه­بندی شده

-

لوسونل و همکاران

2006

معرفی انواع مدل‌ها‏ی رگرسیون لجستیک و به­کارگیری تکنیک­های رگرسیون لجستیک در تعیین میزان رضایت­مندی مشتریان

-

ژو  و همکاران

2008

به­کارگیری رگرسیون لجستیک ترتیبی برای بررسی نقش احساسات مشتریان بر طراحی محصول

-

هوانگ و همکاران

2009

استفاده از مدلسازی آماری برای تعیین ارتباط بین ارزیابی بلوغ و پارامتر زمان توسط رگرسیون لجستیک ترتیبی

-

بشیری و همکاران

1389

بهینه­سازی متغیر پاسخ در مدل رگرسیون لجستیک ترتیبی با استفاده از روش‌های ابتکاری و فراابتکاری

-

تحقیق حاضر

1389

ارائه شاخص ارتباطی رگرسیون لجستیک باینری با حساسیت بیشتر به تخمین پارامتر در حداکثرسازی لگاریتم درست­نمایی

*

*: بررسی شاخص‌های ارتباطی در مقاله

- : عدم بررسی شاخص‌های ارتباطی در مقاله

         

 

 


3- تخمین پارامتر در سیستم‌های غیرخطی باینری

همانگونه که قبلا نیز اشاره شد، روش‌های مختلفی مانند روش حداقل مربعات خطا و حداکثر درست­نمایی برای تخمین ضرایب رگرسیونی در سیستم‌های خطی وجود دارد. اما بدلیل ماهیت طبقه‌بندی متغیرهای پاسخ در مدل‌ها‏ی رگرسیون لجستیک، استفاده مستقیم از این روش‌ها برای تخمین پارامتر در این مسائل امکان پذیر نیست. بطور کلی می­توان برای تبدیل مسائل غیرخطی به خطی از تبدیل لگاریتم استفاده نمود که به مدل حاصل، مدل لگاریتم طبیعی یا لجیت گفته می­شود. روش مورد استفاده در این مقاله برای تخمین پارامتر، روش حداکثر درست نمایی است با این تفاوت که از تبدیل لگاریتم برای تحلیل ماهیت طبقه­بندی متغیرها استفاده شده است که به این روش، روش لگاریتم حداکثر درست­نمایی[23] گفته می­شود. در این روش پارامترهای مدل لجستیک بگونه­ای تخمین زده می­شوند که لگاریتم درست­نمایی حداکثر شود. در ادامه نحوه تخمین ضرایب با استفاده از روش لگاریتم حداکثر درست نمایی بیان می­شود.

 

3-1- مفروضات مسأله

فرض کنید n مجموعه آزمایش مستقل وجود دارد و در هر مجموعه بردار متغیرهای پیش بینی p بصورت  است، طوریکه متغیر پاسخ بصورت تعریف می شود. zi دارای توزیع برنولی با احتمال موفقیت πi می باشد. احتمال πiتابعی از xi بوده و در مدل رگرسیون لجستیک توسط تابع ارتباطی مشخص شده که مطابق رابطه(1) است.

(1)

 

بردار  بردار پارامتر مدل است. توجه کنید که  بطوری که β1 مقدار ثابت مدل است. با توجه به این تعاریف مقدار احتمال برای هر مجموعه از مشاهدات طبق رابطه (2) تعیین می شود.

(2)

 

 

جایی‌که . فرض کنید که داده ها گروهی بوده طوریکه برای مجموعه iام متغیرهای کنترلی، mi مشاهده وجود دارد. بیانگر تعداد کل مشاهدات است. اگر  بیانگر jامین مشاهده در iامین مجموعه  از متغیرهای کنترلی باشد، آنگاه  برابر مجموع مشاهدات (یا مجموع تعدادی از آزمایشات مستقل برنولی) انجام گرفته در تیمار iام طرح آزمایش بوده و لذا دارای توزیع دو جمله‌ای (mi, πi) با میانگین  و واریانس  است.

فرض کنید داده های گروهی مستقل هستند، لذا تابع درست نمایی توام بصورت رابطه(3) تعریف می‌شود.

(3)

 

طوری ‌که  و  است. از رابطه(3) لگاریتم گرفته و با درنظر گرفتن ، می‌توان تابع لگاریتم درست نمایی را طبق رابطه (4) تعریف نمود.

 

 

با مشتق گرفتن از رابطه(4) نسبت به β رابطه(5) برقرار است.

 

 

 

 

جایی که  و  یک ماتریس n*p است. طبق رابطه(5)  بوده که  بردار صفر p بعدی است. در عمل MLE را می توان با تکرار تخمین‌های روش حداقل مربعات وزنی نیز تقریب زد. قرار دهید  بیانگر تخمین‌های β بطوری که  و .

 ماتریس وزن  یک ماتریس قطری n*n که دارای قطر اصلی بیان شده و سایر عناصر صفر است. q متغیر وابسته تعدیل شده بصورت است جایی که . لذا مطابق تعاریف بیان شده رابطه (6) حاصل می شود.

 

 

 

که . هر دو سمت رابطه (6) را در  ضرب کرده لذا رابطه(7) به‌دست می آید.

 

 

 

 

 

 

 

 

 

طبق فرض  معادله (7) را می توان بصورت رابطه تخمین β تبدیل نمود که معادله (8) برای تخمین پارامتر بکار گرفته می شود.

(8)

 

که مقادیر β پس از چند تکرار و با توجه به شرط توقف مطابق گام‌های زیر تخمین زده می شود[20].

 

3-2- گام‌های تخمین پارامتر

3-2-1- تخمین اولیه‌ای از β را به‌دست آورده و  بنامید. توجه کنید که این مقدار اولیه را می‌توان بر اساس تخمین حداقل مربعات معمولی به‌دست آورد؛ یعنی

(9)

 

قرار دهید i=0.

3-2-2- بر اساس ، مقادیر ،  و  را محاسبه نمایید.

3-2-3- را به‌دست آورید.

3-2-4- تخمین β را با استفاده از رابطه  به هنگام کرده و قرار دهید i=i+1.

3-2-5- گام 2 تا 4 را تکرار کنید. تا زمانیکه  شود.  نرم اقلیدسی بردار v و α مقدار ثابت کوچک(مثلا =10-5α) است، آنگاه  تخمینی مطلوب برای β است[20].

4- متغیرهای مسأله و تبیین شاخص‌های موجود

همان­گونه که پیشتر نیز بیان شد، هدف از این مقاله تخمین مقادیر پارامترهای مدل رگرسیون لجستیک باینری با استفاده از روش یه و همکاران به منظور بهبود شاخص‌های ارتباطی است. آنچه که نقش تخمین پارامتر را در این تحقیق نمایان می­سازد، روش پیشنهادی محققین است که به­طور کامل در انتهای این بخش و بخش پنجم بیان خواهد شد. اگر بخواهیم به­طور خلاصه نقش تخمین پارامتر را بیان کنیم، می­توان به حساس نمودن شاخص‌های ارتباطی به روند تغییر و بهبود پارامترهای مدل در روش پیشنهادی نسبت به روش‌های موجود پیشین اشاره نمود. پس از آشنایی با نحوه تخمین پارامتر، حال لازم است متغیرهای مورد نیاز جهت محاسبه شاخص‌های ارتباطی معرفی شوند.

برای تحلیل یک آزمایش می­توان از مقیاس‌های اندازه­گیری مختلفی استفاده نمود. این مقیاس‌ها به چند دسته مقیاسهای ارتباطی[24]، خطایاب[25] و آماره زیبندگی[26] است. هریک از این مقیاس‌ها دارای ویژگی‌هایی هستند که تناسب یا عدم تناسب مدل را نشان می­دهند. بطور نمونه، یکی از شاخص‌های موجود در مقیاس ارتباطی، شاخص تطابق[27] است. این شاخص به مقایسه احتمال وقوع پاسخ 1 (یا موفقیت) در مقابل پاسخ صفر (یا شکست) پرداخته و در صورتی که احتمال وقوع موفقیت از شکست بیشتر باشد تطابق صورت گرفته است. از آنجایی که هدف اصلی این مقاله، تخمین پارامتر برای بررسی شاخص ارتباطی در مدل است، لذا باید به معرفی متغیرها و تمام شاخص‌های موجود در این مقیاس و نحوه بکارگیری آنها پرداخت. برای درک بهتر مفهوم هریک از متغیرها و نوع مسأله مورد نظر، لازم است مقدماتی ارائه شود. یک طرح آزمایش با تعداد تیمارهای مشخص و تعدادی مشاهدات مستقل (متغیرهای پاسخ) را در نظر بگیرید. هر متغیر پاسخ به­صورت باینری برای هر تیمار تعریف می­شود. پس از تعریف متغیرهای پاسخ، می­توان زوج مرتب­هایی تنها شامل عناصر یک و صفر را که متشکل از عناصر یک پاسخ با پاسخ­های دیگر است، تعیین نمود. هریک از عناصر زوج مرتب، دارای احتمال وقوع بوده که نحوه محاسبه آن در بخش سوم اشاره گردید. با مقایسه مقادیر احتمالات هر دو عضو از یک زوج مرتب، متغیرهای مسأله تعریف شده که  در ادامه به­طور کامل بیان خواهد شد.

 

4-1- جفت[28]

مقیاس ارتباطی جهت اندازه­گیری وضعیت مدل، نیاز به زوج مرتبه‌ای شامل عناصر صفر و یک دارد. تعداد جفت‌ها‏ی موجود در یک آزمایش، برابر تعداد آزمایش‌ها با پاسخ یک ضرب در تعداد آزمایش‌هایی با پاسخ صفر است.

 

4-2- شاخص تطابق(nc)

این شاخص میزان توان مدل را برای پیش­بینی نشان می­دهد. هرچه مقدار این شاخص بیشتر باشد، توانایی مدل برای پیش­بینی وقوع موفقیت بیشتر خواهد شد. نحوه محاسبه آن در بالا بیان شده است.

4-3- شاخص عدم تطابق[29] (nd)

در صورتی که در یک زوج مرتب شامل عناصر صفر و یک، احتمال وقوع عنصر صفر(شکست) بیشتر از عنصر یک باشد، آنگاه عدم تطابق صورت می­گیرد. هرچه مقدار این شاخص کمتر باشد، مدل از توانایی بیشتری برای پیش­بینی برخوردار می­شود.

 

4-4- گره[30] (nt)

اگر در زوج مرتبه‌ای موجود، احتمال عنصر یک با عنصر صفر برابر باشد، گره صورت می­گیرد.

 

4-5- شاخص تطابق احتمالی (pc)

مجموع اختلاف مقادیر احتمالی جفت‌ها‏یی که عنصر یک با احتمال بیشتری از عنصر صفر اتفاق می­افتد. به عبارت دیگر در جفت‌ها‏یی با احتمال وقوع بیشتر عنصر یک، اختلاف مقادیر احتمالات محاسبه شده و با یکدیگر جمع می­شوند.

 

4-6- شاخص عدم تطابق احتمالی (pd)

مجموع اختلاف مقادیر احتمالی جفت‌ها‏یی که عنصر صفر با احتمال بیشتری از عنصر یک اتفاق می­افتد. در واقع نحوه محاسبه این شاخص، عکس حالت قبلی خواهد بود.

همچنین، با استفاده از این شاخص‌ها، می­توان شاخص‌های دیگری نیز بنام شاخص‌های ارتباطی، به‌دست آورد. این شاخص‌ها عبارتست از؛  Somers’D، Goodman- Kukal Gamma و Kendall’s Tau-a است. نحوه محاسبه هریک از این سه شاخص مطابق روابط (10) و (11) و (12) است.

 

 

 

 

هدف از این تحقیق، محاسبه این سه شاخص با روابط بیان شده نیست، چراکه این شاخص‌ها پیشتر نیز محاسبه شده­اند. کاری که در این مقاله انجام شده، ارائه روش جدید برای محاسبه این سه شاخص بوده که در بخش بعدی بیان خواهد شد. سوالی که در اینجا مطرح می­شود آنست که نقش تخمین پارامتر در تعیین این شاخص‌ها چیست؟ پاسخ این سوال در بخش روش تخمین پارامتر آمده است؛ پس از تخمین ضرایب در هر مرحله، مقادیر احتمالات پاسخ محاسبه می­شود که مقادیر احتمالات به‌دست آمده در تعیین مقادیر تطابق، عدم تطابق و گره جدید مورد استفاده قرار می­گیرند. جهت آشنایی بیشتر با نحوه محاسبه شاخص‌های ارتباطی، به ذکر یک مثال عددی برای شاخص Somers’D می­پردازیم.

فرض کنید در یک طرح آزمایش با دو متغیر پاسخ مستقل و سه تیمار، تعداد سه پاسخ یک و سه پاسخ صفر مشاهده شود. جدول (3) مقادیر متغیرهای پاسخ و کنترلی، احتمال وقوع پاسخ و جفت‌ها‏ی تشکیل شده که مقادیر احتمالات هر جفت در زیر آن آورده شده را نشان می­دهد.

 

 

جدول 3- مقادیر احتمالات و جفت‌ها‏ی تشکیل شده برای طرح آزمایش مورد نظر

Pairs

Probability

Y

X2

X1

(1,0),(1,0),(1,0)

(0.5,0.0),(0.5,0.5),(0.5,0.0)

0.50000

1

4

2

(1,0),(1,0),(1,0)

(1.0,0.0),(1.0,0.5),(1.0,0.0)

1.00000

1

2

1

(1,0),(1,0),(1,0)

(1.0,0.0),(1.0,0.5),(1.0,0.0)

0.00000

0

2

3

 

0.50000

0

4

2

 

1.00000

1

2

1

0.00000

0

2

3

 

 

 

این آزمایش دارای سه تیمار با دو تکرار[31] است که برای نشان دادن مقادیر احتمال وقوع مشاهدات هر تیمار، نتایج دو تکرار در زیر هم در جدول(3) قرار گرفته است. پس از تخمین نهایی پارامترهای مدل با استفاده از الگوریتم بخش سوم، مقادیر احتمالات فردی با استفاده از رابطه (2) به راحتی محاسبه شده است که این مقادیر را می­توانید در ستون چهارم جدول (3) مشاهد کنید. پس از این مرحله لازم است تمامی زوج­ مرتب­های متشکل از عناصر صفر و یک تشکیل گردد که تعداد آن برابر حاصل­ضرب تعداد صفرها در تعداد یک­های موجود در مشاهدات است. به عبارت دیگر هریک از مشاهدات "یک" در هر تکرار می­تواند با هر مشاهده "صفر" موجود در همان تکرار یا تکرارهای دیگر تشکیل یک زوج مرتب را دهد. زوج­های تشکیل شده در ستون Pairs جدول (3) قابل مشاهده است. که دو ردیف اول مربوط به زوج­های مشاهدات "یک" در تکرار اول و ردیف سوم نیز مربوط به جفت‌ها‏ی مشاهده "یک" در تکرار دوم است. مقادیری که در زیر هریک از جفت‌ها‏ آورده شده نیز همان احتمالات فردی وقوع هر مشاهده از تیمار مورد نظر است، که به عنوان نمونه برای اولین زوج، احتمالات 5/0 و صفر نوشته شده که در واقع احتمالات مرتبط با زوج مرتب­های تیمار اول و سوم است.

 از ستون سمت راست جدول (2) تعداد جفت‌ها‏ برابر 9، تعداد تطابق برابر 8، تعداد عدم تطابق برابر صفر و تعداد گره برابر یک به‌دست می­آید. به عبارت دیگر، nc=8 ، nd=0 و nt=1 . و لذا شاخص  Somers’D بصورت زیر محاسبه می­شود.

Somers’D= (8-0)/ (8+0+1) = 0.89

که با توجه به این شاخص، می­توان گفت که مدل از تناسب خوبی برخوردار است.

لازم به ذکر است که شاخص‌های بیان شده (روابط 10 و 11 و 12) به­عنوان روابطی است که پیشتر معرفی و مورد استفاده قرار گرفته است. یکی از مهم­ترین معایب موجود این شاخص‌ها را می­توان به عدم حساسیت آنها به تغییر و بهبود پارامترهای تخمینی در هر تکرار تا رسیدن به نقطه توقف اشاره نمود. به عبارت دیگر، با وجود آنکه مقدار پارامترهای مدل رگرسیون لجستیک در هر تکرار در حال بهبود است، اما با توجه به آنکه معیار اندازه‌گیری شاخص‌های ارتباطی برحسب تعداد تطابق است، لذا تعداد تطابق در هر تکرار ثابت مانده و لذا مقدار این شاخص‌ها نیز بدون تغییر باقی می‌ماند. برای برقراری حساسیت این شاخص‌ها به تغییر یا بهبود مقادیر پارامترهای تخمینی، روشی جدید ارائه شده که در بخش بعدی به آن اشاره خواهد شد.

 

5-تعریف مسأله و روش پیشنهادی

گام‌های تخمین پارامتر بگونه­ای است که در هر تکرار از الگوریتم پس از تخمین ضرایب، مقادیر احتمالات برای هر پاسخ محاسبه می­شود. در اینجا لازم است به بخش سوم برگردیم. هر تیمار از آزمایش می­تواند m بار تکرار شود که پاسخ هرتکرار می­تواند یک یا صفر باشد. تمام زوج مرتبهای(جفت‌ها‏ی) ممکن را تشکیل داده و سپس مقادیر احتمال منطبق با هر عنصر از یک جفت را به‌دست می­آوریم(مقادیر احتمال در هر تکرار محاسبه می­شود). در اینجا دیگر بجای مقایسه احتمال هر جفت و تعیین مقادیر تطابق، عدم تطابق و گره؛ اختلاف مقادیر احتمالات بین دو عنصر محاسبه می‌شود؛ یعنی به جای استفاده از تعداد تطابق در رابطه، از مجموع مقادیر اختلاف احتمالاتی که احتمال وقوع عنصر یک بیشتر از احتمال وقوع عنصر صفر است. همچنین به جای محاسبه تعداد عدم تطابق، از مجموع اختلاف مقادیر احتمالی که احتمال وقوع عنصر صفر بیشتر از عنصر یک باشد، استفاده می‌شود. به عبارت دیگر، میزان درجه عضویت احتمال پاسخ به پاسخ‌های صفر و یک محاسبه شده است. اما تعداد گره­ها همانند روش اصلی خود محاسبه می­شود. با این توضیحات نحوه محاسبه شاخص‌های ارتباطی جدید پیشنهادی مطابق با روابط (13) و (14) و (15) خواهد بود.

 

 

 

 

همان­گونه که از روابط (13) تا (15) مشخص است، محاسبه شاخص‌های ارتباطی جدید برخلاف روش‌های پیشین که براساس تعداد تطابق بوده­اند، با استفاده از مقادیر احتمال تطابق در هر تکرار برای مدل مورد نظر است. مزیت این روش نسبت به روش‌های سابق در حساس نمودن شاخص‌های ارتباطی به تغییرات پارامترهای مدل در هر تکرار تا رسیدن به هدف مورد نظر با توجه به احتمال وقوع تطابق است، در حالی­که در روش‌های پیشین، با توجه به آنکه تعداد تطابق نسبت به تغییرات پارامترهای مدل از خود حساسیت نشان نداده، لذا مقادیر شاخص‌های ارتباطی نیز ثابت باقی می­ماند. به عبارت دیگر، در روش پیشنهادی، ابتدا در هر تکرار مقادیر پارامتر مدل تخمین زده شده، با استفاده از پارامترهای تخمینی، احتمالات تطابق و عدم تطابق محاسبه شده و از آنجایی که میزان تغییر احتمالات، حساسیت زیادی به تغییر پارامتر داشته و شاخص‌های ارتباطی جدید نیز ارتباط مستقیم با احتمالات محاسبه شده دارد، لذا شاخص‌های ارتباطی جدید در هر تکرار با بهبود پارامتر مدل، بهبود می­یابد. برای درک بهتر روش بیان شده، همان مقادیر آزمایش جدول (3) را در نظر بگیرید. با استفاده از نرم­افزار Matlab مقادیر شاخص‌های اولیه در طی 34 مرحله تخمین پارامتر مقدار ثابت 89/0 بوده در حالی که مقدار شاخص‌های پیشنهادی از تکرار اول تا آخرین تکرار در حال افزایش است. جدول (4) مقایسه‌ای بین مقادیر شاخص‌های اولیه و پیشنهادی را برای 10 تکرار آخر نشان می­دهد.

 

 

جدول 4- مقایسه شاخص‌های ارتباطی در دو حالت اولیه و پیشنهادی برای ده تکرار آخر

10

9

8

7

6

5

4

3

2

1

Step

0.889

0.889

0.889

0.889

0.889

0.889

0.889

0.889

0.889

0.889

Somrer’sD

0.8554

0.8553

0.8552

0.8551

0.8550

0.8549

0.8548

0.8547

0.8546

0.8545

Somrer’sDp

 

 

 

 

لازم به ذکر است که در بخش بعدی، تمامی مراحل ذکر شده در ضمن یک مثال شبیه­سازی شده به طور کامل توضیح داده خواهد شد؛ اما برای آشنایی بیشتر با نحوه محاسبه شاخص پیشنهادی مقدار این شاخص در آخرین تکرار به صورت زیر محاسبه شده است.

 

Somers’Dp= (5.92-0)/ (5.92+0+1) = 0.8554

باید توجه داشت که مقادیر احتمالات ارائه شده در جدول(3) بصورت رند شده بوده، اما مقدار شاخص پیشنهادی براساس مقادیر رند نشده محاسبه گردید. به عبارت دیگر مقدار 92/5 مجموع اختلاف احتمالات 6 زوج مرتبی است که احتمال وقوع پاسخ یک بیشتر از پاسخ صفر است. همان­گونه که از جدول (4) مشخص شده است، مقادیر شاخص‌های ارتباطی پیشنهادی برخلاف شاخص‌های اولیه در ده تکرار آخر، در حال بهبود است. این بدان معناست که شاخص‌های پیشنهادی دارای حساسیت زیادی نسبت به تغییرات مقادیر پارامترهای تخمینی در هر تکرار تا رسیدن به نقطه بهینه است. در حالی­که شاخص‌های اولیه با وجود تغییرات در مقدار پارامتر و مقدار احتمال وقوع پاسخ هر تیمار، هیچ حساسیتی از خود نشان نمی­دهد و این نشان­دهنده ضعف این شاخص‌هاست، چراکه ‌باید با بهبود مقادیر پارامترهای تخمینی، شاخص‌های ارتباطی مدل (برتری پاسخ موفقیت نسبت به شکست) نیز بهبود یابد.

 شکل(1) گام‌های تعیین شاخص‌های ارتباطی را نشان می­دهد. این فلوچارت از دو بخش تخمین پارامتر (در سمت چپ نمودار) و تعیین شاخص‌های ارتباطی (در سمت راست نمودار) در روش پیشنهادی تشکیل شده است. بخش تخمین پارامتر از مطالعات پیشین یه و همکاران و بخش تعیین شاخص‌های ارتباطی به عنوان روش پیشنهادی محققین یا جنبه نوآوری تحقیق به حساب می­آید.

 

 

جدول 5- مقادیر متغیرهای کنترلی و پاسخ در هر تکرار

متغیر پاسخ

متغیرهای پاسخ باینری در هر تکرار

متغیرهای کنترلی

y

z4

z3

z2

z1

x4

x3

x2

x1

2

1

0

0

1

1

0

1

1

1

0

1

0

0

2

2

3

1

3

0

1

1

1

2

0

0

1

0

0

0

0

0

1

2

3

1

1

0

0

0

1

1

1

2

1

2

0

1

0

1

1

3

2

1

 

مقادیر پارامترهای تخمینی و احتمالات پاسخ برای هر تیمار با استفاده از نرم­افزار MATLAB پس از 7 تکرار با توجه به شرط توقف حاصل شده است. این مقادیر در جدول(6) و (7) آمده است.

 

 

جدول 6- مقادیر پارامترهای تخمینی

0.53576

0.53574

0.53571

0.53570

0.5288

1.2004

-1.4922

1

-1.33514

-1.33513

-1.33510

-1.3347

-1.3013

-1.6575

-0.1184

2

0.50683

0.50681

0.50680

0.5067

0.4882

0.7363

-0.0128

3

0.4805

0.4802

0.48010

0.4794

0.4470

0.3813

0.1953

4

 

 

 

شکل 1- فلوچارت روش پیشنهادی برای تعیین شاخص‌های ارتباطی

 

جدول 7- مقادیر احتمالات هر تیمار

0.4208

0.4208

0.4208

0.4192

0.4810

0.1954

0.8465

1

0.1830

0.1830

0.1830

0.1815

0.1770

0.1851

0.6858

2

0.8170

0.8170

0.8168

0.8058

0.8768

0.2494

0.9616

3

0.1217

0.1217

0.1218

0.1242

0.1281

0.1574

0.5905

4

0.2409

0.2409

0.2409

0.2424

0.2695

0.1756

0.7382

5

0.4665

0.4665

0.4665

0.4593

0.6167

0.1719

0.8688

6

 

همانطور که بیان شد، هدف از تخمین پارامتر در این مسأله حداکثر کردن تابع لگاریتم درست نمایی بوده، که مقادیر جدول (8) گویای این مطلب است.

 

 

جدول 8- مقادیر تابع لگاریتم درست­نمایی

7

6

5

4

3

2

1

Step

-12.6690

-12.6690

-12.6690

-12.6690

-12.6713

-12.9516

-17.0421

Log-Likelihood

 

 

همانگونه که از جدول(8) مشخص است، مقادیر پارامترها بگونه­ای تخمین زده شدند که تابع لگاریتم درست­نمایی در هر تکرار مقدار بهتری را به‌دست آورد.

در این مرحله پس از تشکیل زوج‌های صفر و یک و تعیین احتمال متناظر با هریک از عناصر، مقادیر شاخص‌های تطابق، عدم تطابق و گره در 7 تکرار بصورت جدول (9) حاصل شده است.

 

 

جدول 9- مقادیر شاخص‌های تطابقی

7

6

5

4

3

2

1

Step

97

97

97

97

97

89

97

concordant

21

21

21

21

21

29

21

discordant

17

17

17

17

17

17

17

Tied

 

با توجه به جدول(9) مقادیر شاخص‌های ارتباطی طبق جدول (10) به‌دست می­آید.

 

جدول 10- مقادیر شاخص‌های ارتباطی

7

6

5

4

3

2

1

Step

0.5630

0.5630

0.5630

0.5630

0.5630

0.4444

0.5630

Somrer’sD

0.6441

0.6441

0.6441

0.6441

0.6441

0.5085

0.6441

Goodman

0.2574

0.2574

0.2574

0.2574

0.2574

0.2174

0.2574

Kendalls

 

 

همانگونه که از جدول(10) مشخص شده، با استفاده از روابط (11) تا (13) مقادیر شاخص‌های ارتباطی بهبود نیافته­اند. حال مقادیر مجموع شاخص‌های تطابقی احتمالی با استفاده از روش بیان شده(اختلاف احتمال بین عناصر صفر و یک یا میان درجه عضویت به پاسخ موفقیت) محاسبه شده که در جدول(11) بیان شده است.

 

 

 

 

جدول 11- مقادیر مجموع شاخص‌های تطابقی احتمالی

7

6

5

4

3

2

1

Step

35.5029

35.5023

35.4906

34.8063

40.8160

4.0789

19.1818

SumConcordantp

4.9135

4.9132

4.9121

4.8151

6.0444

0.6849

2.3264

SumDiscordantp

17

17

17

17

17

17

17

Tied

 

 

مقادیر دو سطر اول بدینصورت به‌دست آمده که پس از تعیین اختلاف احتمال متناظر با هریک از زوجهای صفر و یک، مجموع این اختلافات برای هر تکرار محاسبه شده‌اند. با استفاده از مقادیر جدول(11)، مقادیر شاخص‌های ارتباطی احتمالی جدید که طبق روابط (14) تا (16) به‌دست آمده اند که در جدول (12) نشان داده شده است.

 

 

جدول 12- مقادیر شاخص‌های ارتباطی احتمالی

7

6

5

4

3

2

1

Step

0.5180

0.5150

0.5103

0.5023

0.4878

0.3695

0.4377

Somrer’sDp

0.7548

0.7542

0.7533

0.7519

0.7490

0.7803

0.7837

Goodmanp

0.1110

0.1109

0.1108

0.1087

0.1260

0.0123

0.0611

Kendallsp

 

 

مقادیر جدول(11) نشان می­دهد که روش ارائه شده، روش مناسبی جهت افزایش شاخص‌های ارتباطی با هدف حداکثرسازی تابع لگاریتم درست‌نمایی است. به‌عبارت دیگر می­توان با استفاده از مفهوم مقدار درجه عضویت به پاسخ موفقیت به‌جای استفاده از تعداد تطابق (یا تعداد وقوع موفقیت با احتمال بیشتر نسبت به شکست) مقادیر شاخص‌های ارتباطی را به‌دست آورد. شکل(2) مقایسه­ای از شاخص‌های ارتباطی Somer’sD و  Goodman موجود در جداول (9) و (11) را بطور نمونه نشان می­دهد.

 

 

 

 

 

 

 شکل 2- مقایسه شاخص‌های ارتباطی در دو روش پیشنهادی و پیشین

 

 

همان‌گونه که از شکل(2) پیداست، برخلاف شاخص‌های اولیه(جدول 9)، شاخص‌های تعیین شده با روش پیشنهادی (استفاده از درجه عضویت) از تکرار سوم به بعد افزایش می­یابند و این افزایش به معنای بهبود وضعیت سیستم در هر تکرار است به‌عبارت دیگر، با بهبود پارامترهای مدل به‌منظور افزایش تابع لگاریتم درست­نمایی، شاخص‌های ارتباطی نیز افزایش می­یابند. لازم به ذکر است که دلیل افت شدید شاخص‌ها از تکرار اول به تکرار دوم، مقدار اولیه پارامترهاست () که ابتدا با روش حداقل مربعات خطا تخمین زده شده و معیار تخمین () است، اما در تکرارهای بعدی با روش حداکثر درست­نمایی مقادیر پارامترها تخمین زده می­شود؛ که این تغییر الگوریتم (روش) موجب نوسان شدید اولیه شده است. شکل(3) یک مقایسه عددی را بین روش پیشنهادی با روش‌های ارائه شده پیشین انجام داده و بیانگر مزیت روش پیشنهادی نسبت به روش‌های سابق است. این مقایسه تطبیقی از مرحله 3 تا مرحله 7 با توجه به تغییرات پارامترهای مدل انجام شده است.

 

 

 

 

 

شکل 3-  نمودارهای تطبیقی دو روش پیشنهادی و روش پیشین با در نظر گرفتن روند تغییرات پارامترهای مدل

 

 

 

 

همان­گونه که از شکل (3) مشخص است، روند تغییرات Somer’sD هیچ حساسیتی نسبت به تغییرات پارامتر نداشته و این روند کاملا ثابت است، در حالیکه روند تغییرات Somer’sDp با توجه به روند صعودی تغییر پارامتر، صعودی است. لذا با استناد براین نمودار، می­توان بهتر بودن روش پیشنهادی را نسبت به روش پیشین اثبات نمود.

 

7- نتیجه‌گیری و جمع‌بندی

آنچه که در این تحقیق بررسی شد، استفاده از تابع لگاریتم درست‌نمایی برای تخمین پارامترهای مدل رگرسیون لجستیک باینری و بهبود شاخص‌های ارتباطی بوده است. شاخص‌های ارتباطی نشان­دهنده وضعیت سیستم از نظر تعداد و احتمال پیشامد موفقیت نسبت به پیشامد شکست است که هرچه مقدار آن بیشتر باشد، سیستم از وضعیت بهتری برخوردار است. استفاده از روابط تعریف شده قبلی نتوانسته(مفهوم " تعداد ") موجب بهبود شاخص‌های ارتباطی در تکرارهای مورد نیاز تا رسیدن به نقطه همگرایی پارامترهای مدل رگرسیون لجستیک باینری شود که این مورد از جداول (9) و (10) کاملا مشخص شده است. اما با استفاده از مفهوم درجه عضویت و استفاده از مجموع اختلاف احتمالات پیشامدهای موفقیت و شکست در هر تکرار می­توان شاخص‌های تطابق و ارتباطی را بهبود داده و با این مفهوم احتمال وقوع موفقیت را حداکثر نمود. به عبارت دیگر، در تخمین پارامترها، شاخص مناسب بودن تخمین، همان شاخص‌های ارتباطی است. اما این شاخص‌ها از مرحله­ای به بعد کارایی خود را از دست می­دهند، لذا با استفاده از شاخص ارتباطی احتمالی به دنبال افزایش کارایی تخمین پارامترها بودیم که این موارد در شکل (3) کاملاً مشخص است. پیشنهاداتی که می­توان برای پژوهش­های آتی ارائه نمود، شامل بکارگیری توام تخمین پارامتر و بهبود متغیرهای کنترلی به منظور‌ روش ارائه شده در مقالات پیشین و رویکرد پیشنهادی در این پژوهش را با یکدیگر تلفیق نموده و در حین تخمین پارامتر جهت ماکزیمم­سازی لگاریتم درست­نمایی، شاخص‌های ارتباطی نیز به عنوان تابع هدف حداکثر گردند.



[1] Least Square Error

[2] Maximum Likelihood

[3] Bard

[4]  Myers et al.

[5] Poyton et al.

[6] Cusker et al.

[7] Dochain

[8] Yang et al.

[9] Lindner

[10] Chou

[11] Ló et al.

[12] Yeh et al.

[13] Walker et al.

[14] Mc Cullagh

[15] Feinberg et al.

[16] Cox et al.

[17] Peterson et al.

[18]Brazer et al.

[19] Knapp

[20]Huang et al.

[21] Lowsonl rt al.

[22] Zhu  et al.

[23] Log- likelihood

[24] Association Measures

[25] Diagnostic Measuers

[26] Goodness-of-fit statistics

[27] Concordant

[28] Pair

[29] Discordant Measures

[30] Tied

[31] Replicate

بشیری، مهدی، کامران­راد، رضا، کریمی، حسین. (1389). بهینه­سازی متغیرهای پاسخ در مدل رگرسیون لجستیک ترتیبی با استفاده از روش‌های ابتکاری و فراابتکاری. مجله علمی و پژوهشی شریف، پذیرفته شده و در حال چاپ.

Agresti, A. (2007). An Introduction to Categorical Data Analysis. Department of Statistics University of FloridaGainesville, Florida. Second Edition.

Bard. (2010). Nonlinear Parameter Estimation. Developments in Petroleum Science, 57, 197-301.

Brazer, S. R., Pancotto, F. S., Long, T. L., and Harrell, F. E. (1991). "Using ordinal logistic regression to estimate the likelihood of colorectal neoplasia", Journal of Clinical Epidemiology , 44, 1263-1270.

Chou, I., Voit, E.O.(2009). Recent developments in parameter estimation and structure identification of biochemical and genomic systems. Mathematical Biosciences. 219. 57–83.

Cox, C and Chuang, C.A. (1984) "Comparison of Chi-square patitioning and two logit analysis of ordinal pain data from a pharmecutical study", Statical Medicine, 3, 273-285.

Cullagh, M. C. (1980). "Regression model for ordinal data (with discussion)" , J R Statis Soc Series B.

Cusker,R.mc., Currier, T., Danai,K.(2010). Improved parameter estimation by noise compensation in the time-scaledomain. Signal Processing . 91, 72-84.

Dochain, D. (2003). State and parameter estimation in chemical and biochemical processes: a tutorial. Journal of Process Control. 13, 801–818.

Feinberg, B. (1980). "Analysis of cross-classified data", Cambridge : MIT Press.

Huang, B., Biro, F. M., & Dorn, L. D. (2009)."Determination of Relative Timing of Pubertal Maturation through Ordinal Logistic Modeling: Evaluation of Growth and Timing Parameters", Journal of Adolescent Health ,.45,  383-388.

Knapp, T. R. (1999). "Focus on quantitative methods: The analysis of the data for two-way contingency tables". Research in Nursing and Health, 22, 263–268.

Lawsonl, C., and Montgomery, D., C. (2006) "logistic regression analysis of costumer satisfaction data", Quality and Reliability Engineering International, 22,  971-984. 

Lindner, P.F.O., Hitzmann, B. (2006). Experimental design for optimal parameter estimation of an enzyme kinetic process based on the analysis of the Fisher information matrix. Journal of Theoretical Biology. 238, 111–123.

Ló, B.P., Haslam, A.J., Adjiman, C.S. (2008). An algorithm for the estimation of parameters in models with stochastic differential equations. Chemical Engineering Science. 63, 4820 – 4833.

Myers, R.H., Montgomery, D.C., Vening, G.G. (1937). Generalized linear Models with Applications in Engineering and The Sciences. Translated by: Niioumand, H.A. Ferdowsi University of Mashhad Publication. 445.

Peterson, B. L., and Harrell, F., E.(1990). "Partial proportional odds models for ordinal response variable",  Appl Stat, 39. 205-217.

Poyton, A.A., Varziri, M.S., McAuley, K.B., McLellan, P.J., Ramsay, J.O. (2006). Parameter estimation in continuous-time dynamic models using principal differential analysis. Computers and Chemical Engineering. 30, 698–708.

Walker, S.H., and Duncan, D., B. (1967). "Estimation of the probability of an event as a function of several independent variables", Biometrica, 54, 167-179.

Yang, K.W., Lee, T.Y. (2010). Heuristic scaling method for efficient parameter estimation. chemical engineering research and design. 88. 520–528.

Yeh, A.B., Huwang, L., Li, Y.M. (2009). Profile monitoring for a binary response. IIE Transactions . 41, 931–941.

Zhou, F., Wu, D., Yang, X., and Jiao, J. (2008). "Ordinal logistic regression for affective product design", Proceedings of the IEEE IEEM, pp. 1986-1990.