یک رویکرد جامع برای بخش‌بندی بازار و طبقه‌بندی مشتریان با استفاده از روش‌های داده‌کاوی و برنامه‌ریزی خطی

نوع مقاله: مقاله پژوهشی

نویسندگان

1 دکترای مدیریت بازرگانی، دانشکده علوم اداری و اقتصاد، دانشگاه اصفهان، اصفهان، ایران

2 استاد مدیریت بازاریابی، دانشکده علوم اداری و اقتصاد، دانشگاه اصفهان، اصفهان، ایران

3 دانشیار تحقیق در عملیات، دانشکده علوم اداری و اقتصاد، دانشگاه اصفهان، اصفهان، ایران

4 استادیار دانشکده مهندسی کامپیوتر، گروه فناوری اطلاعات، دانشگاه اصفهان، اصفهان، ایران

چکیده

با گسترش فناوری‌ و ظهور شرکت‌های الکترونیکی که انباشت داده‌های مشتریان در پایگاه داده را به همراه داشته، جذابیت بخش‌بندی بازار برای پژوهش‌گران فزونی یافته است. زیرا پایگاه‌ داده مشتری یک داشته ارزشمند شرکت‌های الکترونیکی است که اگر به خوبی پردازش شود، می‌تواند شناخت بیشتری از مشتریان ارائه نماید. به همین دلیل روش‌های متعدد اما غیر منسجمی برای بخش‌بندی بازار و طبقه‌بندی مشتریان در علوم مختلف ارائه شده است. این پژوهش، الگوریتم یکپارچه‌ای برای بخش‌‌‌بندی بازار و طبقه‌بندی مشتریان ارائه می‌کند که در آن رویکرد خوشه‌بندی تجمیعی مبنای مقایسه عملکرد روش‌های مختلف طبقه‌بندی، به ویژه برنامه‌ریزی خطی، قرار می‌گیرد. این مقایسه نشان می‌دهد روش برنامه‌ریزی خطی که کمتر به آن توجه شده است، عملکرد بهتری از نظر درصد بالاتر انتساب مشتریان به خوشه‌های مشتریان دارد. همچنین برای مواجهه با ناکافی بودن داده‌های مورد نیاز در پایگاه داده، روش دلفی فازی پیشنهاد شده است.

کلیدواژه‌ها


عنوان مقاله [English]

A Comprehensive Approach for Market Segmentation and Customer Classification Using Data Mining methods and alternative Linear Programming

نویسندگان [English]

  • Bahram Izadi 1
  • Bahram Ranjbarian 2
  • Saeedeh Ketabi 3
  • Faria Nasiri Mofakham 4
1 PhD of Business Management, Faculty of Administrative Science and Economist, University of Isfahan, Department of Management, Isfahan, Iran
2 Professor, Faculty of Administrative Science and Economist, , Department of Management, University of Isfahan, Isfahan, Iran
3 Associate Professor , Faculty of Administrative Science and Economist, University of Isfahan, Department of Management, Isfahan, Iran
4 Associate Professor, Faculty, of computer Engineering, Department of Information Technology Engineering(IT), University of Isfahan, Isfahan, Iran
چکیده [English]

Since market segmentation is essential to develop and implement marketing strategies, has always been focus of marketing researchers’ attention. The advent of new technology and emerging E-businesses, which accumulating immense customer data in their databases, made the market segmentation more fascinating for researchers. Since they found customer database as one of the most valuable asset that if being managed and manipulated effectively, can provide useful knowledge about the customers and prospects.  There are numerous non-coherent methods of customer clustering and classification which has been proposed in different disciplines. This paper utilizes different clustering and classification methods and compares their performance in order to propose a comprehensive and integrated algorithm for e-businesses to exploit their databases in a competent manner. In the first step, recency, frequency, monetary (RFM) data is used to ensemble K-Means, Self-Organizing-Map (SOM) and Two-Step clustering methods and Sillouette index is used to evaluate the cluster quality. In second step, different classification methods vis-a-vis multi-group discriminant linear programming (MDLP) are used to compare the performances of the methods in terms of percentage of correct classification. The results show that the performance of MDLP is better than other methods. The problem of insufficient data in databases for classification purpose is also takes into account and fuzzy Delphi method is proposed to select the required data.

کلیدواژه‌ها [English]

  • Market segmentation
  • Customer classification
  • Ensemble clustering
  • fuzzy Delphi
  • Customer database

1- مقدمه

یک گام اساسی در تدوین و اجرای استراتژی بنگاه‌های تجاری از دیرباز بخش‌بندی مشتریان بوده است، زیرا امکان کسبِ شناخت بیشتر و بهتر مشتریان را فراهم می‌آورد. روش سنتی بخش‌بندی بازار (روش مقدم) بر اساس گمانه‌زنی‌های ذهنی خبرگان از متغیرهای بخش‌بندی انجام می‌شود. در این روش، پژوهش‌گر می‌کوشد شرایط از پیش موجود در گروه مشتریان را حدس بزند تا مشتریان به گروه‌های متمایز تقسیم شوند و از بین آنها گروهی که تناسب بیشتری با امکانات شرکت دارد و با توجه به شرایط رقابتی بیشترین منافع را عاید شرکت می‌کند، شناسایی و هدف‌گیری شود (زیبرنا و زبکار[i]، 2003؛ باینز و همکاران، 2010). اما امروزه با توجه به داده‌های ارزشمندی که در پایگاه داده مشتریان شرکت‌ها، به ویژه در شرکت‌های الکترونیکی به وجود آمده است، شناسایی مشتریانی که بیشترین درآمد را برای شرکت ایجاد می‌کنند، تسهیل شده است. از این رو در بخش‌بندی نوین یا موخر، نوع و تعداد بخش‌ها بر مبنای تجزیه و تحلیل داده‌های رفتاری مشتری تعیین می‌شوند (فوناتسو و هسگوا[ii]، 2011). این بخش‌بندی نسبت به بخش‌بندی سنتی از مزایایی چون امکان شناسایی دقیق‌تر بخش‌های با ارزش برخوردار است که بر پایه آن می‌توان استراتژی‌های مناسب نگهداری مشتریان فعلی و جذب مشتریان جدید را تدوین کرد تا هم از ریزش مشتریان[iii] که یکی از نگرانی‌های عمده شرکت‌ها است جلوگیری به عمل آید و هم سهم بازار بیشتری به دست آید که خود یک شاخص مهم مزیت رقابتی است. اما یک الگوریتم جامع، یکپارچه و کاربردی برای بخش‌بندی بازار وجود ندارد که متناسب با شرایط بازارهای الکترونیکی باشد و خود را صرفا به برخی روش‌های مرسوم محدود ننماید. به ویژه آن که انبوهی از دیدگاه‌ها، رویکردها و روش‌های متعدد در این حوزه وجود دارد که هر یک از آن‌ها تنها بر بخشی از فرآیند بخش‌بندی و طبقه‌بندی تاکید می‌کنند (لیو و همکاران[iv]، 2012، آزادنیا و همکاران، 2011، نامور و همکاران، 2011، ما و همکاران[v]، 2009). به همین دلیل، این پژوهش الگوریتمی یکپارچه برای بخش‌بندی بازار و طبقه‌بندی مشتریان ارائه می‌نماید که متناسب با شرایط واقعی بازارهای الکترونیکی، مانند در اختیار نبودن داده‌های مورد نیاز، است و در آن روش‌های مرسوم بخش‌بندی بازار و طبقه‌بندی مشتریان را از منظر بازاریابی و در ارتباط با هم، در علومی چون آمار و یادگیری ماشینی در کنار روش مغفول مانده برنامه‌ریزی خطی مورد بررسی قرار داده و نشان می‌دهد علیرغم کم توجهی به روش برنامه‌ریزی خطی برای طبقه‌بندی، مزایایی چون تفسیر ساده‌تر و کاربردی‌تر نتایج از آن حاصل می‌شود.

مشوق اولیه برای ارائه چنین ایده‌ای، ماهیت غیرپارامتریک برنامه‌ریزی خطی است. به دلیل همین ویژگی، مسایل طبقه‌بندی از قید نیاز به پیش‌شرط‌ها رها می‌شوند، زیرا اغلب روش‌های آماری ارائه شده برای مسایل طبقه‌بندی نیازمند برآورده شدن برخی پیش‌شرط‌ها، مانند نرمال بودن توزیع داده‌ها، هستند که گاهی فراهم کردن آن‌ها امکان‌پذیر نیست. از زمان معرفی این مدل توسط منگسریان[vi] (1965) تاکنون، شکل‌های مختلفی از آن ارائه شده است. در ابتدا مدل‌های ارائه شده محدود به طبقه‌بندی دو گروهی بودند، اما پس از معرفی مدلی توسط فرید و گلور[vii](1981)، شکل‌هایی از برنامه‌ریزی خطی ارائه شدند که قادر به حل مسایل طبقه‌بندی چند گروهی شدند (کواک و همکاران، 2002)، (رگس‌دیل و استام[viii]،1991)، لام و موی[ix] (1996)، گوچت[x] و همکاران (1997). اخیرا پای و همکاران (2012) نشان داده‌اند مدل لام و موی (1996) نسبت به روش‌های تحلیل ممیزی، رگرسیون لحستیک، شبکه‌های عصبی و kامین نزدیک‌ترین همسایگی برتری دارند اما آن‌ها صرفا به مساله طبقه‌بندی پرداخته و فرض کرده‌اند بخش‌ها از قبل تعیین شده است. یوسف و ربای[xi] (2007) روش برنامه‌ریزی خطی را با روش‌های استاندارد آماری برای طبقه‌بندی مقایسه کرده‌اند و نشان داده‌اند که روش غیرپارامتریک برنامه‌ریزی خطی نسبت به روش‌های پارامتریک آماری مانند تحلیل ممیزی فیشر عملکرد بهتری در طبقه‌بندی از خود نشان داده است. این پژوهش‌گران روش‌های یادگیری ماشینی را در پژوهش خود در نظر نگرفته‌اند. کواک[xii] و همکاران (2002) روش برنامه‌ریزی خطی را در کنار سایر روش‌های طبقه‌بندی مانند روش تحلیل ممیزی و روش نزدیک‌ترین همسایگی برای طبقه‌بندی دو گروهی بیماران مبتلا به ویروس اچ.آی.وی و ایدز به کار برده‌اند و نشان داده‌اند که روش برنامه‌ریزی خطی عملکرد بهتری داشته است. مدل مورد استفاده این پژوهش‌گران مدل استاندارد دو بخشی است و قادر به طبقه‌بندی چندگروهی نیست.

2- الگوریتم پژوهش

بر مبنای مطالعات انجام شده، الگوریتمی طراحی شد که در شکل (1) ارائه شده است و در آن دو مسیر برای پردازش داده‌های تراکنشی و داده‌های پروفایل مشتریان وجود دارد.

2-1- داده‌های تراکنشی برای خوشه‌بندی مشتریان

این داده‌ها اغلب داده‌های رفتاری ‌نامیده می‌شوند که نشانگر فعالیت‌های واقعی خرید مشتری است و اغلب شامل اقلام متعددی از داده‌های ثبت شده است که داده‌های زاید و غیرقابل استفاده‌ای را نیز دربر دارد و لازم است قبل از استفاده پاکسازی یا پیش‌پردازش[xiii] شوند. در پیش‌پردازش برخی داده‌های کم اهمیت برای پژوهش از مجموع داده‌ها حذف ‌می‌شوند. این مرحله، فرآیندی چالشی به ویژه برای پایگاه‌های داده بزرگ است (زوکر[xiv] و همکاران، 2000)، زیرا انتخاب داده‌های مناسب نقش مهمی در کیفیت نتایج دارد. در این پژوهش پیش‌پردازش به منظور حذف داده‌های زاید و استخراج داده‌های تازگی، تکرار و مقدار پولی خرید[xv] انجام می‌شود. این تحلیل مبتنی بر اصل پارتو (80 ٪ سود شرکت توسط 20٪ مشتریان به دست می‌آید) است و به شناسایی سودآورترین مشتریان کمک می‌کند، عـلاوه بر این که یکی از ساده‌ترین شیوه‌ها برای تعیین ارزش عمر مشتری است. تازگی، آخرین تاریخ خرید مشتری است که هر چه کمتر باشد بهتر است، زیرا  با مشتریی سروکار داریم که به احتمال بیشتری نسبت به خرید آتی اقدام می‌کند.

تکرار، تعداد دفعاتی است که مشتری نسبت به خرید اقدام کرده است و هر چه بیشتر باشد بهتر است، زیرا مبتنی بر این فرض است که انسان تحت تاثیر عادت است و محصولی که در گذشته چندین بار خریده است را با احتمال بیشتری می‌خرد و ارزش پولی، مقدار پولی است که مشتری در گذشته برای خرید محصول یا خدمت پرداخته است و هر چه بیشتر باشد بهتر است. اما از آنجا که اهمیت هر یک از مقادیر تازگی، تکرار و ارزش پولی در بازارهای مختلف ممکن است متفاوت باشند، می‌توان از مقادیر موزون آن‌ها استفاده کرد. وزن‌ها را

 

می‌توان به طور شهودی یا با استفاده از روش‌هایی مانند فرآیند تحلیل سلسله مراتبی[xvi] تعیین کرد.

2-1-1- خوشه‌بندی

اکنون داده‌های تازگی، تکرار و ارزش پولی موزون با استفاده از روش‌های کی‌-مینز[xvii]، نقشه‌های خودسازمانده[xviii] و خوشه‌بندی دو مرحله‌ای[xix] به صورت تجمیعی خوشه‌بندی[xx] می‌شوند. خوشه‌بندی تجمیعی به شیوه‌های گوناگونی، مانند استفاده از یک روش خوشه‌بندی با شرایط اولیه مختلف به دفعات و استفاده از روش‌های مختلف خوشه‌بندی با شرایط اولیه یکسان، قابل انجام است (کتسیانتیس و پینتلاس[xxi]، 2004). در روش کی‌-مینز نخست تعداد خوشه‌ها (k) توسط کاربر تعیین می‌شود. آنگاه از میان داده‌های n مشتری، k مشتری به عنوان مراکز ابتدایی خوشه‌ها برگزیده شده و بقیه مشتریان برحسب نزدیکی اقلیدسی به این مراکز منتسب می‌‌شوند. سپس مراکز جدید خوشه‌ها به صورت میانگین مقادیر هر خوشه محاسبه شده و هر مشتری مطابق با فاصله اقلیدسی‌اش به این مراکز جدید منتسب می‌گردد. این فرآیند هنگامی که هیچ انتساب جدیدی وجود نداشته باشد متوقف می‌شود (بلت‌برگ و همکاران، 2008). شبکة عصبی خودسازمانده بر اساس ساختار و عملکرد مدل کوهونن[xxii] پایه‌ریزی شده است که مدلی بدون نظارت است. دلیل استفاده از این روش برای خوشه‌بندی در این پژوهش، تاکید برخی از پژوهش‌ها بر عملکرد بهتر آن نسبت به روش رایج کی‌-مینز است (حنفی‌زاده و میرزازاده، 2011؛ چیو و همکاران، 2009؛ بلتبرگ[xxiii] و همکاران، 2008). تحلیل خوشه‌بندی دومرحله‌ای بر پایه خوشه‌بندی سلسله مراتبی و شامل دو مرحله است (چیو، 2001). در مرحله اول که پیش‌خوشه‌بندی نامیده می‌شود، چندین خوشه کوچک شکل می‌گیرد. در مرحله دوم که خوشه‌بندی سلسله‌مراتبی گفته می‌شود، خوشه‌های کوچک مرحله اول مجددا در هم ادغام و چند خوشه بزرگتر شکل می‌گیرد (پایگاه اینترنتی اس.پس.اس.اس[xxiv]، 2013).

2-1-2- بررسی کیفیت خوشه‌بندی

به تعداد پژوهش‌های انجام شده در مورد خوشه‌بندی، در مورد کیفیت خوشه‌بندی هم مطالعه صورت گرفته است تا از بیشترین فشردگی حول مرکز هر خوشه‌ و بیشترین جدایی بین مراکز خوشه‌ها اطمینان حاصل شود. روش‌های متعددی مانند روش سیلوئت، انحراف معیار، مجموع مربع خطا و غیره ارائه شده‌اند که به دلیل وجود برخی شواهد از برتری سیلوئت به روش‌های دیگر، در این پژوهش از آن استفاده می‌شود (پتروویچ[xxv]، 2006). مقدار سیلوئت هر نقطه، نسبت اندازه شباهت آن نقطه با نقاط درون خوشه‌اش به میزان شباهتش با نقاط دیگر خوشه‌ها است. از این تعریف مشخص می‌شود که نمی‌توان سیلوئت را فقط برای یک خوشه به دست آورد. به علاوه اگر تعداد نقاط با تعداد خوشه‌ها برابر باشد، مقدار سیلوئت بیشینه و برابر یک خواهد بود (روزیو[xxvi]،1986).

2-2- داده‌های پروفایل مشتریان

داده‌های پروفایل مشتریان معرف ویژگی‌های مختلف مشتریان از جمله ویژگی‌های دموگرافیک، جغرافیایی و روان‌نگاشتی است که برای ایجاد مدل طبقه‌بندی مشتریان ضروری است. اما  گاهی پایگاه داده شرکت به دلایلی مانند نداشتن دیدگاهی استراتژیک به بازاریابی الکترونیکی فاقد چنین داده‌هایی است و طبقه‌بندی مشتریان امکان‌پذیر نیست. یک راه حل اصولی تغییر فرآیند ثبت داده‌ها و انتظار برای جمع‌آوری است که طبقه‌بندی مشتریان را به آینده موکول می‌کند. راه حل کوتاه مدت که این پژوهش پیشنهاد می‌دهد استفاده از روش دلفی فازی است که در ضمیمه (1) معرفی شده است.

2-2-1- طبقه‌بندی مشتریان

هدف از طبقه‌بندی شناسایی رابطه‌ای بین یک متغیر وابسته با مقیاس اسمی و یک بردار ویژگی از مجموعه‌ای از مشاهدات است (پای و همکاران[xxvii]، 2012). مثلا یک بانک می‌خواهد مشتریِ متقاضیِ اعتبار بانکی را بر حسب مواردی مانند سن، جنس، درآمد و غیره به یکی از دو گروه خوش‌حساب و بدحساب نسبت دهد (یوسف و ربای[xxviii]، 2007). برای دستیابی به این هدف، نخست مجموعه‌ای از‌ داده‌های اولیه یا آموزش تحلیل می‌شوند و سپس مدلی برای پیش‌بینی با استفاده از ویژگی‌هایی که در داده‌ها وجود دارد، ارائه می‌گردد. اکنون می‌توان چنین مدلی را برای طبقه‌بندی مجموعه داده‌های مستقل آتی هم به کار برد (دیلون[xxix] و همکاران، 1979).  روش‌های متعددی در ادبیات پژوهش برای طبقه‌بندی ارائه شده است که هر یک نقاط قوت و ضعف خود را دارد. به عنوان مثال روش‌های پارامتری (مانند تحلیل ممیزی خطی فیشر[xxx]) مبتنی بر این فرض است که ویژگی‌های مشاهده دارای توزیع نرمال چندمتغیره هستند، اما جهان واقعی کمتر با چنین پیش‌فرض‌هایی سر سازگاری دارد. در نتیجه تخلف از فرض نرمال بودن داده‌ها منجر به سوگیری و انتساب ناصحیح مشتریان به بخش‌ها و سرانجام منجر به استراتژی‌های غیراثربخش بازاریابی می‌شود (کیانگ[xxxi] و همکاران، 2006). از این رو توجه پژوهش‌گران به توسعه روش‌هایی جلب شده است که محدود به چنین فرض‌هایی نباشند و روش‌های غیرپارامتری طبقه‌بندی مانند برنامه‌ریزی خطی که نیازمند چنین پیش‌فرض‌هایی نیستند امروزه نیز مورد توجه هستند (لام و موی[xxxii]، 1996). به همین دلیل، در این پژوهش، علاوه بر روش‌های مطرح در آمار مانند تحلیل ممیزی و رگرسیون لجستیک و روش‌های یادگیری ماشینی مانند شبکه‌های عصبی و ماشین بردار پشتیبان، از برنامه‌ریزی خطی نیز برای طبقه‌بندی استفاده می‌شود تا عملکرد روش‌های گفته شده با یکدیگر مقایسه شوند. روش‌های مختلفی، مانند نسبت موفقیت[xxxiii]، ماتریس پریشانی[xxxiv] و محاسبه درصد طبقه‌بندی صحیح، برای بررسی عملکرد روش‌های طبقه‌بندی وجود دارد که در این پژوهش میزان درصد طبقه‌بندی صحیح استفاده شده است.

 2-2-2- طبقه‌بندی مشتریان با استفاده از روش تحلیل ممیزی

در این پژوهش از روش تحلیل ممیزی مرحله‌ای[xxxv] ماهانولوبیس برای طبقه‌بندی و از معیارهای لاندای ویک و عدد ‌F برای بررسی اعتبار نتایج آن استفاده می‌شود. در روش مرحله‌ای توان پیش‌بینی‌کنندگی ویژگی‌ها به صورت گام به گام انجام می‌شود و در هر مرحله متغیری وارد محاسبات می‌شود که فاصله ماهانالوبیس بیشتری داشته باشد. برای بررسی معنادار بودن نتایج تحلیل ممیزی از لاندای ویک[xxxvi] و عدد F است. وقتی لاندای ویک برابر با یک باشد، به این معنی است که میانگین گروه‌ها برابر هستند و به خوبی تفکیک نشده‌اند. همچنین اگر F کوچکتر از یک مقدار مشخص باشد، آن متغیر به توان متمایزکنندگی اضافه نمی‌کند و از این رو حذف می‌شود. معمولا مقدار حدی F را برابر 84/3 در نظر می‌گیرند (کلکا[xxxvii]، 1980).

2-2-3- رگرسیون لجستیک

روش دوم از گروه روش‌های آماری برای طبقه‌بندی که در این پژوهش استفاده می‌شود، رگرسیون لجستیک است که مانند رگرسیون خطی است، با این تفاوت که متغیر وابسته آن به صورت اسمی و به جای توزیع نرمال از توزیع لجستیک استفاده می‌شود. روش رگرسیون لجستیک با متغیر وابسته‌ی دوتایی سروکار دارد. اما برای استفاده از آن در این پژوهش که در آن سه خوشه مشتریان وجود دارد، از روش کلی‌تر رگرسیون لجستیک چندجمله‌ای[xxxviii] مبتنی بر اصل تخمین بیشترین احتمال استفاده می‌شود.

2-2-4- شبکه عصبی مصنوعی

برخی از پژوهش‌های دو دهه اخیر نشان داده‌اند که روش شبکه عصبی ممکن است طبقه‌بندی کننده بهتری نسبت به روش‌های استاندارد آماری باشد (اودوم و شردا[xxxix]، 1990). شبکه‌های عصبی مصنوعی می‌توانند با استفاده از داده‌های موجود الگوهای همبسته بین داده‌های ورودی و مقادیر متناظر هدف را شناسایی و آن را یاد بگیرند و آنگاه این یادگیری را برای پیش‌بینی پیامد داده‌های ورودی جدید به کار برند. مرسوم‌ترین روش برای یادگیری (تنظیم وزن‌ها) الگوریتمی است که به آن انتشار به عقب[xl] گفته می‌شود و در آن خروجی محاسبه شده شبکه و خروجی مورد انتظار مقایسه می‌شود. سپس خطای حاصل برای تغییر پارامترهای شبکه به کار می‌رود. مقادیر پیش‌بینی کننده که در این پژوهش از پروفایل مشتری استخراج می‌شود به عنوان نرون‌‌های ورودی عمل می‌کنند. عملکرد شبکه‌های عصبی بستگی به تابع فعال‌سازی نرون‌ها دارد و به همین دلیل در این پژوهش عملکرد توابع مختلف بررسی می‌شوند. پژوهش‌گران نتوانسته‌اند برتری مطلق شبکه‌های عصبی را نسبت به روش‌های آماری سنتی برای طبقه‌بندی نشان دهند، مثلا زهاوی و لوین[xli] (1997) شبکه‌های عصبی را با رگرسیون لجستیک مقایسه کرده‌اند و نشان داده‌اند که نتایج هر دو مدل یکسان بوده اما تفسیر نتایج رگرسیون لجستیک ساده‌تر است.

2-2-5- ماشین بردار پشتیبان

ماشین بردار پشتیبان می‌کوشد خط جداکننده‌ای با بیشترین حاشیه اطمینان بین گروه‌هایی از داده‌هایی که اغلب خطی نیستند، پیدا کند. قبل از آن، داده‌ها را به کمک توابع کرنل به فضای هیلبرت که فضایی با ابعاد خیلی بالاست می‌برد (شیو[xlii]، 2004). اما از آنجا که چالش عمده در روش ماشین بردار پشتیبان، انتخاب تابع کرنل مناسب است در این پژوهش برای بررسی عملکرد توابع مختلف کرنل، از توابع آر.بی.اف[xliii]، چندجمله‌ای، سیگما و خطی استفاده می‌شود. مزیت اصلی روش ماشین بردار پشتیبان این است که هیچ بهینه محلی در آن وجود ندارد و برای داده‌های با ابعاد بزرگ به خوبی کار می‌کند. نقطه ضعف آن انتخاب یک تابع کرنل خوب و مناسب است (ژاکولا[xliv]، 2011).

2-2-6- برنامه‌ریزی خطی برای طبقه‌بندی مشتریان

ایده استفاده از روش‌های برنامه‌ریزی خطی برای طبقه‌بندی را منگسریان[xlv] در سال 1965 معرفی کرد و پس از معرفی مدلی مبتنی بر آن توسط فرید و گلور[xlvi] در سال 1981 موجب علاقمندی پژوهش‌گران به آن گردید، اما هر دو مدل برای حل مسایل طبقه‌بندی دو گروهی بودند. در سال 1996 لام و موی مدلی معرفی کردند که مساله طبقه‌بندی چندگروهی را به صورت چندین مساله دو گروهی حل می‌کند و در ضمیمه (2) معرفی شده است. پای و همکاران (2012) عملکرد همین مدل را با سایر مدل‌های مرسوم طبقه‌بندی مقایسه کرده‌ و نشان داد‌ه‌اند که عملکرد آن تا زمانی که ماهیت خطی مساله حفظ شود بهتر است. از جمله مزایای مهم برنامه‌ریزی خطی گرفتار نشدن در بهینه‌های محلی، و وجود فرآیندی ساده‌تر و قابل درک‌تر است.

 3- تجزیه و تحلیل یافته‌های پژوهش

داده‌های مشتریان اینترنت پرسرعت شرکت ایران‌گیت برای تجزیه و تحلیل مورد استفاده قرار می‌گیرد. براساس الگوریتم پیشنهاد شده ابتدا داده‌های «تازگی، تکرار و ارزش پولی» در محیط نرم‌افزار کلمنتاین استخراج شد. سپس برای تعیین وزن هر یک از متغیرهای تازگی، تکرار و ارزش پولی از روش تحلیل سلسله مراتب فازی استفاده شد. بدین منظور، در جلسه‌ای از کارشناسان شرکت خواسته شد تا متغیرهای تازگی، تکرار و ارزش پولی را به صورت زوجی مقایسه کنند و اهمیت هر یک نسبت به دیگری را بر مبنای متغیرهای کلامی «خیلی کم، کم، متوسط، زیاد و خیلی زیاد» بیان کنند. سپس متغیرهای کلامی به اعداد فازی تبدیل شدند. پس از استفاده از معادلات تحلیل سلسله مراتب فازی، وزن‌های گردشده تازگی، تکرار و ارزش پولی به ترتیب 3/0، 2/0 و 5/0 به دست آمد.

3-1- تجمیع خوشه‌بندی برای بخش‌بندی مشتریان

از آن جا که نمی‌توان صرفا به نتایج یکی از روش‌های خوشه‌بندی اتکا کرد، برای اطمینان از انجام بهترین خوشه‌بندی از تجمیع روش‌های کی-‌مینز، شبکه عصبی خودسازمان‌ده و روش خوشه‌بندی دو مرحله‌ای استفاده شد. در ابتدا داده‌های تازگی، تکرار و ارزش پولی موزون با استفاده از روش شبکه عصبی خودسازمان‌ده و با اندازه نقشه خروجی 7×10 و در محیط نرم‌افزار کلمنتاین خوشه‌بندی شد که تصویر خروجی آن در شکل (2) ارائه شده است.

 

شکل 2- تعداد مشتریان به عنوان خروجی نقشه‌های خودسازمان‌ده با ابعاد 10×7 (منبع: یافته‌های پژوهش)

 

در این شکل هر چه تعداد مشتریان در یک خوشه بیشتر باشد، رنگ خوشه قرمز تندتر است. بنابراین می‌توان 3 یا 4 خوشه را به عنوان بهترین تعداد خوشه تعیین کرد. سپس با استفاده از این اطلاعات و کاربرد روش کی-‌مینز برای تعداد خوشه‌های مختلف (K)، خوشه‌بندی انجام شد و معیار سیلوئت برای تعیین تعداد بهینه خوشه‌ها به کار رفت که نتایج آن در جدول (1) نشان داده شده است:

جدول 1- نتایج معیار سیلوئت برای خوشه‌های مختلف به دست آمده از روش کی-مینز

K

2

3

4

5

6

سیلوئت

4408/0

6005/0

4123/0

5721/0

5433/0

 

 

 

دیده می‌شود که اگر تعداد خوشه‌ها برابر با 3 در نظر گرفته شود، بهترین مقدار سیلوئت به دست می‌آید. این امر دلیل دیگری بر وجود 3 خوشه در میان داده‌ها است. برای اطمینان بیشتر بار دیگر با استفاده از روش خوشه‌بندی نقشه‌های خودسازمان‌ده و با تعیین ابعاد نقشه خروجی آن روی 3×3 محاسبات تکرار شد. نتایج حاصل از خوشه‌بندی دو روش کی‌-مینز و نقشه‌های خودسازمان‌ده در جدول‌ 2 نشان داده شده است. مطابق با جدول (2‌)، خوشه دوم در هر دو روش با حدود 1700 مشتری دارای بالاترین میانگین تازگی، تکرار و ارزش پولی و ارزشمندترین خوشه است و تقریبا 30 درصد کل مشتریان هستند،‌ که تاحدی مطابق با اصل پارتو یا اصل 20-80 است.  در جدول (3) نتایج روش خوشه‌بندی سلسله ‌مراتبی دو مرحله‌ای نیز ارائه شده است. این روش به صورت خودکار 4 خوشه را شناسایی کرده است ولی تعداد مشتریان ارزشمند را کمتر از دو روش قبل و در حدود 1200 مشتری برآورد کرده است. از نظر بازاریابی اتکا صرف به این روش موجب عدم تمرکز بر بخش بیشتری از مشتریان به عنوان مشتریان غیرارزشمند می‌شود.

جدول 2 – نتایج خوشه‌بندی کی‌-مینز و نقشه‌های خودسازمان‌دهد برای سه خوشه

کی‌-مینز

خوشه‌ها

تعداد مشتری

میانگین  تازگی

میانگین  تکرار

میانگین ارزش پولی

میانگین  RFM

اول

2387

838/4

062/2

582/2

155/3

دوم

1776

806/6

068/7

306/6

609/6

سوم

1108

407/2

977/1

836/7

035/5

نقشه‌های خودسازمان‌ده

خوشه‌ها

تعداد مشتری

میانگین  تازگی

میانگین  تکرار

میانگین ارزش پولی

میانگین RFM

اول

2448

399/3

472/1

830/3

229/3

دوم

1799

810/6

010/7

444/6

667/6

سوم

1024

601/5

369/3

958/4

833/4

 

 

جدول 3- نتایج خوشه‌بندی سلسله مراتبی دو مرحله‌ای

خوشه‌بندی دو مرحله‌ای

خوشه‌ها

تعداد مشتری

میانگین  تازگی

میانگین  تکرار

میانگین ارزش پولی

میانگین  RFM

اول

1279

514/6

027/8

725/6

922/6

دوم

1752

622/6

275/3

462/4

873/4

سوم

899

935/1

704/1

009/8

926/4

چهارم

1341

455/3

589/1

810/1

259/2

 

 

اما برای تعیین کیفیت خوشه‌بندی سه روش فوق، مقادیر سیلوئت در محیط نرم‌افزار متلب محاسبه شد که در جدول (4) ارائه شده است و مطابق با آن روش کی‌-مینز کیفیت بهتری دارد و از این جا به بعد مبنای محاسبات بعدی قرار می‌گیرد.

جدول 4- مقایسه مقدار سیلوئت سه روش خوشه‌بندی

 

روش

روش کی‌-مینز

روش نقش‌های خودسازمانده

روش دو مرحله‌ای

سیلوئت

606/0

2746/0

5476/0

3-2- مقایسه عملکرد روش‌های طبقه‌بندی کننده

هنگام بررسی داده‌های مشتریان شرکت ایران‌گیت مشخص شد که داده‌های پروفایل مشتریان وجود ندارد. از این رو با استفاده از روش دلفی فازی که در ضمیمه (1) معرفی شده است، پنج متغیر تحصیلات، هدف از استفاده از اینترنت، درآمد سالیانه، جنس و ‌سن به عنوان پیش‌بینی‌کننده‌های مهم انتخاب شدند و از طریق مصاحبه تلفنی، پنج داده‌ مورد اشاره از 1808 مشتری جمع‌آوری گردید. سپس طبقه‌بندی مشتریان با استفاده از فنون آماری تحلیل ممیزی، رگرسیون لجستیک و فنون یادگیری ماشینی شبکه‌های عصبی و ماشین بردار پشتیبان در کنار برنامه‌ریزی خطی انجام شد که در ادامه نتایج آن ارائه شده است.

3-2-1- تحلیل ممیزی

آزمون شاپیرو ویلک[xlvii] که آزمونی برای بررسی نرمال بودن داده‌ها است، نشان داد که به جز سن و درآمد، بقیه داده‌های مورد استفاده غیرنرمال هستند. گرچه این شرط اساسی برای استفاده از تحلیل ممیزی وجود ندارد، اما گاهی آزمون‌های آماری بدون توجه به پیش‌شرط‌ها مورد استفاده قرار می‌گیرند و در اینجا نیز برای نشان دادن آن چه از تحلیل ممیزی به دست می‌آید، با چشم پوشی از این خطا سعی در یافتن توابع ممیزی می‌شود. در ابتدا 65 درصد داده‌ها به عنوان داده‌های آموزشی مورد استفاده قرار می‌گیرد. هدف تحلیل ممیزی، انتخاب مهمتر‌ین متغیرها و تعیین توابعی است که تمایز میان خوشه‌ها را نمایان می‌سازد. برای دستیابی به این هدف، از روش تحلیل ممیزی تدریجی استفاده شد. مطابق با آنچه در بخش 2-2-2 گفته شد، در مرحله اول درآمد و در مرحله دوم هدف به عنوان ویژگی‌هایی که بیشترین سهم را در ایجاد تمایز میان گروه‌ها دارند، انتخاب می‌شوند چون در هر مرحله کمترین لاندای ویک و بیشترین عدد F را دارند.

 

 

جدول 5- مقادیر لاندای ویک وF برای انتخاب مهم‌ترین متغیرها در روش تحلیل ممیزی تدریجی پیش‌رونده

مرحله

متغیر

لاندای ویک

عدد  Fبرای ورود

اول

سن

968/0

448/19

جنس

999/0

854/0

تحصیلات

979/0

396/12

هدف

951/0

553/29

درآمد سالیانه

866/0

832/89

دوم

سن

865/0

186/0

جنس

861/0

435/3

تحصیلات

848/0

275/12

هدف

821/0

453/31

سوم

سن

821/0

132/0

جنس

818/0

251/2

تحصیلات

819/0

404/1

 

 

 

 

به این ترتیب سه تابع ممیزی که 100 درصد واریانس ویژگی‌ها را دربر می‌گیرند، ارائه می‌شود که به صورت زیر است:

F1= -5.506 + 0.074 × income + 3.374 × purpose

F2=-4.803 + 0.091 × income + 2.862 × purpose   F3=-7.319 + 0.132 × income + 3.531 × purpose

با در اختیار داشتن توابع ممیزی که با استفاده از داده‌های آموزشی به دست آمده‌اند و برای بررسی میزان دقت مدل، از داد‌های آزمایشی استفاده می‌شود تا میزان طبقه‌بندی صحیح مدل به دست آید. نتایج در جدول (6) ارائه شده است. همچنانکه مشاهده می‌شود دقت پیش‌بینی تحلیل ممیزی در انتساب صحیح مشاهدات به خوشه اول 2/52 درصد، به خوشه دوم 8/50 درصد و به خوشه سوم 46 درصد است که به طور میانگین برابر با 7/49 درصد است. به عبارت دیگر کمتر از نصف پیش‌بینی‌های ارائه شده از رفتار آتی مشتریان مقرون به صحت است.

 

جدول 6- دقت پیش‌بینی تحلیل ممیزی بر مبنای داده‌های آموزشی

نتایج طبقه‌بندی

 

 

خوشه

عضویت پیش‌بینی شده در گروه

کل

1

2

3

اعتبارسنجی

تعداد

1

206

145

44

395

2

99

199

94

392

3

113

89

172

374

درصد

1

2/52

7/36

1/11

100

2

3/25

8/50

0/24

100

3

2/30

8/23

0/46

100

               

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3-2-2- رگرسیون لجستیک

با در نظر گرفتن خوشه اول به عنوان خوشه مرجع، مدل رگرسیون لجستیک با استفاده از تابع کرنل RBF و داده‌های آموزشی مورد استفاده قرار گرفت تا تـوابـع رگرسیـون به دست آید. دو تابع رگرسیون به دست آمده به شرح زیر است:

 

F2= 0.0879 × [Sex=0] - 2.836 × [Education=0] - 0.4651 × [Education=1] - 0.9607 × [Education=2] - 0.8236 × [Education=3] - 0.981 × [Education=4] - 20.26 × [Purpose=0] + 0.9714 × [Purpose=1] + 0.7218 × [Purpose=2] + 0.0562 × Income - 0.8118

 

F3 = -4.096 + 0.4978 × [Sex=0] - 0.5183 × [Education=0] + 1.695 × [Education=1] + 1.972 × [Education=2] + 1.753 × [Education=3] + 1.54 × [Education=4] - 20.76 × [Purpose=0] - 0.2584 × [Purpose=1] - 0.1181 × [Purpose=2] + 0.1047 × Income

توابع رگرسیون شامل سطوح مختلف متغیرها است. به عنوان مثال، در تابع دوم ضریب رگرسیونی مشتریان با تحصیلات زیر دیپلم (کد صفر) برابر با 5183/0- است، در حالی که ضریب رگرسیونی مشتریان با تحصیلات لیسانس (کد 3) برابر با 753/1+ است. به عبارت دیگر مشتریان با تحصیلات لیسانس در خوشه دوم دارای بالاترین ضریب رگرسیونی هستند. اینک برای بررسی میزان دقت پیش‌بینی این توابع رگرسیونی، آن‌ها را با استفاده از داده‌های آزمایشی به کار می‌بریم که نتایج آن در جدول (7) نشان داده شده است. همچنان که مشاهده می‌شود، میزان انتساب صحیح مشاهدات به خوشه اول 5/58 درصد، به خوشه دوم 50 درصد و به خوشه سوم 6/50 درصد و عملکرد یا دقت پیش‌بینی کلی مدل 1/53 درصد است که اندکی بیش از دقت مدل تحلیل ممیزی است.

 

 

 

 

 

 

جدول 7- نتایج طبقه‌بندی رگرسیون لجستیک با استفاده از تابع RBF

نتایج طبقه‌بندی

 

خوشه

عضویت پیش‌بینی شده

کل

1

2

3

اعتبارسنجی

تعداد

1

231

121

43

395

2

102

196

94

392

3

113

72

189

374

درصد

1

5/58

6/30

9/10

100

2

26

50

24

100

3

2/30

2/19

6/50

100

                     

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

3-2-3- شبکه عصبی مصنوعی

برای بررسی عملکرد توابع مختلف شبکه عصبی، توابع پویا[xlviii]، چندگانه[xlix]، هرس فراگیر[l] و تابع پایه شعاعی[li] مورد بررسی قرار می‌گیرند. در روش پویا یا دینامیک در طی فرآیند آموزش به لایه‌های پنهان افزوده یا از آن‌ها کاسته می‌شود. در روش چندگانه، در طی فرآیند آموزش به صورت همزمان چندین روش به کار گرفته می‌شود. در انتها مدلی که دارای پایین‌ترین خطا است، به عنوان مدل نهایی ارائه می‌شود. روش شبکه تابع پایه شعاعی از روشی مانند خوشه‌بندی کی‌-مینز استفاده می‌کند تا داده‌ها را بر مبنای مقادیر گروه‌های هدف تقسیم‌ کند. همچنین در روش هرس فراگیر[lii]، ابتدا شبکه بزرگی ایجاد می‌شود و سپس ضعیف‌ترین واحدها در لایه‌های پنهان و ورودی در طی فرآیند آموزش حذف می‌شوند. این روش از همه روش‌های گفته شده زمان‌برتر است، اما بهترین جواب را به دست می‌دهد (پایگاه اینترنتی اس.پی.اس، 2013). در جدول (8) دیده می‌شود که میزان دقت پیش‌بینی تابع هرس‌فراگیر که دارای پیچیدگی و لایه‌های پنهان بیشتری است، بالاتر است. اما پیچیدگی و لایه‌های پنهای بیشتر، شبکه عصبی را مانند یک جعبه سیاه می‌نماید که دشواری تحلیل نتایج را
 در پی دارد.

جدول 8- ساختار وعملکرد توابع مختلف شبکه عصبی در طبقه‌بندی

تابع فعال‌سازی

نرون‌های لایه ورودی

نرون‌های لایه پنهان اول

نرون‌های لایه پنهان دوم

نرون‌های لایه پنهان سوم

نرون‌های لایه خروجی

دقت پیش‌بینی شده

RBFN

13

20

-

-

3

8/46

پویا

13

8

6

-

3

6/52

هرس فراگیر

13

26

16

-

3

6/70

چندگانه

13

12

12

11

3

4/64

 

 

 

 

 

 

 

 

3-2-3- ماشین بردار پشتیبان

چهار تابع کرنل مختلف برای بررسی عملکرد آن‌ها مورد استفاده قرار می‌گیرد. معیار توقف در نرم‌افزار کلمنتاین روی 001/0 که مقدار قراردادی است تنظیم شد. هنگامی که از تابع کرنل RBF استفاده شد، مقدار گامای آن روی 2/1 تنظیم شد. این مقدار معمولا بین k/3 و k/6 است که k تعداد خوشه‌های تعیین شده است. چون در اینجا تعداد خوشه‌ها 3 است، مقدار آن بین 1 و 2 مجاز است. افزایش این مقدار، دقت طبقه‌بندی برای داده‌های آموزشی را افزایش می‌دهد، اما ممکن است منجر به دقت بیش از حد[liii] شود. هنگامی که از تابع کرنل چندجمله‌ای یا سیگما استفاده شد، مقدار گاما به صورت قراردادی 2 انتخاب شد. افزایش این مقدار نیز می‌تواند دقت طبقه‌بندی را افزایش دهد، گرچه مانند قبل ممکن است به دقت بیش از حد منجر شود. نتایج در جدول (9) ارائه شده است که نمایانگر برتری تابع کرنل چند جمله‌ای نسبت به سه تابع کرنل دیگر است. گرچه تابع کرنل چند جمله‌ای با 72 درصد طبقه‌بندی صحیح، نتایج بهتری برای داده‌های آموزشی ارائه کرده است، اما میزان طبقه‌بندی صحیح آن برای داده‌های آزمایشی، 64 درصد است. این امر نشان دهنده عدم ثبات یا پایداری مدل است.

جدول 9- میزان طبقه‌بندی صحیح توابع کرنل مختلف ماشین بردار پشتیبان

 

وزن ویژگی‌ها

سن (W1)

جنس (W2)

تحصیل (W3)

هدف (W4)

درآمد (W5)

خوشه 1 و2

0257/0

0937/0

1172/0-

4784/0

1368/0-

خوشه 1 و3

0040/0

0863/0

0168/0-

1260/0-

0620/0-

خوشه 2 و3

0164/0

0128/0

2626/0

6618/0-

0696/0-

 

 

 

 

 

 

 

 

 

 

3-2-4- برنامه‌ریزی خطی چندگروهی

تاکید اصلی این پژوهش بر توانایی برنامه‌ریزی خطی در انجام کاراتر طبقه‌بندی دست کم برای پایگا‌ه‌های داده کم تا متوسط است. در ابتدا داده‌های جمعیت‌شناسی مربوط به 1808 مشتری نمونه شرکت ایران‌گیت، به صورت تصادفی به دو نمونه آموزشی (65٪) و آزمایشی (35٪) تقسیم شد.

 

3-2-4-1- مرحله اول: آموزش مدل برنامه‌ریزی خطی

65 درصد داده‌ها که متعلق به 1170 مشتری است به صورت تصادفی توسط نرم‌افزاری که به منظور حل مدل برنامه‌ریزی خطی چندگروهی در محیط متلب نوشته شد، انتخاب گردید. سپس مدل (5) برای محاسبه وزن ویژگی‌های مشتریان در سه بخشی که قبلا به دست آمده است،  مورد استفاده قرار گرفت که نتایج آن در جدول (10) ارائه شده است. خوشه‌های 1 و 2،  1 و 3، و 2 و 3 با یکدیگر مقایسه و وزن ویژگی‌ها که تعیین کننده میزان اهمیت آنها در تفکیک دو گروه است به دست آمده است. به عنوان مثال، وزن ویژگی هدف در تفکیک بین خوشه‌های 1 و 2 برابر با 478/0 است که نسبت به وزن سایر ویژگی‌ها در همین مقایسه بیشتر است.

جدول 10- وزن ویژگی‌‌های مشتریان در مقایسه بخش‌ها

تابع

داده‌های آموزشی

داده‌های آزمایشی

تعداد

درصد

تعداد

درصد

آر.بی.اف

675

58

363

56

چندجمله‌ای

841

72

413

64

سیگما

442

38

239

37

خطی

595

51

353

54

میانگین

638

55

342

53

 

 

 

 

 

 

 

 

 

 

بررسی وزن‌های به دست آمده بین خوشه‌های 1 و 3 و خوشه‌های 2 و 3 نیز نشانگر اهمیت هدف مشتریان در ایجاد تمایز میان آن‌ها است. این ویژگی بیشترین تاثیر را در تفکیک خوشه‌های 2 و 3 داشته است. در مرحله دوم خطوط برش میان سه خوشه مطابق با مدل (6) محاسبه گردید که در جدول (11) نتایج آن آمده است.

جدول 11- خطوط برش بین سه بخش‌ مشتریان

 

خطوط برش میان خوشه‌ها

 

خوشه 1

خوشه 2

خوشه 3

خوشه 1

 

9893/0-

3273/1-

خوشه 2

 

 

8966/1-

خوشه 3

 

 

 

3-2-4-2- مرحله دوم: آزمون مدل برنامه‌ریزی خطی

در این قسمت با استفاده از وزن‌های محاسبه شده ویژگی‌ها در خوشه‌های سه‌گانه و خطوط برش بین آن‌ها، نمرات طبقه‌بندی 35 درصد باقیمانده مشتریان محاسبه می‌شود. نتایج دقت طبقه‌بندی با استفاده از داده‌های آموزشی در جدول (12) و برای داده‌های آزمایشی در جدول (13) ارائه شده است. همچنان‌ که مشاهده می‌شود دقت مدل پس از محاسبات اولیه و برای داده‌های آزمایشی بیشتر و به طور میانگین برابر با 69 درصد است. به عبارت دیگر با 69 درصد اطمینان می‌توان احتمال تعلق مشتری جدید به یکی از 3 بخش بازار را گمانه‌زنی کرد. جدول (14) دقت روش‌هایی که در این پژوهش برای طبقه‌بندی استفاده شد را نشان می‌دهد.

جدول 12- دقت طبقه‌بندی با استفاده ازداده‌های آموزشی

مقایسه خوشه‌ها

داده‌های آموزشی (65٪)

1 و 2

65٪

1 و 3

69٪

2 و 3

63٪

میانگین

66٪

 

 

جدول 13-دقت طبقه‌بندی با استفاده از داده‌های آزمایشی

مقایسه خوشه‌ها

داده‌های آزمایشی (35٪)

1 و 2

68٪

1 و 3

73٪

2 و 3

65٪

میانگین

69٪

 

 

جدول 14- مقایسه دقت مدل‌های طبقه‌بندی کننده

مدل

داده‌های آموزشی

داده‌های آزمایشی

شبکه عصبی

58٪

60٪

تحلیل ممیزی

50٪

53٪

رگرسیون لجستیک

53٪

55٪

ماشین بردار پشتیبان

55٪

53٪

برنامه‌ریزی خطی

66٪

69٪

 

 

همچنان که مشاهده می‌شود، به طور میانگین دقت طبقه‌بندی مدل برنامه‌ریزی خطی بالاتر از روش‌های استفاده شده است. یک نگرانی در مورد استفاده از برنامه‌ریزی خطی، مدت زمان بالای انجام محاسبات نسبت به سایر مدل‌ها است. اما امروزه با توجه به توانایی و سرعت بالای کامپیوترهای شخصی این نگرانی تا حد زیادی بر طرف شده است. زمان انجام محاسبات در مورد 1808 داده‌ مورد استفاده این پژوهش با استفاده از برنامه‌ریزی خطی در حدود 2 دقیقه بیشتر از سایر مدل‌ها بود.

 

4- نتیجه‌گیری

مساله فقدان یک الگوریتم یکپارچه برای بخش‌بندی بازار و طبقه‌بندی مشتریان که به ویژه متناسب با شرایط بازارهای الکترونیکی باشد و صرفا محدود به یکی دو روش مرسوم نباشد، انگیزه انجام این پژوهش بوده است. در این راستا، برای بخش‌بندی بازار صرفا به یک روش اتکا نشده و روش‌های غالب کی‌-مینز، نقشه‌های خودسازمان‌ده و خوشه‌بندی دو مرحله‌ای در قالب رویکردی تجمیعی مورد استفاده قرار گرفته تا نسبت به دقت و صحت نتایج اطمینان حاصل شود. به علاوه، برای اطمینان بیشتر معیار سیلوئت برای بررسی صحت و اعتبار نتایج مورد استفاد قرار گرفت. آن‌گاه به مساله‌ای که اغلب به آن توجه نمی‌شود و آن فقدان داده‌های مورد نیاز در پایگاه داده مشتریان است، توجه گردید و روش دلفی فازی برای جبران این کمبود پیشنهاد شد. سپس بر پایه نتایج حاصل از خوشه‌بندی و داده‌های گردآوری شده از طریق مصاحبه تلفنی، مشتریان با استفاده از روش‌های آماریِ تحلیل ممیزی و رگرسیون لجستیک و همچنین روش‌های یادگیری ماشینیِ شبکه‌‌های عصبی مصنوعی و ماشین بردار پشتیبان، طبقه‌بندی شدند. اما روش‌های گفته شده به دلیل درگیر بودن متغیرهای بسیار زیاد اغلب به صورت جعبه سیاه عمل می‌کنند و از این رو تفسیر نتایج آن‌ها به ویژه از منظر بازاریابی دشوار است، علاوه بر آن که گاه نیاز به وجود پیش‌شرط‌های خاص دارند و گاه دچار کاستی‌هایی مانند گرفتاری در بهینه‌های محلی هستند. از این رو این پژوهش نشان داد که روش طبقه‌بندی برنامه‌ریزی خطی نه تنها می‌تواند نتایج دقیق‌تری از روش‌های مرسوم گفته شده ارائه نماید، بلکه به دلیل سادگی، شفافیت و وجود متغیرهای شناخته شده و اندک، به ویژه برای بازاریابان، نتایج روشن‌تر و قابل تفسیرتری در بر دارد.

4-1- محدودیت‌های پژوهش و پژوهش‌گر

نخستین محدودیت پژوهش این است که هیچ روش یگانه‌ای برای بخش‌بندی و طبقه‌بندی وجود ندارد. زیرا بخش‌بندی نوعی داده‌کاوی اکتشافی است که در حوزه‌های مختلف و مرتبط به هم مانند آمار، یادگیری ماشینی، تشخیص الگو، بازیابی اطلاعات و غیره مورد بحث و بررسی قرار گرفته است. طبقه‌بندی نیز در علومی چون آمار و ریاضی، شیمی، زیست‌شناسی، پزشکی، جامعه‌شناسی، سینما و غیره به کار رفته است. وجود همین روش‌های بسیار متنوع و فراوان برای دو مساله بخش‌بندی و طبقه‌بندی در علوم مختلف است که بررسی تک تک آن‌ها را امکان‌پذیر نمی‌سازد و از این رو کوشش شده است که رهیافت‌های اساسی استفاده شوند.

محدودیت دوم پژوهش آن است که نتایج به دست آمده در مورد یک شرکت مورد مطالعه است. حتی این نتایج با افزایش داده‌ها در پایگاه داده مشتریان همین شرکت نیز قطعا دستخوش تغییر خواهند شد. زیرا اساسا استخراج دانش از داده‌ها امری پویا است و از این رو ضروری است که شرکت به تناوب محاسبات را تکرار کند تا نتایج به روز رسانی شوند.

یک محدودیت پژوهش‌گر، بی‌میلی شرکت‌های الکترونیکی برای در اختیار قرار دادن داده‌های مورد نیاز بود. دلایل متعددی برای این بی‌رغبتی وجود دارد که از جمله مهم‌ترین آن‌ها می‌توان به ضرورت در اختیار قرار دادن داده‌های مالی یا ارزش پولی مشتریان اشاره کرد. شرکت‌ها به دلیل نگرانی از نحوه استفاده از داده‌ها و پیامدهای احتمالی مانند امور مالیاتی از ارائه آن خودداری می‌کنند. یک دلیل دیگر آن است که لازم است تمامی داده‌های مشتریان از قبیل آدرس‌های تماس و اطلاعات خرید آن‌ها در اختیار پژوهش‌گر قرار گیرد و آن‌ها نگران این هستند که این داده‌ها در اختیار رقبا قرار گیرد. علت سوم بی‌میلی آن‌ها این است که شرکت‌ها اصولا با مباحث بخش‌بندی و طبقه‌بندی ناآشنا هستند و از مزایای آن آگاهی ندارند.

4-2-پیشنهادات به پژوهش‌گران آینده

پیشنهاد می‌گردد سایر روش‌های بخش‌بندی و طبقه‌بندی مطرح در ادبیات پژوهش در کنار روش برنامه‌ریزی خطی مورد استفاده و مقایسه قرار گیرند. همچنین پیشنهاد می‌گردد علاوه بر معیار سیلوئت، سایر معیارهای بررسی کیفیت بخش‌‌بندی نیز استفاده شود. به شرکت‌ها نیز پیشنهاد می‌گردد در لحظه ثبت نام مشتریان در سایت شرکت، با انجام تمهیدات تشویقی لازم تا جایی که امکان دارد و حریم شخصی افراد مورد خدشه قرار نگیرد، داده‌های مربوط به آن‌ها درخواست شود.



[i] - Ziberna and Zabkar

[ii] - Funatsu and Hasegawa

[iii] - customer churn

[iv] - Liu et al

[v] - Ma et al

[vi] - Mangasarian

[vii] - Freed and Glover

[viii] - Ragsdale and Stam

[ix] - Lam and Moy

[x] - Gochet

[xi] - Yousef and Rebai

[xii] - Kwak

[xiii] - Preprocessing

[xiv] - Zucker

[xv] - Recency- Frequency- Monetary (RFM) 

[xvi] - Analytical Hierarchical Process

[xvii] - K-means

[xviii] - Self-Organizing-Map (SOM)

[xix] - Two Step Clustering

[xx] - Cluster ensemble

[xxi] - Kotsiantis and Pintelas

[xxii] - Kohonen

[xxiii] - Blattberg

[xxiv] - SPSS

[xxv] - Petrovi´c

[xxvi] - Rousseeuw

[xxvii] - Pai

[xxviii] - Youseef and Rebai

[xxix] - Dillon

[xxx] - Fisher’s Linear Discriminant Analysis (FLDA)

[xxxi] - Kiang et al

[xxxii] - Lam and Moy

[xxxiii] - Hit ratio

[xxxiv] - Confusion matrix

[xxxv] - Stepwise

[xxxvi] - Wilks’ lambda

37-Klecka

[xxxviii] - multinomial logistic regression (MLR)

[xxxix] - Odom & Sharda

[xl] - back propagation

[xli] - Zahavi and Levin

[xlii] - Shawe

[xliii] - Radial Basis Function

[xliv] - Jakkula

[xlv] - Mangasarian

[xlvi] - Freed and Glover

[xlvii] - Shapiro Wilk

[xlviii] - Dynamic

[xlix] - Multiple

[l] - Exhaustive prune

[li] - Radial basis function network

[lii] - Exhaustive prune

[liii] - Over-fitting

حسنقلی‌پور، طهمورث؛ میری، مهدی؛ مروتی شریف‌آبادی، علی (1386)، تقسیم بازار با استفاده از شبکه عصبی مصنوعی، مطالعه موردی فرآورده‌های گوشتی (سوسیس)، فصل‌نامه مدرس علوم انسانی‌، ویژه‌نامه مدیریت، 59-80

شهرابی، جمال؛ نامدار علی‌آبادی، عباس؛ غلامی، رمضان (1389)، دسته‌بندی و شناسایی مشتریان هدف برای به کارگیری استراتژی بازاریابی مستقیم با یکپارچه‌سازی داده‌کاوی و منطق فازی، چهارمین کنفرانس داده‌کاوی ایران، دانشگاه صنعتی شریف، تهران، ایران

عباسی، المیرا؛ صالح اولیاء، محمد؛ علیزاده، سمیه؛ خادمی زارع، حسن (1389)، استفاده از داده‌کاوی برای تعیین استراتژی‌های بازاریابی سیستم فروش اینترنتی بلیط قطار، چهارمین کنفرانس داده‌کاوی ایران، دانشگاه صنعتی شریف، تهران

غضنفری، مهدی؛ ملک‌محمدی، سمیرا؛ علیزاده، سمیه‌؛ فتح‌الهه، مهدی(1389)؛ بخش‌بندی مشتریان در صادرات پوشاک بر پایه الگوریتم بخش‌بندی، فصل‌نامه پژوهشنامه بازرگانی، شماره 56، 59-86

Azadnia, A. H., Mat Saman, M.Z., Wong, K.Y and Hemdi, A.R, (2011), "Integration model of fuzzy C-Means clustering algorithm and TOPSIS method for customer lifetime value assessment", Industrial Engineering and Engineering Management, Singapor IEEE, 16-20.

Baines, P., Fill, C., & Page, K. (2010). Market Segmentation and Posintioning Marketing, Second Edition (pp. 227-244). USA: Oxford University Press.

Blattberg, R. C., Kim, B., & Neslin, S. A. (2008). Database marketing: analyzing and managing customers. New York: Springer.

Chiu, C. Y., Chen, Y. F., Kuo, I. T., & Ku, H. C. (2009). An intelligent market segmentation system using k-means and particle swarm optimization. Expert Systems with Applications, 36, 4558–4565.

Chiu, T., Fang, D., Chen, j., Wang, y., & Jeris., C. (2001). A Robust and Scalable Clustering Algorithm for Mixed Type Attributes in Large Database Environment. Paper presented at the international conference on knowledge discovery and data mining.

Dillon, W., Calantone, R., & Worthing, P. (1979). The new product problem: An approach for investigating product failures. Management Science, 25(12), 1184-1196.

Freed, N., & Glover, F. (1981). Simple but powerful goal programming models for discriminant problems. European Journal of Operational Research 7, 44-66.

Funatsu, K., & Hasegawa, K. (2011). Knowledge-Oriented Applications in Data Mining. Rijeka, Croatia: InTech.

Gochet, W., Stam, A., Srinivasan, V., Chen., S. (1997). “Multi-group discriminant analysis using linear programming”. Operations Research, 45(2), 213-225.

Hanafizadeh, P., & Mirzazadeh, M. (2011). Visualizing market segmentation using self-organizing maps and fuzzy delphi method – ADSL market of a telecommunication company Expert Systems with Applications, 38, 198-205.

Jakkula, V. (2011). Tutorial on Support Vector Machine (SVM) Unpublished manuscript, School of EECS, Washington State University.

Kiang, M. Y., Hu, M. Y., & Fisher, D. M. (2006). An extended self-organizing map network for market segmentation—a telecommunication example. Decision Support Systems 42, 36-47.

Klecka, W. (1980). Discriminant Analysis: Sage.

Kotsiantis, S., & Pintelas, P. (2004). Recent Advances in Clustering: A Brief Survey. WSEAS Transactions on Information Science and Applications, 1, 73--81.

Kwak, N. K., Kim, S.H., Lee, C.W. and Choi, T.S (2002). "An application of linear programming discriminant analysis to classifying and predicting the symptomatic status of HIV/AIDS Patients." Journal of Medical Systems 26(5): 427-438.

Lam, K., Choo, E., & Moy, J. (1996). Improved Linear Programming Formulations for the Multi-Group Discriminant Problem. Journal of the Operational Research Society, 47(12), 1526-1529.

Liu, Y., Kiang, M., & Brusco, M. (2012). A unified framework for market segmentation and its applications. Expert Systems with Applications, Article in Press.

Ma, B., Li, F., Wang, G. and Ran, L., (2009), "Targeting valuable customers within a retail reward program database by RFMG Model", International Conference on Intelligent Systems, Modelling and Simulation, IEEE, Beijing

Mangasarian, O. (1965). Linear and nonlinear separation of patterns by linear programming. Journal of Operations Research, 13, 444-452.

Namvar, M., Gholamian, M. and KhakAbi, S., (2010), "A two phase clustering method for intelligent customer segmentation", International Conference on Intelligent Systems, Modelling and Simulation, IEEE, pp. 215-219.

Odom, M., & Sharda, R. (1990). A neural network model for bankruptcy prediction. Paper presented at the Proceedings of the international joint conference on neural networks, Alamitos, CA.

Pai, D. R., Lawrence, K. D., Klimberg, R. K., & Lawrence, S. M. (2012). Experimental comparison of parametric, non-parametric, and hybrid multigroup classification. Expert Systems with Applications, 39, 8593-8603.

Petrovi´c, S. (2006). A comparison between the Silhouette index and the Davies-Bouldin index in labelling IDS clusters. Paper presented at the 11th Nordic Workshop on Secure IT-systems, NORDSEC, Linkoping, Sweden.

Ragsdale, C., Stam., A. (1991). Mathematical programming formulations for the discriminant problem. Decision Sciences, 22, 296-307.

Rousseeuw, P. J. (1987). Silhouettes: a graphical aid to the interpretation and validation of cluster analysis. Journal of Computational and Applied Mathematics(20), 53-65.

Shawe, J., & Cristianini, T. (2004). Kernel Methods for Pattern Analysis: Cambridge University Press.

spss. (2013). from www.spss.com

Youssef, S., & Rebai, A. (2007). Comparison between statistical approaches and linear programming for resolving classification problem. International Mathematical Forum, 63, 3125 - 3141.

Zahavi, J., & Levin, N. (1997). ssues and problems in applying neural computing to target marketing. ournal of Direct Marketing, 11(4), 63-75.

Ziberna, A., & Zabkar, V. (2003). Application of End-Users Market Segmentation using Statistical Methods. In A. Ferligoj, Mrvar, A (Ed.), Developments in Applied Statistics (pp. 243- 263). Ljubljana: FDV.

Zucker, R., & Kietz, J. U. (2000). How to preprocess large databases. In Data Mining, Decision Support, Meta-learning and ILP. Lyon, France: Forum for Practical Problem Presentation and Prospective Solutions.

Kaufmann, A. and Gupta M. (1991) "Introduction to fuzzy arithmetic". Amsterdam: Van Nostrand Reinhold Company Inc.