نوع مقاله : مقاله پژوهشی
نویسندگان
1 دکترای مدیریت بازرگانی، دانشکده علوم اداری و اقتصاد، دانشگاه اصفهان، اصفهان، ایران
2 استاد مدیریت بازاریابی، دانشکده علوم اداری و اقتصاد، دانشگاه اصفهان، اصفهان، ایران
3 دانشیار تحقیق در عملیات، دانشکده علوم اداری و اقتصاد، دانشگاه اصفهان، اصفهان، ایران
4 استادیار دانشکده مهندسی کامپیوتر، گروه فناوری اطلاعات، دانشگاه اصفهان، اصفهان، ایران
چکیده
کلیدواژهها
عنوان مقاله [English]
نویسندگان [English]
Since market segmentation is essential to develop and implement marketing strategies, has always been focus of marketing researchers’ attention. The advent of new technology and emerging E-businesses, which accumulating immense customer data in their databases, made the market segmentation more fascinating for researchers. Since they found customer database as one of the most valuable asset that if being managed and manipulated effectively, can provide useful knowledge about the customers and prospects. There are numerous non-coherent methods of customer clustering and classification which has been proposed in different disciplines. This paper utilizes different clustering and classification methods and compares their performance in order to propose a comprehensive and integrated algorithm for e-businesses to exploit their databases in a competent manner. In the first step, recency, frequency, monetary (RFM) data is used to ensemble K-Means, Self-Organizing-Map (SOM) and Two-Step clustering methods and Sillouette index is used to evaluate the cluster quality. In second step, different classification methods vis-a-vis multi-group discriminant linear programming (MDLP) are used to compare the performances of the methods in terms of percentage of correct classification. The results show that the performance of MDLP is better than other methods. The problem of insufficient data in databases for classification purpose is also takes into account and fuzzy Delphi method is proposed to select the required data.
کلیدواژهها [English]
1- مقدمه
یک گام اساسی در تدوین و اجرای استراتژی بنگاههای تجاری از دیرباز بخشبندی مشتریان بوده است، زیرا امکان کسبِ شناخت بیشتر و بهتر مشتریان را فراهم میآورد. روش سنتی بخشبندی بازار (روش مقدم) بر اساس گمانهزنیهای ذهنی خبرگان از متغیرهای بخشبندی انجام میشود. در این روش، پژوهشگر میکوشد شرایط از پیش موجود در گروه مشتریان را حدس بزند تا مشتریان به گروههای متمایز تقسیم شوند و از بین آنها گروهی که تناسب بیشتری با امکانات شرکت دارد و با توجه به شرایط رقابتی بیشترین منافع را عاید شرکت میکند، شناسایی و هدفگیری شود (زیبرنا و زبکار[i]، 2003؛ باینز و همکاران، 2010). اما امروزه با توجه به دادههای ارزشمندی که در پایگاه داده مشتریان شرکتها، به ویژه در شرکتهای الکترونیکی به وجود آمده است، شناسایی مشتریانی که بیشترین درآمد را برای شرکت ایجاد میکنند، تسهیل شده است. از این رو در بخشبندی نوین یا موخر، نوع و تعداد بخشها بر مبنای تجزیه و تحلیل دادههای رفتاری مشتری تعیین میشوند (فوناتسو و هسگوا[ii]، 2011). این بخشبندی نسبت به بخشبندی سنتی از مزایایی چون امکان شناسایی دقیقتر بخشهای با ارزش برخوردار است که بر پایه آن میتوان استراتژیهای مناسب نگهداری مشتریان فعلی و جذب مشتریان جدید را تدوین کرد تا هم از ریزش مشتریان[iii] که یکی از نگرانیهای عمده شرکتها است جلوگیری به عمل آید و هم سهم بازار بیشتری به دست آید که خود یک شاخص مهم مزیت رقابتی است. اما یک الگوریتم جامع، یکپارچه و کاربردی برای بخشبندی بازار وجود ندارد که متناسب با شرایط بازارهای الکترونیکی باشد و خود را صرفا به برخی روشهای مرسوم محدود ننماید. به ویژه آن که انبوهی از دیدگاهها، رویکردها و روشهای متعدد در این حوزه وجود دارد که هر یک از آنها تنها بر بخشی از فرآیند بخشبندی و طبقهبندی تاکید میکنند (لیو و همکاران[iv]، 2012، آزادنیا و همکاران، 2011، نامور و همکاران، 2011، ما و همکاران[v]، 2009). به همین دلیل، این پژوهش الگوریتمی یکپارچه برای بخشبندی بازار و طبقهبندی مشتریان ارائه مینماید که متناسب با شرایط واقعی بازارهای الکترونیکی، مانند در اختیار نبودن دادههای مورد نیاز، است و در آن روشهای مرسوم بخشبندی بازار و طبقهبندی مشتریان را از منظر بازاریابی و در ارتباط با هم، در علومی چون آمار و یادگیری ماشینی در کنار روش مغفول مانده برنامهریزی خطی مورد بررسی قرار داده و نشان میدهد علیرغم کم توجهی به روش برنامهریزی خطی برای طبقهبندی، مزایایی چون تفسیر سادهتر و کاربردیتر نتایج از آن حاصل میشود.
مشوق اولیه برای ارائه چنین ایدهای، ماهیت غیرپارامتریک برنامهریزی خطی است. به دلیل همین ویژگی، مسایل طبقهبندی از قید نیاز به پیششرطها رها میشوند، زیرا اغلب روشهای آماری ارائه شده برای مسایل طبقهبندی نیازمند برآورده شدن برخی پیششرطها، مانند نرمال بودن توزیع دادهها، هستند که گاهی فراهم کردن آنها امکانپذیر نیست. از زمان معرفی این مدل توسط منگسریان[vi] (1965) تاکنون، شکلهای مختلفی از آن ارائه شده است. در ابتدا مدلهای ارائه شده محدود به طبقهبندی دو گروهی بودند، اما پس از معرفی مدلی توسط فرید و گلور[vii](1981)، شکلهایی از برنامهریزی خطی ارائه شدند که قادر به حل مسایل طبقهبندی چند گروهی شدند (کواک و همکاران، 2002)، (رگسدیل و استام[viii]،1991)، لام و موی[ix] (1996)، گوچت[x] و همکاران (1997). اخیرا پای و همکاران (2012) نشان دادهاند مدل لام و موی (1996) نسبت به روشهای تحلیل ممیزی، رگرسیون لحستیک، شبکههای عصبی و kامین نزدیکترین همسایگی برتری دارند اما آنها صرفا به مساله طبقهبندی پرداخته و فرض کردهاند بخشها از قبل تعیین شده است. یوسف و ربای[xi] (2007) روش برنامهریزی خطی را با روشهای استاندارد آماری برای طبقهبندی مقایسه کردهاند و نشان دادهاند که روش غیرپارامتریک برنامهریزی خطی نسبت به روشهای پارامتریک آماری مانند تحلیل ممیزی فیشر عملکرد بهتری در طبقهبندی از خود نشان داده است. این پژوهشگران روشهای یادگیری ماشینی را در پژوهش خود در نظر نگرفتهاند. کواک[xii] و همکاران (2002) روش برنامهریزی خطی را در کنار سایر روشهای طبقهبندی مانند روش تحلیل ممیزی و روش نزدیکترین همسایگی برای طبقهبندی دو گروهی بیماران مبتلا به ویروس اچ.آی.وی و ایدز به کار بردهاند و نشان دادهاند که روش برنامهریزی خطی عملکرد بهتری داشته است. مدل مورد استفاده این پژوهشگران مدل استاندارد دو بخشی است و قادر به طبقهبندی چندگروهی نیست.
2- الگوریتم پژوهش
بر مبنای مطالعات انجام شده، الگوریتمی طراحی شد که در شکل (1) ارائه شده است و در آن دو مسیر برای پردازش دادههای تراکنشی و دادههای پروفایل مشتریان وجود دارد.
2-1- دادههای تراکنشی برای خوشهبندی مشتریان
این دادهها اغلب دادههای رفتاری نامیده میشوند که نشانگر فعالیتهای واقعی خرید مشتری است و اغلب شامل اقلام متعددی از دادههای ثبت شده است که دادههای زاید و غیرقابل استفادهای را نیز دربر دارد و لازم است قبل از استفاده پاکسازی یا پیشپردازش[xiii] شوند. در پیشپردازش برخی دادههای کم اهمیت برای پژوهش از مجموع دادهها حذف میشوند. این مرحله، فرآیندی چالشی به ویژه برای پایگاههای داده بزرگ است (زوکر[xiv] و همکاران، 2000)، زیرا انتخاب دادههای مناسب نقش مهمی در کیفیت نتایج دارد. در این پژوهش پیشپردازش به منظور حذف دادههای زاید و استخراج دادههای تازگی، تکرار و مقدار پولی خرید[xv] انجام میشود. این تحلیل مبتنی بر اصل پارتو (80 ٪ سود شرکت توسط 20٪ مشتریان به دست میآید) است و به شناسایی سودآورترین مشتریان کمک میکند، عـلاوه بر این که یکی از سادهترین شیوهها برای تعیین ارزش عمر مشتری است. تازگی، آخرین تاریخ خرید مشتری است که هر چه کمتر باشد بهتر است، زیرا با مشتریی سروکار داریم که به احتمال بیشتری نسبت به خرید آتی اقدام میکند.
تکرار، تعداد دفعاتی است که مشتری نسبت به خرید اقدام کرده است و هر چه بیشتر باشد بهتر است، زیرا مبتنی بر این فرض است که انسان تحت تاثیر عادت است و محصولی که در گذشته چندین بار خریده است را با احتمال بیشتری میخرد و ارزش پولی، مقدار پولی است که مشتری در گذشته برای خرید محصول یا خدمت پرداخته است و هر چه بیشتر باشد بهتر است. اما از آنجا که اهمیت هر یک از مقادیر تازگی، تکرار و ارزش پولی در بازارهای مختلف ممکن است متفاوت باشند، میتوان از مقادیر موزون آنها استفاده کرد. وزنها را
میتوان به طور شهودی یا با استفاده از روشهایی مانند فرآیند تحلیل سلسله مراتبی[xvi] تعیین کرد.
2-1-1- خوشهبندی
اکنون دادههای تازگی، تکرار و ارزش پولی موزون با استفاده از روشهای کی-مینز[xvii]، نقشههای خودسازمانده[xviii] و خوشهبندی دو مرحلهای[xix] به صورت تجمیعی خوشهبندی[xx] میشوند. خوشهبندی تجمیعی به شیوههای گوناگونی، مانند استفاده از یک روش خوشهبندی با شرایط اولیه مختلف به دفعات و استفاده از روشهای مختلف خوشهبندی با شرایط اولیه یکسان، قابل انجام است (کتسیانتیس و پینتلاس[xxi]، 2004). در روش کی-مینز نخست تعداد خوشهها (k) توسط کاربر تعیین میشود. آنگاه از میان دادههای n مشتری، k مشتری به عنوان مراکز ابتدایی خوشهها برگزیده شده و بقیه مشتریان برحسب نزدیکی اقلیدسی به این مراکز منتسب میشوند. سپس مراکز جدید خوشهها به صورت میانگین مقادیر هر خوشه محاسبه شده و هر مشتری مطابق با فاصله اقلیدسیاش به این مراکز جدید منتسب میگردد. این فرآیند هنگامی که هیچ انتساب جدیدی وجود نداشته باشد متوقف میشود (بلتبرگ و همکاران، 2008). شبکة عصبی خودسازمانده بر اساس ساختار و عملکرد مدل کوهونن[xxii] پایهریزی شده است که مدلی بدون نظارت است. دلیل استفاده از این روش برای خوشهبندی در این پژوهش، تاکید برخی از پژوهشها بر عملکرد بهتر آن نسبت به روش رایج کی-مینز است (حنفیزاده و میرزازاده، 2011؛ چیو و همکاران، 2009؛ بلتبرگ[xxiii] و همکاران، 2008). تحلیل خوشهبندی دومرحلهای بر پایه خوشهبندی سلسله مراتبی و شامل دو مرحله است (چیو، 2001). در مرحله اول که پیشخوشهبندی نامیده میشود، چندین خوشه کوچک شکل میگیرد. در مرحله دوم که خوشهبندی سلسلهمراتبی گفته میشود، خوشههای کوچک مرحله اول مجددا در هم ادغام و چند خوشه بزرگتر شکل میگیرد (پایگاه اینترنتی اس.پس.اس.اس[xxiv]، 2013).
2-1-2- بررسی کیفیت خوشهبندی
به تعداد پژوهشهای انجام شده در مورد خوشهبندی، در مورد کیفیت خوشهبندی هم مطالعه صورت گرفته است تا از بیشترین فشردگی حول مرکز هر خوشه و بیشترین جدایی بین مراکز خوشهها اطمینان حاصل شود. روشهای متعددی مانند روش سیلوئت، انحراف معیار، مجموع مربع خطا و غیره ارائه شدهاند که به دلیل وجود برخی شواهد از برتری سیلوئت به روشهای دیگر، در این پژوهش از آن استفاده میشود (پتروویچ[xxv]، 2006). مقدار سیلوئت هر نقطه، نسبت اندازه شباهت آن نقطه با نقاط درون خوشهاش به میزان شباهتش با نقاط دیگر خوشهها است. از این تعریف مشخص میشود که نمیتوان سیلوئت را فقط برای یک خوشه به دست آورد. به علاوه اگر تعداد نقاط با تعداد خوشهها برابر باشد، مقدار سیلوئت بیشینه و برابر یک خواهد بود (روزیو[xxvi]،1986).
2-2- دادههای پروفایل مشتریان
دادههای پروفایل مشتریان معرف ویژگیهای مختلف مشتریان از جمله ویژگیهای دموگرافیک، جغرافیایی و رواننگاشتی است که برای ایجاد مدل طبقهبندی مشتریان ضروری است. اما گاهی پایگاه داده شرکت به دلایلی مانند نداشتن دیدگاهی استراتژیک به بازاریابی الکترونیکی فاقد چنین دادههایی است و طبقهبندی مشتریان امکانپذیر نیست. یک راه حل اصولی تغییر فرآیند ثبت دادهها و انتظار برای جمعآوری است که طبقهبندی مشتریان را به آینده موکول میکند. راه حل کوتاه مدت که این پژوهش پیشنهاد میدهد استفاده از روش دلفی فازی است که در ضمیمه (1) معرفی شده است.
2-2-1- طبقهبندی مشتریان
هدف از طبقهبندی شناسایی رابطهای بین یک متغیر وابسته با مقیاس اسمی و یک بردار ویژگی از مجموعهای از مشاهدات است (پای و همکاران[xxvii]، 2012). مثلا یک بانک میخواهد مشتریِ متقاضیِ اعتبار بانکی را بر حسب مواردی مانند سن، جنس، درآمد و غیره به یکی از دو گروه خوشحساب و بدحساب نسبت دهد (یوسف و ربای[xxviii]، 2007). برای دستیابی به این هدف، نخست مجموعهای از دادههای اولیه یا آموزش تحلیل میشوند و سپس مدلی برای پیشبینی با استفاده از ویژگیهایی که در دادهها وجود دارد، ارائه میگردد. اکنون میتوان چنین مدلی را برای طبقهبندی مجموعه دادههای مستقل آتی هم به کار برد (دیلون[xxix] و همکاران، 1979). روشهای متعددی در ادبیات پژوهش برای طبقهبندی ارائه شده است که هر یک نقاط قوت و ضعف خود را دارد. به عنوان مثال روشهای پارامتری (مانند تحلیل ممیزی خطی فیشر[xxx]) مبتنی بر این فرض است که ویژگیهای مشاهده دارای توزیع نرمال چندمتغیره هستند، اما جهان واقعی کمتر با چنین پیشفرضهایی سر سازگاری دارد. در نتیجه تخلف از فرض نرمال بودن دادهها منجر به سوگیری و انتساب ناصحیح مشتریان به بخشها و سرانجام منجر به استراتژیهای غیراثربخش بازاریابی میشود (کیانگ[xxxi] و همکاران، 2006). از این رو توجه پژوهشگران به توسعه روشهایی جلب شده است که محدود به چنین فرضهایی نباشند و روشهای غیرپارامتری طبقهبندی مانند برنامهریزی خطی که نیازمند چنین پیشفرضهایی نیستند امروزه نیز مورد توجه هستند (لام و موی[xxxii]، 1996). به همین دلیل، در این پژوهش، علاوه بر روشهای مطرح در آمار مانند تحلیل ممیزی و رگرسیون لجستیک و روشهای یادگیری ماشینی مانند شبکههای عصبی و ماشین بردار پشتیبان، از برنامهریزی خطی نیز برای طبقهبندی استفاده میشود تا عملکرد روشهای گفته شده با یکدیگر مقایسه شوند. روشهای مختلفی، مانند نسبت موفقیت[xxxiii]، ماتریس پریشانی[xxxiv] و محاسبه درصد طبقهبندی صحیح، برای بررسی عملکرد روشهای طبقهبندی وجود دارد که در این پژوهش میزان درصد طبقهبندی صحیح استفاده شده است.
2-2-2- طبقهبندی مشتریان با استفاده از روش تحلیل ممیزی
در این پژوهش از روش تحلیل ممیزی مرحلهای[xxxv] ماهانولوبیس برای طبقهبندی و از معیارهای لاندای ویک و عدد F برای بررسی اعتبار نتایج آن استفاده میشود. در روش مرحلهای توان پیشبینیکنندگی ویژگیها به صورت گام به گام انجام میشود و در هر مرحله متغیری وارد محاسبات میشود که فاصله ماهانالوبیس بیشتری داشته باشد. برای بررسی معنادار بودن نتایج تحلیل ممیزی از لاندای ویک[xxxvi] و عدد F است. وقتی لاندای ویک برابر با یک باشد، به این معنی است که میانگین گروهها برابر هستند و به خوبی تفکیک نشدهاند. همچنین اگر F کوچکتر از یک مقدار مشخص باشد، آن متغیر به توان متمایزکنندگی اضافه نمیکند و از این رو حذف میشود. معمولا مقدار حدی F را برابر 84/3 در نظر میگیرند (کلکا[xxxvii]، 1980).
2-2-3- رگرسیون لجستیک
روش دوم از گروه روشهای آماری برای طبقهبندی که در این پژوهش استفاده میشود، رگرسیون لجستیک است که مانند رگرسیون خطی است، با این تفاوت که متغیر وابسته آن به صورت اسمی و به جای توزیع نرمال از توزیع لجستیک استفاده میشود. روش رگرسیون لجستیک با متغیر وابستهی دوتایی سروکار دارد. اما برای استفاده از آن در این پژوهش که در آن سه خوشه مشتریان وجود دارد، از روش کلیتر رگرسیون لجستیک چندجملهای[xxxviii] مبتنی بر اصل تخمین بیشترین احتمال استفاده میشود.
2-2-4- شبکه عصبی مصنوعی
برخی از پژوهشهای دو دهه اخیر نشان دادهاند که روش شبکه عصبی ممکن است طبقهبندی کننده بهتری نسبت به روشهای استاندارد آماری باشد (اودوم و شردا[xxxix]، 1990). شبکههای عصبی مصنوعی میتوانند با استفاده از دادههای موجود الگوهای همبسته بین دادههای ورودی و مقادیر متناظر هدف را شناسایی و آن را یاد بگیرند و آنگاه این یادگیری را برای پیشبینی پیامد دادههای ورودی جدید به کار برند. مرسومترین روش برای یادگیری (تنظیم وزنها) الگوریتمی است که به آن انتشار به عقب[xl] گفته میشود و در آن خروجی محاسبه شده شبکه و خروجی مورد انتظار مقایسه میشود. سپس خطای حاصل برای تغییر پارامترهای شبکه به کار میرود. مقادیر پیشبینی کننده که در این پژوهش از پروفایل مشتری استخراج میشود به عنوان نرونهای ورودی عمل میکنند. عملکرد شبکههای عصبی بستگی به تابع فعالسازی نرونها دارد و به همین دلیل در این پژوهش عملکرد توابع مختلف بررسی میشوند. پژوهشگران نتوانستهاند برتری مطلق شبکههای عصبی را نسبت به روشهای آماری سنتی برای طبقهبندی نشان دهند، مثلا زهاوی و لوین[xli] (1997) شبکههای عصبی را با رگرسیون لجستیک مقایسه کردهاند و نشان دادهاند که نتایج هر دو مدل یکسان بوده اما تفسیر نتایج رگرسیون لجستیک سادهتر است.
2-2-5- ماشین بردار پشتیبان
ماشین بردار پشتیبان میکوشد خط جداکنندهای با بیشترین حاشیه اطمینان بین گروههایی از دادههایی که اغلب خطی نیستند، پیدا کند. قبل از آن، دادهها را به کمک توابع کرنل به فضای هیلبرت که فضایی با ابعاد خیلی بالاست میبرد (شیو[xlii]، 2004). اما از آنجا که چالش عمده در روش ماشین بردار پشتیبان، انتخاب تابع کرنل مناسب است در این پژوهش برای بررسی عملکرد توابع مختلف کرنل، از توابع آر.بی.اف[xliii]، چندجملهای، سیگما و خطی استفاده میشود. مزیت اصلی روش ماشین بردار پشتیبان این است که هیچ بهینه محلی در آن وجود ندارد و برای دادههای با ابعاد بزرگ به خوبی کار میکند. نقطه ضعف آن انتخاب یک تابع کرنل خوب و مناسب است (ژاکولا[xliv]، 2011).
2-2-6- برنامهریزی خطی برای طبقهبندی مشتریان
ایده استفاده از روشهای برنامهریزی خطی برای طبقهبندی را منگسریان[xlv] در سال 1965 معرفی کرد و پس از معرفی مدلی مبتنی بر آن توسط فرید و گلور[xlvi] در سال 1981 موجب علاقمندی پژوهشگران به آن گردید، اما هر دو مدل برای حل مسایل طبقهبندی دو گروهی بودند. در سال 1996 لام و موی مدلی معرفی کردند که مساله طبقهبندی چندگروهی را به صورت چندین مساله دو گروهی حل میکند و در ضمیمه (2) معرفی شده است. پای و همکاران (2012) عملکرد همین مدل را با سایر مدلهای مرسوم طبقهبندی مقایسه کرده و نشان دادهاند که عملکرد آن تا زمانی که ماهیت خطی مساله حفظ شود بهتر است. از جمله مزایای مهم برنامهریزی خطی گرفتار نشدن در بهینههای محلی، و وجود فرآیندی سادهتر و قابل درکتر است.
3- تجزیه و تحلیل یافتههای پژوهش
دادههای مشتریان اینترنت پرسرعت شرکت ایرانگیت برای تجزیه و تحلیل مورد استفاده قرار میگیرد. براساس الگوریتم پیشنهاد شده ابتدا دادههای «تازگی، تکرار و ارزش پولی» در محیط نرمافزار کلمنتاین استخراج شد. سپس برای تعیین وزن هر یک از متغیرهای تازگی، تکرار و ارزش پولی از روش تحلیل سلسله مراتب فازی استفاده شد. بدین منظور، در جلسهای از کارشناسان شرکت خواسته شد تا متغیرهای تازگی، تکرار و ارزش پولی را به صورت زوجی مقایسه کنند و اهمیت هر یک نسبت به دیگری را بر مبنای متغیرهای کلامی «خیلی کم، کم، متوسط، زیاد و خیلی زیاد» بیان کنند. سپس متغیرهای کلامی به اعداد فازی تبدیل شدند. پس از استفاده از معادلات تحلیل سلسله مراتب فازی، وزنهای گردشده تازگی، تکرار و ارزش پولی به ترتیب 3/0، 2/0 و 5/0 به دست آمد.
3-1- تجمیع خوشهبندی برای بخشبندی مشتریان
از آن جا که نمیتوان صرفا به نتایج یکی از روشهای خوشهبندی اتکا کرد، برای اطمینان از انجام بهترین خوشهبندی از تجمیع روشهای کی-مینز، شبکه عصبی خودسازمانده و روش خوشهبندی دو مرحلهای استفاده شد. در ابتدا دادههای تازگی، تکرار و ارزش پولی موزون با استفاده از روش شبکه عصبی خودسازمانده و با اندازه نقشه خروجی 7×10 و در محیط نرمافزار کلمنتاین خوشهبندی شد که تصویر خروجی آن در شکل (2) ارائه شده است.
شکل 2- تعداد مشتریان به عنوان خروجی نقشههای خودسازمانده با ابعاد 10×7 (منبع: یافتههای پژوهش)
در این شکل هر چه تعداد مشتریان در یک خوشه بیشتر باشد، رنگ خوشه قرمز تندتر است. بنابراین میتوان 3 یا 4 خوشه را به عنوان بهترین تعداد خوشه تعیین کرد. سپس با استفاده از این اطلاعات و کاربرد روش کی-مینز برای تعداد خوشههای مختلف (K)، خوشهبندی انجام شد و معیار سیلوئت برای تعیین تعداد بهینه خوشهها به کار رفت که نتایج آن در جدول (1) نشان داده شده است:
جدول 1- نتایج معیار سیلوئت برای خوشههای مختلف به دست آمده از روش کی-مینز
K |
2 |
3 |
4 |
5 |
6 |
سیلوئت |
4408/0 |
6005/0 |
4123/0 |
5721/0 |
5433/0 |
دیده میشود که اگر تعداد خوشهها برابر با 3 در نظر گرفته شود، بهترین مقدار سیلوئت به دست میآید. این امر دلیل دیگری بر وجود 3 خوشه در میان دادهها است. برای اطمینان بیشتر بار دیگر با استفاده از روش خوشهبندی نقشههای خودسازمانده و با تعیین ابعاد نقشه خروجی آن روی 3×3 محاسبات تکرار شد. نتایج حاصل از خوشهبندی دو روش کی-مینز و نقشههای خودسازمانده در جدول 2 نشان داده شده است. مطابق با جدول (2)، خوشه دوم در هر دو روش با حدود 1700 مشتری دارای بالاترین میانگین تازگی، تکرار و ارزش پولی و ارزشمندترین خوشه است و تقریبا 30 درصد کل مشتریان هستند، که تاحدی مطابق با اصل پارتو یا اصل 20-80 است. در جدول (3) نتایج روش خوشهبندی سلسله مراتبی دو مرحلهای نیز ارائه شده است. این روش به صورت خودکار 4 خوشه را شناسایی کرده است ولی تعداد مشتریان ارزشمند را کمتر از دو روش قبل و در حدود 1200 مشتری برآورد کرده است. از نظر بازاریابی اتکا صرف به این روش موجب عدم تمرکز بر بخش بیشتری از مشتریان به عنوان مشتریان غیرارزشمند میشود.
جدول 2 – نتایج خوشهبندی کی-مینز و نقشههای خودسازماندهد برای سه خوشه
کی-مینز |
|||||
خوشهها |
تعداد مشتری |
میانگین تازگی |
میانگین تکرار |
میانگین ارزش پولی |
میانگین RFM |
اول |
2387 |
838/4 |
062/2 |
582/2 |
155/3 |
دوم |
1776 |
806/6 |
068/7 |
306/6 |
609/6 |
سوم |
1108 |
407/2 |
977/1 |
836/7 |
035/5 |
نقشههای خودسازمانده |
|||||
خوشهها |
تعداد مشتری |
میانگین تازگی |
میانگین تکرار |
میانگین ارزش پولی |
میانگین RFM |
اول |
2448 |
399/3 |
472/1 |
830/3 |
229/3 |
دوم |
1799 |
810/6 |
010/7 |
444/6 |
667/6 |
سوم |
1024 |
601/5 |
369/3 |
958/4 |
833/4 |
جدول 3- نتایج خوشهبندی سلسله مراتبی دو مرحلهای
خوشهبندی دو مرحلهای |
|||||
خوشهها |
تعداد مشتری |
میانگین تازگی |
میانگین تکرار |
میانگین ارزش پولی |
میانگین RFM |
اول |
1279 |
514/6 |
027/8 |
725/6 |
922/6 |
دوم |
1752 |
622/6 |
275/3 |
462/4 |
873/4 |
سوم |
899 |
935/1 |
704/1 |
009/8 |
926/4 |
چهارم |
1341 |
455/3 |
589/1 |
810/1 |
259/2 |
اما برای تعیین کیفیت خوشهبندی سه روش فوق، مقادیر سیلوئت در محیط نرمافزار متلب محاسبه شد که در جدول (4) ارائه شده است و مطابق با آن روش کی-مینز کیفیت بهتری دارد و از این جا به بعد مبنای محاسبات بعدی قرار میگیرد.
جدول 4- مقایسه مقدار سیلوئت سه روش خوشهبندی
روش |
روش کی-مینز |
روش نقشهای خودسازمانده |
روش دو مرحلهای |
سیلوئت |
606/0 |
2746/0 |
5476/0 |
3-2- مقایسه عملکرد روشهای طبقهبندی کننده
هنگام بررسی دادههای مشتریان شرکت ایرانگیت مشخص شد که دادههای پروفایل مشتریان وجود ندارد. از این رو با استفاده از روش دلفی فازی که در ضمیمه (1) معرفی شده است، پنج متغیر تحصیلات، هدف از استفاده از اینترنت، درآمد سالیانه، جنس و سن به عنوان پیشبینیکنندههای مهم انتخاب شدند و از طریق مصاحبه تلفنی، پنج داده مورد اشاره از 1808 مشتری جمعآوری گردید. سپس طبقهبندی مشتریان با استفاده از فنون آماری تحلیل ممیزی، رگرسیون لجستیک و فنون یادگیری ماشینی شبکههای عصبی و ماشین بردار پشتیبان در کنار برنامهریزی خطی انجام شد که در ادامه نتایج آن ارائه شده است.
3-2-1- تحلیل ممیزی
آزمون شاپیرو ویلک[xlvii] که آزمونی برای بررسی نرمال بودن دادهها است، نشان داد که به جز سن و درآمد، بقیه دادههای مورد استفاده غیرنرمال هستند. گرچه این شرط اساسی برای استفاده از تحلیل ممیزی وجود ندارد، اما گاهی آزمونهای آماری بدون توجه به پیششرطها مورد استفاده قرار میگیرند و در اینجا نیز برای نشان دادن آن چه از تحلیل ممیزی به دست میآید، با چشم پوشی از این خطا سعی در یافتن توابع ممیزی میشود. در ابتدا 65 درصد دادهها به عنوان دادههای آموزشی مورد استفاده قرار میگیرد. هدف تحلیل ممیزی، انتخاب مهمترین متغیرها و تعیین توابعی است که تمایز میان خوشهها را نمایان میسازد. برای دستیابی به این هدف، از روش تحلیل ممیزی تدریجی استفاده شد. مطابق با آنچه در بخش 2-2-2 گفته شد، در مرحله اول درآمد و در مرحله دوم هدف به عنوان ویژگیهایی که بیشترین سهم را در ایجاد تمایز میان گروهها دارند، انتخاب میشوند چون در هر مرحله کمترین لاندای ویک و بیشترین عدد F را دارند.
جدول 5- مقادیر لاندای ویک وF برای انتخاب مهمترین متغیرها در روش تحلیل ممیزی تدریجی پیشرونده
مرحله |
متغیر |
لاندای ویک |
عدد Fبرای ورود |
اول |
سن |
968/0 |
448/19 |
جنس |
999/0 |
854/0 |
|
تحصیلات |
979/0 |
396/12 |
|
هدف |
951/0 |
553/29 |
|
درآمد سالیانه |
866/0 |
832/89 |
|
دوم |
سن |
865/0 |
186/0 |
جنس |
861/0 |
435/3 |
|
تحصیلات |
848/0 |
275/12 |
|
هدف |
821/0 |
453/31 |
|
سوم |
سن |
821/0 |
132/0 |
جنس |
818/0 |
251/2 |
|
تحصیلات |
819/0 |
404/1 |
به این ترتیب سه تابع ممیزی که 100 درصد واریانس ویژگیها را دربر میگیرند، ارائه میشود که به صورت زیر است:
F1= -5.506 + 0.074 × income + 3.374 × purpose
F2=-4.803 + 0.091 × income + 2.862 × purpose F3=-7.319 + 0.132 × income + 3.531 × purpose
با در اختیار داشتن توابع ممیزی که با استفاده از دادههای آموزشی به دست آمدهاند و برای بررسی میزان دقت مدل، از دادهای آزمایشی استفاده میشود تا میزان طبقهبندی صحیح مدل به دست آید. نتایج در جدول (6) ارائه شده است. همچنانکه مشاهده میشود دقت پیشبینی تحلیل ممیزی در انتساب صحیح مشاهدات به خوشه اول 2/52 درصد، به خوشه دوم 8/50 درصد و به خوشه سوم 46 درصد است که به طور میانگین برابر با 7/49 درصد است. به عبارت دیگر کمتر از نصف پیشبینیهای ارائه شده از رفتار آتی مشتریان مقرون به صحت است.
جدول 6- دقت پیشبینی تحلیل ممیزی بر مبنای دادههای آموزشی
نتایج طبقهبندی |
|
||||||
|
خوشه |
عضویت پیشبینی شده در گروه |
کل |
||||
1 |
2 |
3 |
|||||
اعتبارسنجی |
تعداد |
1 |
206 |
145 |
44 |
395 |
|
2 |
99 |
199 |
94 |
392 |
|||
3 |
113 |
89 |
172 |
374 |
|||
درصد |
1 |
2/52 |
7/36 |
1/11 |
100 |
||
2 |
3/25 |
8/50 |
0/24 |
100 |
|||
3 |
2/30 |
8/23 |
0/46 |
100 |
|||
3-2-2- رگرسیون لجستیک
با در نظر گرفتن خوشه اول به عنوان خوشه مرجع، مدل رگرسیون لجستیک با استفاده از تابع کرنل RBF و دادههای آموزشی مورد استفاده قرار گرفت تا تـوابـع رگرسیـون به دست آید. دو تابع رگرسیون به دست آمده به شرح زیر است:
F2= 0.0879 × [Sex=0] - 2.836 × [Education=0] - 0.4651 × [Education=1] - 0.9607 × [Education=2] - 0.8236 × [Education=3] - 0.981 × [Education=4] - 20.26 × [Purpose=0] + 0.9714 × [Purpose=1] + 0.7218 × [Purpose=2] + 0.0562 × Income - 0.8118
F3 = -4.096 + 0.4978 × [Sex=0] - 0.5183 × [Education=0] + 1.695 × [Education=1] + 1.972 × [Education=2] + 1.753 × [Education=3] + 1.54 × [Education=4] - 20.76 × [Purpose=0] - 0.2584 × [Purpose=1] - 0.1181 × [Purpose=2] + 0.1047 × Income
توابع رگرسیون شامل سطوح مختلف متغیرها است. به عنوان مثال، در تابع دوم ضریب رگرسیونی مشتریان با تحصیلات زیر دیپلم (کد صفر) برابر با 5183/0- است، در حالی که ضریب رگرسیونی مشتریان با تحصیلات لیسانس (کد 3) برابر با 753/1+ است. به عبارت دیگر مشتریان با تحصیلات لیسانس در خوشه دوم دارای بالاترین ضریب رگرسیونی هستند. اینک برای بررسی میزان دقت پیشبینی این توابع رگرسیونی، آنها را با استفاده از دادههای آزمایشی به کار میبریم که نتایج آن در جدول (7) نشان داده شده است. همچنان که مشاهده میشود، میزان انتساب صحیح مشاهدات به خوشه اول 5/58 درصد، به خوشه دوم 50 درصد و به خوشه سوم 6/50 درصد و عملکرد یا دقت پیشبینی کلی مدل 1/53 درصد است که اندکی بیش از دقت مدل تحلیل ممیزی است.
جدول 7- نتایج طبقهبندی رگرسیون لجستیک با استفاده از تابع RBF
نتایج طبقهبندی |
||||||||||
|
خوشه |
عضویت پیشبینی شده |
کل |
|||||||
1 |
2 |
3 |
||||||||
اعتبارسنجی |
تعداد |
1 |
231 |
121 |
43 |
395 |
||||
2 |
102 |
196 |
94 |
392 |
||||||
3 |
113 |
72 |
189 |
374 |
||||||
درصد |
1 |
5/58 |
6/30 |
9/10 |
100 |
|||||
2 |
26 |
50 |
24 |
100 |
||||||
3 |
2/30 |
2/19 |
6/50 |
100 |
||||||
3-2-3- شبکه عصبی مصنوعی
برای بررسی عملکرد توابع مختلف شبکه عصبی، توابع پویا[xlviii]، چندگانه[xlix]، هرس فراگیر[l] و تابع پایه شعاعی[li] مورد بررسی قرار میگیرند. در روش پویا یا دینامیک در طی فرآیند آموزش به لایههای پنهان افزوده یا از آنها کاسته میشود. در روش چندگانه، در طی فرآیند آموزش به صورت همزمان چندین روش به کار گرفته میشود. در انتها مدلی که دارای پایینترین خطا است، به عنوان مدل نهایی ارائه میشود. روش شبکه تابع پایه شعاعی از روشی مانند خوشهبندی کی-مینز استفاده میکند تا دادهها را بر مبنای مقادیر گروههای هدف تقسیم کند. همچنین در روش هرس فراگیر[lii]، ابتدا شبکه بزرگی ایجاد میشود و سپس ضعیفترین واحدها در لایههای پنهان و ورودی در طی فرآیند آموزش حذف میشوند. این روش از همه روشهای گفته شده زمانبرتر است، اما بهترین جواب را به دست میدهد (پایگاه اینترنتی اس.پی.اس، 2013). در جدول (8) دیده میشود که میزان دقت پیشبینی تابع هرسفراگیر که دارای پیچیدگی و لایههای پنهان بیشتری است، بالاتر است. اما پیچیدگی و لایههای پنهای بیشتر، شبکه عصبی را مانند یک جعبه سیاه مینماید که دشواری تحلیل نتایج را
در پی دارد.
جدول 8- ساختار وعملکرد توابع مختلف شبکه عصبی در طبقهبندی
تابع فعالسازی |
نرونهای لایه ورودی |
نرونهای لایه پنهان اول |
نرونهای لایه پنهان دوم |
نرونهای لایه پنهان سوم |
نرونهای لایه خروجی |
دقت پیشبینی شده |
RBFN |
13 |
20 |
- |
- |
3 |
8/46 |
پویا |
13 |
8 |
6 |
- |
3 |
6/52 |
هرس فراگیر |
13 |
26 |
16 |
- |
3 |
6/70 |
چندگانه |
13 |
12 |
12 |
11 |
3 |
4/64 |
3-2-3- ماشین بردار پشتیبان
چهار تابع کرنل مختلف برای بررسی عملکرد آنها مورد استفاده قرار میگیرد. معیار توقف در نرمافزار کلمنتاین روی 001/0 که مقدار قراردادی است تنظیم شد. هنگامی که از تابع کرنل RBF استفاده شد، مقدار گامای آن روی 2/1 تنظیم شد. این مقدار معمولا بین k/3 و k/6 است که k تعداد خوشههای تعیین شده است. چون در اینجا تعداد خوشهها 3 است، مقدار آن بین 1 و 2 مجاز است. افزایش این مقدار، دقت طبقهبندی برای دادههای آموزشی را افزایش میدهد، اما ممکن است منجر به دقت بیش از حد[liii] شود. هنگامی که از تابع کرنل چندجملهای یا سیگما استفاده شد، مقدار گاما به صورت قراردادی 2 انتخاب شد. افزایش این مقدار نیز میتواند دقت طبقهبندی را افزایش دهد، گرچه مانند قبل ممکن است به دقت بیش از حد منجر شود. نتایج در جدول (9) ارائه شده است که نمایانگر برتری تابع کرنل چند جملهای نسبت به سه تابع کرنل دیگر است. گرچه تابع کرنل چند جملهای با 72 درصد طبقهبندی صحیح، نتایج بهتری برای دادههای آموزشی ارائه کرده است، اما میزان طبقهبندی صحیح آن برای دادههای آزمایشی، 64 درصد است. این امر نشان دهنده عدم ثبات یا پایداری مدل است.
جدول 9- میزان طبقهبندی صحیح توابع کرنل مختلف ماشین بردار پشتیبان
|
وزن ویژگیها |
||||
سن (W1) |
جنس (W2) |
تحصیل (W3) |
هدف (W4) |
درآمد (W5) |
|
خوشه 1 و2 |
0257/0 |
0937/0 |
1172/0- |
4784/0 |
1368/0- |
خوشه 1 و3 |
0040/0 |
0863/0 |
0168/0- |
1260/0- |
0620/0- |
خوشه 2 و3 |
0164/0 |
0128/0 |
2626/0 |
6618/0- |
0696/0- |
3-2-4- برنامهریزی خطی چندگروهی
تاکید اصلی این پژوهش بر توانایی برنامهریزی خطی در انجام کاراتر طبقهبندی دست کم برای پایگاههای داده کم تا متوسط است. در ابتدا دادههای جمعیتشناسی مربوط به 1808 مشتری نمونه شرکت ایرانگیت، به صورت تصادفی به دو نمونه آموزشی (65٪) و آزمایشی (35٪) تقسیم شد.
3-2-4-1- مرحله اول: آموزش مدل برنامهریزی خطی
65 درصد دادهها که متعلق به 1170 مشتری است به صورت تصادفی توسط نرمافزاری که به منظور حل مدل برنامهریزی خطی چندگروهی در محیط متلب نوشته شد، انتخاب گردید. سپس مدل (5) برای محاسبه وزن ویژگیهای مشتریان در سه بخشی که قبلا به دست آمده است، مورد استفاده قرار گرفت که نتایج آن در جدول (10) ارائه شده است. خوشههای 1 و 2، 1 و 3، و 2 و 3 با یکدیگر مقایسه و وزن ویژگیها که تعیین کننده میزان اهمیت آنها در تفکیک دو گروه است به دست آمده است. به عنوان مثال، وزن ویژگی هدف در تفکیک بین خوشههای 1 و 2 برابر با 478/0 است که نسبت به وزن سایر ویژگیها در همین مقایسه بیشتر است.
جدول 10- وزن ویژگیهای مشتریان در مقایسه بخشها
تابع |
دادههای آموزشی |
دادههای آزمایشی |
||
تعداد |
درصد |
تعداد |
درصد |
|
آر.بی.اف |
675 |
58 |
363 |
56 |
چندجملهای |
841 |
72 |
413 |
64 |
سیگما |
442 |
38 |
239 |
37 |
خطی |
595 |
51 |
353 |
54 |
میانگین |
638 |
55 |
342 |
53 |
بررسی وزنهای به دست آمده بین خوشههای 1 و 3 و خوشههای 2 و 3 نیز نشانگر اهمیت هدف مشتریان در ایجاد تمایز میان آنها است. این ویژگی بیشترین تاثیر را در تفکیک خوشههای 2 و 3 داشته است. در مرحله دوم خطوط برش میان سه خوشه مطابق با مدل (6) محاسبه گردید که در جدول (11) نتایج آن آمده است.
جدول 11- خطوط برش بین سه بخش مشتریان
|
خطوط برش میان خوشهها |
||
|
خوشه 1 |
خوشه 2 |
خوشه 3 |
خوشه 1 |
|
9893/0- |
3273/1- |
خوشه 2 |
|
|
8966/1- |
خوشه 3 |
|
|
|
3-2-4-2- مرحله دوم: آزمون مدل برنامهریزی خطی
در این قسمت با استفاده از وزنهای محاسبه شده ویژگیها در خوشههای سهگانه و خطوط برش بین آنها، نمرات طبقهبندی 35 درصد باقیمانده مشتریان محاسبه میشود. نتایج دقت طبقهبندی با استفاده از دادههای آموزشی در جدول (12) و برای دادههای آزمایشی در جدول (13) ارائه شده است. همچنان که مشاهده میشود دقت مدل پس از محاسبات اولیه و برای دادههای آزمایشی بیشتر و به طور میانگین برابر با 69 درصد است. به عبارت دیگر با 69 درصد اطمینان میتوان احتمال تعلق مشتری جدید به یکی از 3 بخش بازار را گمانهزنی کرد. جدول (14) دقت روشهایی که در این پژوهش برای طبقهبندی استفاده شد را نشان میدهد.
جدول 12- دقت طبقهبندی با استفاده ازدادههای آموزشی
مقایسه خوشهها |
دادههای آموزشی (65٪) |
1 و 2 |
65٪ |
1 و 3 |
69٪ |
2 و 3 |
63٪ |
میانگین |
66٪ |
جدول 13-دقت طبقهبندی با استفاده از دادههای آزمایشی
مقایسه خوشهها |
دادههای آزمایشی (35٪) |
1 و 2 |
68٪ |
1 و 3 |
73٪ |
2 و 3 |
65٪ |
میانگین |
69٪ |
جدول 14- مقایسه دقت مدلهای طبقهبندی کننده
مدل |
دادههای آموزشی |
دادههای آزمایشی |
شبکه عصبی |
58٪ |
60٪ |
تحلیل ممیزی |
50٪ |
53٪ |
رگرسیون لجستیک |
53٪ |
55٪ |
ماشین بردار پشتیبان |
55٪ |
53٪ |
برنامهریزی خطی |
66٪ |
69٪ |
همچنان که مشاهده میشود، به طور میانگین دقت طبقهبندی مدل برنامهریزی خطی بالاتر از روشهای استفاده شده است. یک نگرانی در مورد استفاده از برنامهریزی خطی، مدت زمان بالای انجام محاسبات نسبت به سایر مدلها است. اما امروزه با توجه به توانایی و سرعت بالای کامپیوترهای شخصی این نگرانی تا حد زیادی بر طرف شده است. زمان انجام محاسبات در مورد 1808 داده مورد استفاده این پژوهش با استفاده از برنامهریزی خطی در حدود 2 دقیقه بیشتر از سایر مدلها بود.
4- نتیجهگیری
مساله فقدان یک الگوریتم یکپارچه برای بخشبندی بازار و طبقهبندی مشتریان که به ویژه متناسب با شرایط بازارهای الکترونیکی باشد و صرفا محدود به یکی دو روش مرسوم نباشد، انگیزه انجام این پژوهش بوده است. در این راستا، برای بخشبندی بازار صرفا به یک روش اتکا نشده و روشهای غالب کی-مینز، نقشههای خودسازمانده و خوشهبندی دو مرحلهای در قالب رویکردی تجمیعی مورد استفاده قرار گرفته تا نسبت به دقت و صحت نتایج اطمینان حاصل شود. به علاوه، برای اطمینان بیشتر معیار سیلوئت برای بررسی صحت و اعتبار نتایج مورد استفاد قرار گرفت. آنگاه به مسالهای که اغلب به آن توجه نمیشود و آن فقدان دادههای مورد نیاز در پایگاه داده مشتریان است، توجه گردید و روش دلفی فازی برای جبران این کمبود پیشنهاد شد. سپس بر پایه نتایج حاصل از خوشهبندی و دادههای گردآوری شده از طریق مصاحبه تلفنی، مشتریان با استفاده از روشهای آماریِ تحلیل ممیزی و رگرسیون لجستیک و همچنین روشهای یادگیری ماشینیِ شبکههای عصبی مصنوعی و ماشین بردار پشتیبان، طبقهبندی شدند. اما روشهای گفته شده به دلیل درگیر بودن متغیرهای بسیار زیاد اغلب به صورت جعبه سیاه عمل میکنند و از این رو تفسیر نتایج آنها به ویژه از منظر بازاریابی دشوار است، علاوه بر آن که گاه نیاز به وجود پیششرطهای خاص دارند و گاه دچار کاستیهایی مانند گرفتاری در بهینههای محلی هستند. از این رو این پژوهش نشان داد که روش طبقهبندی برنامهریزی خطی نه تنها میتواند نتایج دقیقتری از روشهای مرسوم گفته شده ارائه نماید، بلکه به دلیل سادگی، شفافیت و وجود متغیرهای شناخته شده و اندک، به ویژه برای بازاریابان، نتایج روشنتر و قابل تفسیرتری در بر دارد.
4-1- محدودیتهای پژوهش و پژوهشگر
نخستین محدودیت پژوهش این است که هیچ روش یگانهای برای بخشبندی و طبقهبندی وجود ندارد. زیرا بخشبندی نوعی دادهکاوی اکتشافی است که در حوزههای مختلف و مرتبط به هم مانند آمار، یادگیری ماشینی، تشخیص الگو، بازیابی اطلاعات و غیره مورد بحث و بررسی قرار گرفته است. طبقهبندی نیز در علومی چون آمار و ریاضی، شیمی، زیستشناسی، پزشکی، جامعهشناسی، سینما و غیره به کار رفته است. وجود همین روشهای بسیار متنوع و فراوان برای دو مساله بخشبندی و طبقهبندی در علوم مختلف است که بررسی تک تک آنها را امکانپذیر نمیسازد و از این رو کوشش شده است که رهیافتهای اساسی استفاده شوند.
محدودیت دوم پژوهش آن است که نتایج به دست آمده در مورد یک شرکت مورد مطالعه است. حتی این نتایج با افزایش دادهها در پایگاه داده مشتریان همین شرکت نیز قطعا دستخوش تغییر خواهند شد. زیرا اساسا استخراج دانش از دادهها امری پویا است و از این رو ضروری است که شرکت به تناوب محاسبات را تکرار کند تا نتایج به روز رسانی شوند.
یک محدودیت پژوهشگر، بیمیلی شرکتهای الکترونیکی برای در اختیار قرار دادن دادههای مورد نیاز بود. دلایل متعددی برای این بیرغبتی وجود دارد که از جمله مهمترین آنها میتوان به ضرورت در اختیار قرار دادن دادههای مالی یا ارزش پولی مشتریان اشاره کرد. شرکتها به دلیل نگرانی از نحوه استفاده از دادهها و پیامدهای احتمالی مانند امور مالیاتی از ارائه آن خودداری میکنند. یک دلیل دیگر آن است که لازم است تمامی دادههای مشتریان از قبیل آدرسهای تماس و اطلاعات خرید آنها در اختیار پژوهشگر قرار گیرد و آنها نگران این هستند که این دادهها در اختیار رقبا قرار گیرد. علت سوم بیمیلی آنها این است که شرکتها اصولا با مباحث بخشبندی و طبقهبندی ناآشنا هستند و از مزایای آن آگاهی ندارند.
4-2-پیشنهادات به پژوهشگران آینده
پیشنهاد میگردد سایر روشهای بخشبندی و طبقهبندی مطرح در ادبیات پژوهش در کنار روش برنامهریزی خطی مورد استفاده و مقایسه قرار گیرند. همچنین پیشنهاد میگردد علاوه بر معیار سیلوئت، سایر معیارهای بررسی کیفیت بخشبندی نیز استفاده شود. به شرکتها نیز پیشنهاد میگردد در لحظه ثبت نام مشتریان در سایت شرکت، با انجام تمهیدات تشویقی لازم تا جایی که امکان دارد و حریم شخصی افراد مورد خدشه قرار نگیرد، دادههای مربوط به آنها درخواست شود.
[i] - Ziberna and Zabkar
[ii] - Funatsu and Hasegawa
[iii] - customer churn
[iv] - Liu et al
[v] - Ma et al
[vi] - Mangasarian
[vii] - Freed and Glover
[viii] - Ragsdale and Stam
[ix] - Lam and Moy
[x] - Gochet
[xi] - Yousef and Rebai
[xii] - Kwak
[xiii] - Preprocessing
[xiv] - Zucker
[xv] - Recency- Frequency- Monetary (RFM)
[xvi] - Analytical Hierarchical Process
[xvii] - K-means
[xviii] - Self-Organizing-Map (SOM)
[xix] - Two Step Clustering
[xx] - Cluster ensemble
[xxi] - Kotsiantis and Pintelas
[xxii] - Kohonen
[xxiii] - Blattberg
[xxiv] - SPSS
[xxv] - Petrovi´c
[xxvi] - Rousseeuw
[xxvii] - Pai
[xxviii] - Youseef and Rebai
[xxix] - Dillon
[xxx] - Fisher’s Linear Discriminant Analysis (FLDA)
[xxxi] - Kiang et al
[xxxii] - Lam and Moy
[xxxiii] - Hit ratio
[xxxiv] - Confusion matrix
[xxxv] - Stepwise
[xxxvi] - Wilks’ lambda
[xxxviii] - multinomial logistic regression (MLR)
[xxxix] - Odom & Sharda
[xl] - back propagation
[xli] - Zahavi and Levin
[xlii] - Shawe
[xliii] - Radial Basis Function
[xliv] - Jakkula
[xlv] - Mangasarian
[xlvi] - Freed and Glover
[xlvii] - Shapiro Wilk
[xlviii] - Dynamic
[xlix] - Multiple
[l] - Exhaustive prune
[li] - Radial basis function network
[lii] - Exhaustive prune
[liii] - Over-fitting