برزیلی را کمینه کند (گادی، وانگ، پِرِیرا و لاگو، 2008). نوبرزاد نیز در پایاننامه کارشناسی ارشد خود، از روش جستوجوی پراکنده و الگوریتم ژنتیک برای شناسایی تقلب در کارت های بـانکی اسـتفادهکرد (نوبرزاد، 1391).
روش های دیگری نیز برای شناسایی تقلب کارت اعتباری استفاده شده است، از جمله نظریـهدمپستر ـ شفر، نظریه یادگیری بیزین1 (پانیگراهی، کنُدو، سورال و مجومدار، 2009) و پیونـدزنی2 (کنُدو، پانیگراهی، سورال و مجومدار، 2009؛ هوانگ، توفیق و نگَـَر، 2010؛ کریفکـو، 2010). در مطالعه دیگری محقر و همکارانش، روش های کشف تقلب در بانکـداری را بـه دو دسـته اصـلیِ»روش های آماری« و »روش های هوش مصنوعی« تقسیم کردند و به بررسی امکان اسـتفاده ازروش مبتنی بر هوش کسب و کار پرداختند (محقر، لوکس، حسینی و منشی، 1387). در دسته بندی این روش ها، مرزبندی چندان دقیقی وجود ندارد؛ چرا که هریک از این روش هـا فقـط شـکلی ازیک روش علمی است و برخی از آن ها میتوانند بـه یکـدیگر تبـدیل شـوند. یـادآوری مـیشـود ، هیچ یک از این روش ها به تنهایی نمیتوانند تقلب را حذف کنند، درواقع هـر روش توانـایی یـکسیستم را در شناسایی تقلب افزایش می دهد.
ــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــــ
Bayesian Learning
Hybridization
مدل مفهومی
مدل مفهومی، توصیف غیرنرم افزاری خاصی از مدل اسـت کـه اهـداف، ورودی هـا، خروجـی هـا،محتوی و فرضیه های مدل را تشریح می کند (رابینسون، 2004: 63-74). به طور خلاصه پـس ازتعیین هدف اصلی پژوهش با عنوان ایجاد مدلی با قابلیت اطمینان مناسـب بـه منظـور شناسـاییتقلب در کارت های بانکی، نحوه جمع آوری، پردازش و آمـاده سـازی داده هـا بـرای ایجـاد مـدل،تشریح می شود و داده های تقلب (تراکنش های متقلبانه یا مشکوک به تقلب) که به کمـک دانـشخبرگان و ادبیات موضوع شبیه سازی شده اسـت، بـرای مـدلسـازی آمـاده خواهـد شـد . سـپسمتغیرهای مستقل و وابسته مدل تعیین می شوند و در مدل شـبک ه عصـبی پرسـپترون چندلایـه، به منزله مدل اصلی پژوهش برای طبقه بندی تراکنش ها به »سالم« و »متقلبانه یـا مشـکوک بـهتقلب« وارد خواهند شد.
با استفاده از درصدی از داده ها به صورت تصادفی، مدل شـبک ه عصـبی پرسـپترون چندلایـهآموزش داده شد و مشخصات شبکه عصبی شناسایی تقلب در کارت های بـانکی بـه دسـت آمـد.
شکل 1، مدل مفهومی پژوهش حاضر را در قالب نمودار جریان منطقی نمایش می دهد.

شکل 1. مدل مفهومی پژوهش
روش شناسی پژوهش
در این بخش به چگونگی جمع آوری اطلاعات پژوهش، تشریح و بررسی کیفیـت داده هـا، نحـوه انتخاب داده ها برای تدوین چارچوب و پاکسازی داده ها پرداخته می شود و پس از ایجاد داده هـایمتقلبانه (مشکوک به تقلب) ، به طراحی چارچوبی برای شناسایی تقلب در کارتهای بانکی اقـدامخواهد شد.
جمعآوری و آمادهسازی دادهها
داده های اصلی پژوهش از تراکنش هـای ثبـت شـده کـارت هـای بـانکی در پایگـاه داده یکـ ی از بانک های غیردولتی داخلی با رعایت ملاحظات اخلاقی و با اخذ مجوز از آن بانک، به دست آمد و از آن برای طراحی چارچوب شناسایی تقلب در کارتهای بانکی بهره جویی شد. لذا تراکنش هـایحدود 120 هزار کارت در بازه زمانی تقریبی دو سال از تاریخ افتتاح بانک یادشده با حدود بیش از 10 میلیون تراکنش استخراج شده است. با توجه به تعدد فیلـدهای اطلاعـاتی و کـاربردی نبـودنبرخی از آنها برای این پژوهش، پس از تحلیل آنها ب هکمک خبرگان و در نظرگـرفتن تقلـبهـایصورت گرفته و شناسایی فیلدهای تحت تأثیر تقلب های مختلـف، پارامترهـای مـؤثر در طراحـیچارچوب پژوهش استخراج شد و فیلدهای ناکارا از پایگاه اطلاعاتی کنار گذاشته شد.
بهدلیل حجم زیاد داده های ذخیرهشده در پایگاه اطلاعاتی بانک (حدود 10 میلیون تـراکنش ) و محدودیت نرم افزارها در پردازش حجم زیاد داده ها، تعدادی از مجموعه تراکنش های ذکرشـده،نماینده هایی از کل تراکنش های موجود در نظر گرفته شـدند . بـدین ترتیـب درنهایـت 111,349 تعداد تراکنش مختص به 641 دارنده کارت برای ادامه پژوهش در نظر گرفتـه شـد. گـروه هـایهدف یا کارت هایی که در معرض ریسک بیشتری قرار دارند و پتانسیل سوء استفاده از آنهـا زیـاداست، متشکل از سه گروه تراکنش زیر است:
گ روه 1: ب ه ت راکنشه ای 120 ک ارتی اختص اص دارد ک ه از لح اظ حج م ت راکنش،پرتراکنش ترین کارت ها هستند. در مجمـوع 78,313 رکـورد در گـروه اول جـای گرفـت. دلیـلانتخاب این گروه قرار داشتن در معرض ریسک بیشتر بوده است.
گروه 2: به تراکنش های 371 کارتی اختصاص دارد کـه از لحـاظ حجـم تـراکنش در گـروهکم تراکنش ترین کارت ها قرار دارند. در مجموع 6012 رکورد در گروه دوم جای گرفت که اغلـبآنها مختص به کارت های صادر شده بـرای افـراد مسـن و سـالخورده اسـت کـه تـراکنش هـایمحدودی انجام میدهند.
گروه 3: تراکنش های مربوط به 150 کارتی است که بهصـورت تصـادفی انتخـاب شـدند. در مجموع برای گروه سوم 27,024 رکورد بـا اسـتفاده از توزیـع برنـولی بـا احتمـال 3/0 درصـد از تراکنشهایی که در گروههای قبلی جای ندارند، به دست آمده است.
همان طور که اشاره شد، گروه های اول و دوم، گروه هایی هستند که متقلبان بیشـتر بـه آنهـاتوجه می کنند و گروه سوم، بخشی تصادفی از سایر کا رتهای موجود است.
از آنجاکه برای این پژوهش داده های متقلبانه وجود ندارد، با بهره گیری از دو منبع مصاحبه و ادبیات موضوع، اقدام به ایجاد داده های متقلبانه برای استفاده در مدل سازی شد. فوا و همکارانش اعتقاد دارند که داده های مصنوعی می توانند یک سیستم را آموزش دهند. انواع مختلف تقلبهای شناختهشده و جدید را می توان به صورت مصنوعی ایجاد کرد (فوا، لی، اسمیت و گایلر، 2005). از این رو سازوکار تهیه تراکنش های مشکوک به تقلب در این پژوهش، از طریـق اعمـال تغییـرات معنا دار روی داده های گردآوری شده از طریق پرونده های موجود درخصوص تراکنش های متقلبانه یا موارد مشکوک گزارش شده، مصاحبه با کارشناسان، خبرگان و صاحبنظران، ادبیات موضوع در خصوص تقلب های ممکن در کارت های بانکی و همچنین تحلیل و شبیه سـازی اطلاعـات بـودهاست. درمجموع حدود 2/0 درصد (212 تراکنش) از کل داده های استفادهشده در این پـژوهش را داده های تقلب تشکیل داده است.
متغیرهای مدل
متغیرهای ورودی شبکه عصبی شامل 15 متغیر مستقلی است که در تعیین رفتـار دارنـده کـارتنقش دارند. برای متغیر خروجی در سیستم نیز یک پارامتر تعیین شده است. 15 متغیـر ورودی را فیلدهای اطلاعاتی منتخب از میان تمامی فیلدهای مربوط به تراکنش های ثبت شـده در سیسـتمبانکی تشکیل می دهند. این فیلدها از انواع مختلفی مانند عددی، رشته ای، تـاریخ، زمـان و غیـرههستند که برای تبدیل به متغیرهای قابل استفاده در مدل سازی باید به نوع عددی تبدیل شـوند .
لذا برای هر یک از متغیرها، روشی لحاظ شد تا به نوع عددی تبدیل شود.
متغیر وابسته مدل (Fraud-Detector)، به شکل یـک متغیـر طبقـه ای تعریـف شـده اسـت؛ به صورتی که این متغیر با پردازش متغیرهـای مسـتقل، یکـی از مقـادیر »سـالم « یـا »متقلبانـه(مشکوک به تقلب)« را به خود می گیرد. از آنجا که برای ایجاد مدل های پژوهش حاضـر مقـادیرعددی استفاده می شود، برای تراکنش های سالم مقدار متغیر وابسته صفر ( طبقـه منفـی ) و بـرایتراکنش های متقلبانه (یا مشکوک به تقلب)، مقدار یک (طبقه مثبـت ) لحـاظ شـده اسـت ؛ بـدینترتیب مقادیر رشته ای ذکرشده به عدد تبدیل شدند.
ایجاد مدل شبکه عصبی پرسپترون چندلایه
اغلب محققان شبکه های عصبی چندلایه پیشخور، بـه ویـژه شـبکه هـای پرسـپترون چندلایـه را تقریب زننده های جهانی معرفی می کنند و معتقدند این شبکه هـا در صـورت وجـود لایـه و تعـدادنورون کافی در لایه های خود، می توانند هر نگاشت غیر خطی را با هر تقریب دلخواه برآورد کنند.
شبکه های زیادی برای استفاده در طبقه بندی و پیش بینی پیشنهاد شده اسـت ، ولـی ایـن شـبکهیکی از موفق ترین شبکههای طبقهبندی و پیشبینی است (نوریگا، 2005). لذا در این پژوهش از این نوع شبکه عصبی مصنوعی برای طبقه بندی تراکنش ها به طبقات سـالم و متقلبانـه اسـتفادهشده است. شبکه پرسپترون از قاعده »پس انتشار خطا1« استفاده میکند که الگوریتم تعمیم یافتـه »حداقل مربعات خطا« است. شبکه های پرسپترون به دو نوع تکلایه و چندلایه تقسیم میشوند. در نوع چندلایه که تعمیم نوع تک لایه است، هر نورون در هر لایه به تمام نورون های لایه قبل، متصل است.
برای ایجاد شبکه عصبی پرسپترون چندلایه به منظور شناسایی تقلب در کـارت هـای بـانکی،پس از آزمایش حالت های مختلف ایجادشده برای شبکه عصبی (تعداد لایه های مختلـف، تعـدادگره های مختلف در هر لایه و توابع تبدیل مختلف) ، بهترین حالت انتخاب شده است. این کار بـامقایسه میانگین مربعات خطا (MSE)2 در هریـک از حـالات و در نظـر گـرفتن اصـل امسـاک3 به کمک نرم افزار انجام گرفته است. شبکه مد نظر باید بتواند متغیرهای مستقل را دریافت کنـد و پس از پردازش آنها با استفاده از قابلیت بازشناسی الگـو 4، مقـدار متغیـر وابسـته (مقـدار یکـی ازطبقات) را برآورد کند. در طراحی شبکه عصبی، از متغیرهای مستقل و وابسته پیش گفته اسـتفادهشده است؛ به این معنا که متغیرهای مستقل، واحدهای (نورون ها) مربوط به لایه ورودی شبکه و متغیر وابسته، واحد(های) مربوط به لایه خروجی شبکه را تشکیل میدهند.
از آنجا که شبکه عصبی می تواند تأثیرات متقابل متغیرها (روابـط بـین متغیرهـا) را شناسـاییکند، از واردکردن عبارت های مربوط به تأثیرات